Estas máquinas pueden leer los labios mejor que las personas expertas
Imágenes normales de vídeo son suficientes para que un ordenador bien entrenado pueda leer los labios de las personas que aparecen en él como si fuera un experto
En una de las más inquietantes escenas de 2001: una odisea del espacio (Stanley Kubrick, 1968), los dos astronautas que viajan hacia Júpiter se encierran en una cápsula y desconectan los micrófonos para evitar ser oídos por H.A.L. 9000, la inteligente computadora que controla la nave. Sospechan de su mal funcionamiento y dudan sobre si desconectarlo; la decisión es crítica para misión. H.A.L. ciertamente no puede oírlos, pero el director de la película nos da a entender en un excelente plano lo que está sucediendo: al fondo de la imagen, la cámara de H.A.L. está leyendo el movimiento de los labios de ambos durante la conversación y enterándose perfectamente de lo que traman contra él. El resto es historia del cine.
Como a veces sucede, algo era propio de la ciencia-ficción hace unos pocos años empieza a estar a nuestro alcance hoy en día. Aunque la lectura de labios es una técnica realmente complicada incluso para los más experimentados, la inteligencia artificial de los ordenadores puede realizarla de forma efectiva y, según se ha publicado recientemente, supera en precisión a los humanos. El dato procede de un trabajo de investigadores de la Universidad de Oxford y se refiere a un sistema llamado LipNet [PDF] que emplea un modelo capaz de leer frases completas, es independiente de la persona que habla y emplea redes neuronales y aprendizaje automático (machine learning).
Una tarea llena de dificultades tecnológicas
Parte del problema para realizar esta tarea es que muchos de los movimientos de los labios (o “fonemas visuales”, llamados visemas, de los que hay unos 14) son prácticamente indistinguibles, incluso para los expertos; esos visemas están relacionados con unos 50 fonemas o sonidos individuales. Una de las formas de mejorar la precisión en esa interpretación es utilizar el contexto para dar prioridad a palabras que encajan mejor con dichos visemas según el tema que se esté tratando. Algo en lo que los ordenadores son muy capaces. El resultado es que LipNet puede interpretar correctamente un 93,4 por ciento de las palabras mientras que en la misma tarea un experto humano alcanza solo el 79,6 por ciento. Sus creadores dicen que LipNet llega a interpretar correctamente un 78% de «palabras sueltas» más que una persona sorda que esté acostumbrada a realizar esa misma lectura de labios.
Todo esto depende de muchas tecnologías, en especial del reconocimiento facial y de la geometría de la posición de los labios en las imágenes. Algo que están facilitando la llegada de mejores cámaras y más potentes procesadores y algoritmos, capaces de interpretar correctamente el ángulo de la imagen, las luces y sombras y cualquier otros pequeños detalle. Eso sin entrar en la dificultad que supone interpretar los rasgos de alguien con barba o bigote, por ejemplo.
Sonidos residuales, una ayuda importante
Otra forma de mejorar la eficiencia de la lectura de labios es aprovechar el sonido original, si acaso existe. Aunque muchas veces no está disponible o no con la calidad necesaria (por ejemplo el sonido ambiente de una sala llena de gente con varias conversaciones) a veces cualquier pequeña pista que se pueda extraer resulta útil. Ahí se puede aplicar un algoritmo de reconocimiento de voz convencional (como los de Apple, Google o Microsoft) e intentar aprovechar lo que se entienda, combinándolo con las imágenes.
De hecho entre las personas sordas que tienen algún tipo de capacidad auditiva, por pequeña que sea, esto es una importante pista de cara a mejorar la lectura de labios – es un problema leer los labios sin ninguna otra pista si la persona se mueve demasiado, alguien se interpone o la luz es escasa. Curiosamente, un estudio de la Universidad Florida Atlantic explicaba que los bebés aprenden a hablar tanto escuchando como fijándose en el movimiento de los labios, una especie de experiencia multisensorial.
Un problema cuando no se hace esto en tiempo real es que el vídeo y el audio de muchas grabaciones está desincronizado – y aunque para los seres humanos son aceptables incluso 5 décimas de segundo sin que percibamos la diferencia no es así para las máquinas. Si esto sucede la red neuronal se despista y es incapaz de interpretar correctamente lo que está viendo (porque oye otra cosa en ese instante) y ese entrenamiento no sirve. Es un efecto indeseable que se produce a veces con grabaciones de archivo.
Pruebas y aplicaciones prácticas
Google puso a trabajar a su inteligencia artificial DeepMind a aprender a leer los labios entrenándola con los vídeos de 5.000 horas de programación de la BBC, que incluían en total 118.000 frases y hasta 17.500 palabras distintas pronunciadas por personas con distintos rasgos en todo tipo de condiciones (luz ambiente, ángulos, movimientos, etcétera). En una prueba llevada a cabo tras el análisis DeepMind acertó el 46,8 de las palabras de 200 clips de vídeo, mientras que un profesional de lectura de labios tan solo atinó con el 12,4 por ciento sin errores.
Las aplicaciones de todos estos sistemas son también muy interesantes. Además de servir para obtener transcripciones de vídeos en los que no hay sonido o éste es de baja calidad pueden utilizarse para mejorar la precisión de las traducciones automáticas o interpretar a gran distancia una conversación si la imagen tiene suficiente detalle.
También hay otras propuestas curiosas al respecto: una es utilizar la técnica como sistema de contraseñas que dependa no solo del tono de voz sino también de la forma de mover los labios al pronunciar la palabra clave. Otra es usar esta tecnología en el interior de un coche (ambiente ruidoso) combinando reconocimiento de voz y lectura de labios; Hyundai obtuvo una patente al respecto, con la premisa de que el coche entienda siempre a la persona y que no sea necesario mover la cabeza ni apartar la vista de la carretera para dirigirse al micrófono intentando minimizar el ruido.
La forma de comercializar este tipo de sistemas también ha cambiado: antiguamente había que comprar una costosa licencia de software o pagar una especie de royalties por todo lo que se obtuviera con invenciones derivadas, además de las casi obligatorias actualizaciones. Hoy se venden como servicios de pago-por-uso. Un buen ejemplo sería Watson, la inteligencia artificial de IBM: el servicio de conversión de voz a texto cuesta 2 céntimos por minuto, y los primeros mil minutos mensuales son gratis. ¡Quién le hubiera dicho a H.A.L. que terminaríamos comprando inteligencia artificial “al peso”!
No hay comentarios:
Publicar un comentario