Unos científicos de Oxford afirman haber inventado un
sistema de inteligencia artificial que puede leer los labios mejor que los seres
humanos. El sistema ha sido entrenado durante miles de horas viendo programas
de BBC News y ha sido desarrollado en colaboración con la división DeepMind AI
de Google.
El
nombre del sistema es "Watch, Attend and Spell" (Mira, Atiende y
Deletrea), y puede leer los labios y descifrar correctamente aproximadamente el
50% de las palabras. Esa es una cifra impresionante, especialmente si se tiene en
cuenta que cuando lectores de labios profesionales fueron encargados de revisar
los mismos clips, sólo obtuvieron el 12% de exactitud.
Joon Son Chung, estudiante de doctorado en el Departamento de Ingeniería
de la Universidad de Oxford, explicó lo complicada que es esta tarea.
"Palabras (en inglés) como mat, bat y pat tienen formas similares (de ser pronunciadas)", dijo. Entonces es el contexto
el que ayuda a su sistema a entender qué palabras se está hablando. "Lo
que el sistema hace, es aprender cosas que van juntas, en este caso las posiciones
de los labios y los sonidos y lo que es más probable que diga después", explica Joon.
La BBC suministró
a los investigadores de Oxford clips de programas noticiosos como Breakfast,
Newsnight, Question Time y demás, con subtítulos alineados con los movimientos
de los labios de los conductores. A continuación, una
red neuronal que combina la última tecnología en reconocimiento visual y de
voz se puso a trabajar para aprender a leer labios.
Después de examinar 118 mil frases en los videos, el sistema ahora tiene
17.500 palabras almacenadas en su vocabulario. Debido a que ha sido entrenado
en el lenguaje usado en las noticias, ahora es bastante bueno para entender que
"Primer" a menudo será seguido por "Ministro" y "Unión"
por "Europea", pero mucho menos experto en reconocer palabras no
habladas por lectores de noticias.
Se necesita hacer mucho trabajo antes que el sistema pueda ser usado de
manera práctica, pero la institución caritativa Action on Hearing Loss se ha mostrada
entusiasmada por este último avance. "La tecnología de lectura de labios podría
ser capaz de mejorar la precisión y la velocidad del discurso al texto", dice Jesal Vishnuram,
gerente de investigación de tecnología de la institución.
En este momento el sistema tiene sus limitaciones: sólo puede funcionar
con frases completas de video grabado. "Queremos que funcione en tiempo
real", dice Joon Son
Chung. "Que aprenda mientras sigue viendo televisión". Y dice que
conseguir que el sistema funcione en vivo es un desafío menor al de mejorar su
precisión.
Él ve todo tipo de usos potenciales para esta tecnología, desde ayudar a
la gente a dar órdenes a sus smartphones en entornos ruidosos, a doblar viejas
películas mudas. En muchos casos, el sistema de lectura labial podría ser usado
para mejorar el desempeño de otras formas de reconocimiento del habla.
Donde los investigadores de Oxford y la organización benéfica de la
pérdida auditiva están de acuerdo, es en el hecho de que este no es un caso
donde la IA va a reemplazar a los humanos. Los lectores de labios profesionales
no necesitan temer por sus trabajos, pero pueden esperar un momento en que la
tecnología los ayude a ser mucho más precisos.
FUENTE: BBC, MIT
REVIEW