https://static.elcomercio.es/www/menu/img/tecnologia-desktop.jpg

La inteligencia artificial reconstruye rostros a través de la voz

La inteligencia artificial reconstruye rostros a través de la voz

Completa caras de etnias blancas y asiáticas, pero no de raza negra o india

JOSÉ ANTONIO GONZÁLEZ

Rastrear imágenes falsas, crear rostros a partir de otras fotografías, terminar dibujos. Estas son algunas de las acciones que varios algoritmos e inteligencias artificiales son capaces de realizar. A esta lista ahora hay que añadir un renglón más: crear un rostro a partir de la voz.

El MIT de Massachusetts ha desarrollado una herramienta que es capaz de recrear o reconstruir la imagen de una personas a través de la voz. Speech2Face toma las ondas sonoras y es capaz de determinar factores como la edad, el género y la etnia de una persona.

Construido sobre una red neuronal de aprendizaje profundo, Speech2Face está entrenada y alimentada por una base de datos open source con voces de más de 100.000 personas. «No es reconstruir una imagen precisa de la persona, sino más bien recuperar características físicas que están correlacionadas con el habla», apunta los autores del estudio.

La imagen generada es la del rostro de una persona de frente, con gesto neutro, y se han expuesto junto a imágenes reales de los famosos en los vídeos para mostrar el parecido con el original.

Las cifras de las estadísticas de las pruebas y correlaciones entre rasgos faciales y las voces, alcanzan un 94% de precisión a la hora de determinar el género.

La Inteligencia Artificial logra reconstruir el rostro de personas solo a través de su voz  Los resultados a la hora de identificar a personas de etnias blancas y asiáticas han sido buenos, según los investigadores, pero no tanto en los casos de personas de raza negra o de India, posiblemente debido a su menor presencia en las bases de datos. 

Speech2Face aprende de los vídeos de la base de datos correlaciones de audio y sonido entre las voces de las personas y sus caras, centrándose en atributos físicos como la edad, el género y la etnia, pero añadiendo también otros como varias medidas y proporciones craneofaciales.

Además, los investigadores del laboratorio de Ciencias Informáticas e Inteligencia Artificial del MIT han utilizado también la base de datos VoxCeleb, formada por millones de vídeos publicados en Internet en los que aparecen 7.000 personas famosas en entrevistas, en fragmentos cortos de al menos tres segundos.