Tendencias

Miedo: Científicos del MIT logran que Inteligencia Artificial construya rostros a partir de voces

Miedo: Científicos del MIT logran que Inteligencia Artificial construya rostros a partir de voces
T13
Compartir
Un nuevo algorritmo es capaz de reconstruir un rostro y sus características a través de la voz de la persona.

Un estudio desarrollado por el Insituto Tecnológico de Massachusetts y publicado por el laboratorio de Ciencias Informáticas e Inteligencia Artificial del MIT, da cuenta de una nueva herramienta basada en Inteligencia Artificial.

La innovadora aplicación llamada Speech2Face, se trata de la creación de algorritmos capaces de reconstruir el aspecto del rostro de una persona tomando en cuenta factores de edad, género y etnia de una persona solamente con su voz como punto de partida.

"Nuestro objetivo no es reconstruir una imagen precisa de la persona, sino recuperar las características físicas que se correlacionan con el habla de entrada", explican los autores en su publicación.

La herramienta funciona a través de un diseño y entrenamiento a una red neuronal profunda para realizar esta tarea, la que utilizando millones de videos de personas que hablan desde Internet (como Youtube), aprende audiovisuales y correlaciones de voz que le permiten producir imágenes que capturan varios atributos físicos de los hablantes. 

Uno de los problemas que expresa la publicación, es que la muestra no representa por igual a toda la población mundial. Esto quiere decir que un conjunto de personas puede tener rasgos vocales y visuales que son relativamente poco comunes en los datos, entonces la calidad de las reconstrucciones para esos casos puede degradarse.

"Por género, hay un acuerdo del 94% en etiquetas hombre / mujer entre las imágenes verdaderas y las reconstrucciones desde el habla. Para la etnicidad, existe una buena correlación entre el 'blanco' y el "asiático", pero observamos menos acuerdo en 'india' y 'negro'", se detalla. 

El estudio agrega que por ejemplo, "si un determinado idioma no aparece en los datos de entrenamiento, nuestras reconstrucciones no capturarán bien los atributos faciales que pueden estar relacionados con ese idioma".

Revisa acá los ejemplos la reconstrucción de rostros hechas en el estudio: 

Señal T13 En Vivo