Una mujer que perdió el habla debido a un derrame cerebral pudo hablar y transmitir emoción usando un avatar digital parlante. Ello sucedió gracias a un nuevo trabajo de los investigadores de la Universidad de Berkeley, en Estados Unidos, que muestra que es posible una decodificación más natural del habla utilizando los últimos avances en inteligencia artificial.
Ann es la participante de la investigación de neuroprótesis del habla y está conectada a computadoras que traducen sus señales cerebrales en los movimientos del habla y faciales de un avatar digital.
Los investigadores describen su trabajo en un estudio publicado este miércoles 23 de agosto en la revista Nature. Dirigidos por el neurocirujano Edward Chang, los investigadores han desarrollado un dispositivo implantable impulsado por inteligencia artificial que, por primera vez, traduce las señales cerebrales en expresiones faciales y del habla moduladas.
IR MÁS ALLÁ DE LA ORTOGRAFÍA
El coautor del estudio, Gopala Anumanchipalli, dijo: “Investigamos formas de hacer síntesis del habla a partir de registros de actividad cerebral mientras trabajábamos con pacientes con epilepsia. Pero estos son altavoces capaces de otra manera. Así que teníamos algún tipo de idea de que podíamos leer el cerebro. Luego pensamos que deberíamos intentar usar esto para ayudar a las personas que están paralizadas”.
Añadió: “En este proyecto nos propusimos aumentar el vocabulario y la precisión, pero lo más importante es que nuestro objetivo era ir más allá de la decodificación de la ortografía. Queríamos ir directamente al lenguaje hablado porque ese es nuestro modo de comunicación y es la forma más natural de aprender”.
LA MOTIVACIÓN DEL AVATAR DIGITAL
La motivación detrás del avatar digital era ayudar al participante a sentirse encarnado, ver una semejanza y luego controlar esa semejanza. Así que, para ese propósito, “queríamos ofrecer una experiencia de comunicación multimodal”.
El estudio también indica que debido a que las personas con parálisis no pueden hablar, no tenían como verdad fundamental lo que ellas quieren decir. “Así que incorporamos una técnica de optimización de aprendizaje automático llamada pérdida CTC, que nos permitió asignar señales cerebrales a unidades discretas, sin la necesidad de audio de verdad de tierra”.
“Luego sintetizamos las unidades discretas previstas en voz. Las unidades discretas del habla codifican aspectos como el tono y el tono, que luego se sintetizan para crear un audio que se acerca más al habla natural. Son esas inflexiones y cambios de cadencia los que transmiten mucho significado en el habla más allá de las palabras reales”, indica el coautor.
UN AVATAR DIGITAL PARA DECODIFICAR LA VOZ
Con el avatar digital los científicos buscaron proporcionar una salida complementaria a la decodificación de voz y texto. El avatar se puede utilizar para transmitir muchas expresiones que no son de habla.
“Por ejemplo, en el documento, mostramos que podíamos decodificar la capacidad del participante para sonreír, fruncir el ceño o hacer una cara sorpresa, y a diferentes intensidades, de baja a alta. Además, demostramos que podíamos decodificar gestos articulatorios sin habla, como abrir la boca, fruncir los labios, etcétera”, señaló Chang.
La participante quiere algún día trabajar como consejera y expresó que ser capaz de transmitir emociones a través de expresiones faciales sería valioso para ella. Dicho esto, el desafío de usar un avatar es que tiene que ser de alta fidelidad, para que no tenga un aspecto poco realista.
“Cuando comenzamos este proyecto, trabajamos con un avatar muy crudo, que no era muy realista y no tenía un modelo de lengua. Como neuroingenieros, necesitábamos un avatar digital de alta calidad que nos permitiera acceder a su sistema muscular y de masa vocal. Así que buscar una buena plataforma para hacer eso era fundamental”. N