Implantes cerebrales y un avatar digital "devuelven” el habla a una mujer con parálisis
El sistema genera una media de 78 palabras por minuto, con un 28 % de error para un vocabulario de más de 39.000 palabras.
Algunas enfermedades dejan atrapados en el silencio a quienes las padecen. La tecnología que trata de devolverles la capacidad de comunicarse traduciendo la actividad cerebral en palabras ha desarrollado dos nuevos tipos de implantes que hacen más rápido, preciso y variado ese proceso.
Una de las dos nuevas interfaces cerebro-ordenador (BCI), sobre las que se publican sendos artículos en Nature, no solo traduce la actividad neuronal en texto, sino que se complementa con un avatar digital que puede sintetizar la voz, similar a la que tenía el usuario, y algunas expresiones faciales.
Los nuevos dispositivos generan texto a una media de 78 y 62 palabras por minuto, respectivamente, aún lejos de las 160 de la conversación normal, pero muy por encima de otras pruebas, además amplían el vocabulario y reducen la tasa de errores.
Estas interfaces son por ahora pruebas de concepto limitadas al laboratorio, pero suponen un avance significativo en el propósito de facilitar la comunicación a personas con un grado de parálisis de los músculos que les imposibilita el habla debido, por ejemplo, a un ictus o la esclerosis lateral amiotrófica (ELA).
“Con estos nuevos estudios, es posible imaginar un futuro en el que podamos devolver la fluidez de la conversación a alguien con parálisis, permitiéndole decir libremente lo que quiera con una precisión lo bastante alta como para que se le entienda con fiabilidad”, dijo en una rueda de prensa virtual Frank Willet, coordinador de uno de los estudios de la Universidad de Stanford (EE.UU.).
El primer BCI es responsabilidad de un equipo liderado por Edward Chang, de la Universidad de California en San Francisco, y ha permitido a una mujer, identificada como Ann y con parálisis severa por un derrame cerebral, hablar a través de un avatar digital.
El sistema genera una media de 78 palabras por minuto, con un 28 % de error para un vocabulario de más de 39.000 palabras.
El equipo implantó un rectángulo fino como un papel con 253 electrodos en la superficie del cerebro de la mujer, en zonas fundamentales para el habla, los cuales interceptan las señales cerebrales que, de no haber sido por el ictus, habrían ido a parar a los músculos de la lengua, la mandíbula, la laringe y la cara.
Un cable, conectado a un puerto fijado a su cabeza, conectaba los electrodos a un banco de ordenadores.
El siguiente paso fue entrenar un modelo de aprendizaje profundo para reconocer las señales cerebrales únicas de Ann relacionadas con el habla mientras ella intentaba pronunciar frases completas en silencio.
Esta inteligencia artificial no reconoce palabras, sino los 39 fonemas que componen el inglés hablado, lo que mejoró la precisión del sistema y lo hizo tres veces más rápido.
Pero el equipo no se limitó a descodificar las señales del habla en texto, porque la comunicación no son solo palabras. “Nuestra voz y expresiones faciales forman parte de nuestra identidad”, recalcó Chang en el encuentro con la prensa.
Así, crearon un algoritmo para sintetizar el habla, que personalizaron para que sonara como la voz de Ann antes de la lesión, utilizando una grabación de la mujer en su boda, explicó Sean Metzger, de la Universidad de California.
El sistema se completa con un avatar en la pantalla del ordenador animado por un software que simula los movimientos musculares de la cara al hablar y además reproduce expresiones como felicidad, sorpresa o tristeza.
Metzger precisó que este avatar es una prueba de concepto preliminar, pero creen que “podría ser una tecnología potente para comunicarse sin hablar activamente”.
El segundo BCI presentado ha ayudado a Patt Bennet, de 68 años, a empezar a comunicarse de nuevo. En 2012 le diagnosticaron ELA, enfermedad que le afectó en primer lugar los músculos de la cara, lengua y faringe. Aunque su cerebro puede formular instrucciones para generar fonemas, ella solo puede producir algún sonido no articulado.
Willet, coordinador de este segundo equipo, de la Universidad de Stanford, explicó que la mayor diferencia entre ambos dispositivos es la tecnología de registro, en su caso a base de matrices de microelectrodos de alta resolución que pueden registrar la actividad de neuronas individuales.
En 2022, el equipo implantó en el cortex cerebral de la paciente dos pequeños sensores que forman parte de un BCI para traducir en palabras en una pantalla la actividad cerebral que acompaña a los intentos de habla de Bennet.
Un algoritmo de inteligencia artificial recibe y descodifica la información electrónica procedente del cerebro y acaba aprendiendo a distinguir la actividad cerebral asociada a sus intentos de formular cada uno de los 39 fonemas.
Tras 25 sesiones de cuatro horas para entrenar el software, los intentos de Bennett de hablar se convirtieron en palabras en la pantalla de un ordenador a una velocidad de 62 palabras por minuto, con una tasa de error del 23,8 % para un vocabulario de 125.000 palabras.
Estos dispositivos aún están lejos de poder usarse en la vida cotidiana, pero son un gran avance hacia ese objetivo, coincidieron los dos equipos.
Con estos trabajos “hemos cruzado el umbral del rendimiento y estamos entusiasmados por cruzar el de la usabilidad. Ya no es una cuestión de si es posible”, dijo Chang.
Ambos científicos destacaron la labor de los participantes en estos ensayos experimentales que, como tal, se realizan por un tiempo limitado. Son “realmente un grupo especial de personas”, que -destacó Willet- “no esperan ningún beneficio de este ensayo y solo están interesados en ayudar a impulsar la tecnología”.