La herramienta, que se pondrá a disposición del público, también puede pasar el habla a texto en 101 lenguas
15 ene 2025 . Actualizado a las 19:46 h.Un modelo de inteligencia artificial (IA) desarrollado por Meta es capaz de traducir el habla de forma instantánea, de voz a voz, en 36 lenguas del mundo. También puede hacerlo de voz a texto en un total de 101 idiomas. Meta ya había presentado una primera versión del modelo en agosto del 2023, pero ahora ha incorporado diferentes innovaciones, como señalan los investigadores en un artículo publicado este miércoles en la revista Nature.
El modelo, denominado SEAMLESSM4T, supera a otras herramientas existentes y puede allanar el camino hacia las traducciones simultáneas universales.
El modelo tiene recursos «que se pondrán a disposición del público -para uso no comercial- para ayudar a seguir investigando» las tecnologías de traducción de voz inclusivas, según avanzan los autores en Nature y recoge Efe.
Realizar traducciones universales instantáneas es algo que, por ahora, formaba parte del ámbito de la ciencia ficción en ejemplos como El pez de Babel, un pequeño pez amarillo incluido en la Guía del autoestopista galáctico, de Douglas Adams, que se insertaba en una oreja y traducía simultáneamente de manera telepática de una lengua hablada a otra.
Tener algo así sería muy útil para facilitar la comunicación en un panorama global interconectado, pero hoy por hoy la mayoría de los sistemas de traducción por aprendizaje automático están orientados al texto o requieren varios pasos: reconocer la voz, traducir el texto y convertirlo de texto a voz en otro idioma.
Además, la cobertura lingüística de los modelos actuales de conversión de voz a voz es menor que la de los modelos de traducción de texto a texto y suele estar sesgada hacia la traducción de un idioma de origen al inglés.
El modelo desarrollado por Seamless Communication de Meta, sin embargo, admite múltiples modos de traducción hasta en 101 idiomas.
SEAMLESSM4T facilita la traducción de voz a voz (reconoce 101 idiomas y traduce a 36 idiomas), la traducción de voz a texto (101 a 96 idiomas), la traducción de texto a voz (96 a 36 idiomas), la traducción de texto a texto (96 idiomas) y el reconocimiento automático de voz (96 idiomas).
En el caso de la traducción de voz a voz, SEAMLESSM4T traduce textos con una precisión hasta un 23 % mayor que la de otros sistemas existentes.
Además, el modelo de inteligencia artificial puede filtrar el ruido de fondo y adaptarse a las variaciones del hablante, detalla el artículo de Nature.
Por todo ello, los autores aseguran que, aunque todavía son necesarias algunas mejoras, SEAMLESSM4T puede suponer un paso adelante en los avances de la comunicación más allá de las barreras lingüísticas.
En un News and Views publicado en Nature, Tanel Alumäe, del Laboratorio de Lenguaje Tecnológico en la Universidad de Tecnología (TalTech) de Tallin, Estonia, destaca que el modelo sea capaz de traducir directamente en 36 idiomas, algo «impresionante» porque puede -por ejemplo- traducir del inglés hablado al alemán hablado sin tener que transcribirlo primero en inglés para traducirlo después.
Pero para este investigador, la mayor virtud de este trabajo no es la idea o el método que propone, sino el hecho de que todos los datos y el código para ejecutar y optimizar esta tecnología están a disposición del público (siempre que no se utilice con fines comerciales), lo que demuestra que Meta es «uno de los mayores defensores de la tecnología lingüística de código abierto».
En cuanto a los retos, Alumäe apunta que, aunque el modelo SEAMLESS traduce un centenar de idiomas, el número de lenguas habladas en el mundo es de unas 7.000, además la herramienta aún tiene dificultades en muchas situaciones que los humanos manejan con relativa facilidad como conversaciones en lugares ruidosos o entre personas con acentos muy marcados.
Sin embargo, «los métodos de los autores para aprovechar los datos del mundo real abrirán un camino prometedor hacia una tecnología del habla que rivalice con la ciencia ficción», pronostica.
Rodolfo Zevallos, investigador del grupo de Tecnologías del Lenguaje del Barcelona Supercomputing Center (BSC), asegura, en declaraciones recogidas por SMC España, que este modelo «marca un avance importante en este campo al unificar múltiples tareas en un sistema único, robusto y eficiente». «Este modelo admite una amplia gama de funciones, que incluyen reconocimiento automático de voz (ASR), traducción de texto a texto (T2TT), texto a voz (T2ST), voz a texto (S2TT) y voz a voz (S2ST), todo ello en un buen número de idiomas. Además, destaca por su diseño modular, que permite utilizar cada componente de forma independiente. Esta flexibilidad resulta especialmente valiosa, ya que facilita la personalización, optimiza el uso de recursos y mejora su aplicabilidad en diversos contextos prácticos».
El experto destaca, asimismo, «la robustez del modelo frente a ruidos de fondo y la variabilidad debida al hablante», lo que asegura un alto nivel de precisión incluso en condiciones adversas. Por otro lado, considera «notable su contribución a una inteligencia artificial más responsable, con reducciones significativas en niveles de toxicidad y una evaluación sistemática de sesgos de género, aspectos esenciales para garantizar la equidad en su uso».
Por su parte, Raquel Fernández, catedrática de Lingüística Computacional y Sistemas de Diálogo en la Universidad de Ámsterdam y vicedirectora de Investigación del Instituto de Lógica, Lenguaje y Computación (ILLC) de la Universidad de Ámsterdam, subraya a SMC España que «además de ofrecer una mayor cobertura que modelos anteriores, el modelo resultante tiende a generar traducciones de mejor calidad en cuanto a sonido, claridad, y contenido», aunque «traducir a voz sigue siendo más complejo que generar una traducción escrita». «El habla producida automáticamente puede no ser siempre expresiva y natural. De manera similar, al traducir de voz a texto, el modelo puede tener problemas para procesar el habla en función de factores como el género, el acento o el idioma. La evaluación de las capacidades del modelo también revela que tiende a mostrar sesgo de género», destaca Raquel Fernández, puesto que, al estar basado en las enormes cantidades de datos que usa para su entrenamiento, al pasar de un idioma donde no se especifica el género a otro que sí lo hace tiene tendencia a reproducir los estereotipos más comunes.