Borrar
Antoni Oliver, coordinador del proyecto TAN-IBE y profesor de los Estudios de Artes y Humanidades de la UOC; Ignacio Villaverde, rector de la Universidad de Oviedo y Cristina Valdés, investigadora y profesora del Departamento de Filología Inglesa, Francesa y Alemana de la Universidad de Oviedo. E. C.
La Inteligencia Artificial habla asturiano

La Inteligencia Artificial habla asturiano

La Universidad de Oviedo ha participado en el proyecto Traducción automática neuronal para las lenguas románicas de la península ibérica, que permite obtener traducciones más naturales y coherentes

Olga Esteban

Gijón

Miércoles, 30 de abril 2025, 10:02

Traducción automática neuronal para las lenguas románicas de la península ibérica. Quizás, ese nombre, le resulte complicado saber delo que estamos hablando. Es el nombre de un ambicioso proyecto en el que ha participado la Universidad de Oviedo y que ha permitido que la Inteligencia Artificial pueda traducir con mucha más precisión al asturiano.

Porque es cierto que hace tiempo que la IA nos permite traducir idiomas, de forma rápida y sencilla, desde nuestros propios teléfonos móviles. Al menos, con las lenguas mayoritarias. Pero el asturiano no lo es.

Cuando los investigadores se preguntan qué hacer en esos casos, encuentran la respuesta «en el aprendizaje por transferencia y el entrenamiento de sistemas multilingües«. Eso es lo que han hecho para poder traducir las lenguas románicas de la península ibérica: entrenar a la Inteligencia Artificial. Es la base del proyecto Traducción automática neuronal para las lenguas románicas de la península ibérica (TAN-IBE), financiado por el Ministerio de Ciencia, Innovación y Universidades, coordinado por la Universitat Oberta de Catalunya (UOC) y con la participación de las universidades de Oviedo, Lleida y Zaragoza.

El proyecto ha buscado y utilizado las técnicas más efectivas para entrenar sistemas de traducción automática basados en redes neuronales (que son un tipo de IA) y las ha aplicado a varias lenguas románicas de la península ibérica: español, aragonés, aranés y asturiano.

El proyecto ha sido presentado en el Aula Magna del Edificio Histórico, en un acto que debería haberse celebrado el lunes y que fue aplazado por el apagón general, y que ha contado con la presencia de Ignacio Villaverde, rector de la Universidad de Oviedo, y de los profesores responsables de la investigación.

Cristina Valdés, profesora del Departamento de Filología Inglesa, Francesa y Alemana de la Universidad de Oviedo, ha explicado qué es la traducción automática neuronal (conocida por sus siglas TAN), una tecnología que emplea redes neuronales artificiales para generar traducciones de un idioma a otro. «La gran diferencia con los sistemas de traducción automática tradicionales reside en que la TAN aprende patrones complejos de grandes cantidades de datos y puede producir traducciones más naturales y coherentes».

De este modo, los sistemas de traducción basados en redes neuronales se entrenan a partir de millones de oraciones en una lengua con su traducción en otra lengua. Es lo que se conoce como corpus paralelos, inmensos conjuntos de datos disponibles en dos lenguas. Una vez que la red neuronal está entrenada, es capaz de traducir con eficacia cualquier texto en esas lenguas. «El problema es que, con idiomas como el español o el portugués, es sencillo encontrar esos corpus paralelos, pero con aquellas lenguas que tienen menos material disponible —como el aranés, el aragonés o nuestro asturiano— es complicado tener suficientes datos para entrenar a la inteligencia artificial», añade Valdés.

Aprendizaje por transferencia de lenguas

«Lo bueno es que los sistemas neuronales pueden aprender cosas de una lengua a partir de otra que se le parezca», explica Antoni Oliver, coordinador del proyecto TAN-IBE y profesor de los Estudios de Artes y Humanidades de la UOC. «Por eso escogimos las lenguas románicas. El proceso deberá ser capaz de aprender por transferencia utilizando un modelo entre dos lenguas para construir el sistema de traducción entre otras dos. Así, por ejemplo, cuando esté terminada, la herramienta de traducción español-aranés habrá aprendido en parte gracias al sistema español-catalán o al español-portugués».

La construcción del modelo de traducción no es el único objetivo del proyecto de investigación, que busca, además:

-Compilar corpus paralelos y monolingües para las siete lenguas románicas que se incluyen en la propuesta, dedicando un mayor esfuerzo al asturiano, el aragonés y el aranés.

-Explorar nuevas técnicas para el entrenamiento de sistemas de traducción automática neuronal. Además del aprendizaje por transferencia, se estudiará la traducción automática multilingüe, la traducción automática autosupervisada y la traducción automática no supervisada.

- Entrenar sistemas de traducción automática neuronal entre el español y el resto de las lenguas del proyecto, en ambas direcciones.

- Entrenar sistemas multilingües capaces de traducir desde y hacia todas las lenguas del proyecto.

-Crear guías y scripts que faciliten el entrenamiento de sistemas de traducción automática neuronal en general y, más en concreto, para las lenguas del proyecto.

-Publicar los resultados del proyecto con licencias libres. Esto incluye los corpus compilados, los modelos y motores de traducción automática y las guías y scripts.

Recopilación de textos en asturiano

Para llevar a cabo todo este trabajo, lo primero que tuvieron que hacer los investigadores fue recopilar todos los corpus posibles para las lenguas con menos material, asturiano, aragonés y aranés. Después, tuvieron que entrenar los sistemas de traducción. Y eso se va a ver reflejado en la publicación libre de recursos y en la creación de un sistema de traducción automática neuronal libre de uso.

En el caso del asturiano y para poder llevar a cabo toda la recopilación de ese corpus de textos, es decir, el máximo de material disponible de las lenguas, se llegó a un acuerdo con el Principado de Asturias para la cesión de todo el corpus de textos traducidos del castellano al asturiano que posee la Dirección General de Política Lingüística. El convenio recoge también que, si el Principado lo requiere, podrá disponer de los desarrollos tecnológicos y lingüísticos del proyecto TAN-IBE para su aprovechamiento en posibles proyectos propios de traducción automática. Además, la Academia de la Llingua Asturiana, servicios de normalización lingüística, empresas y autores han cedido parte de sus fondos.

En última instancia, con este proyecto se pretende «ayudar a fomentar el uso de las lenguas con menos recursos y que se publique más en dichas lenguas». Por ejemplo, todas las leyes podrían publicarse en dos lenguas de forma rápida y eficiente, aunque siempre se necesitaría una revisión humana. Además, las personas que no se atreven a usar estas lenguas porque no se sienten seguras pueden apoyarse en estas herramientas para mejorar sus textos. «Las lenguas como el asturiano, el aragonés o el aranés deben formar parte de las tecnologías digitales. Si no, pueden ir desapareciendo y ser olvidadas«, concluye Antoni Oliver.

Esta funcionalidad es exclusiva para suscriptores.

Reporta un error en esta noticia

* Campos obligatorios

elcomercio La Inteligencia Artificial habla asturiano