«Estamos utilizando IA para ampliar la variedad de idiomas que admitimos. Gracias a nuestro modelo de lenguaje grande PaLM 2, estamos implementando 110 nuevos idiomas en Google Translate, nuestra mayor expansión hasta la fecha«, ha informado Isaac Caswell, ingeniero de software senior de la tecnológica, en un post de blog.

Estos nuevos lenguajes, entre los que se encuentran el cantonés o el panyabí, representan a los idiomas nativos de 614 millones de personas en todo el mundo, lo que abre el uso de Google Translate a otro 8% de la población mundial, como indican desde Google. Además, un cuarto de estos nuevos idiomas son dialectos de África, suponiendo la mayor expansión para este continente de idiomas disponibles en la herramienta de traducción. Desde Google, mencionan en especial unos siete idiomas dentro del pack de 110. Son los siguientes:

  • Afar: una lengua tonal hablada en Djibouti, Eritrea y Etiopía.
  • Cantonés: este ha sido durante mucho tiempo uno de los idiomas más solicitados para Google Translate; a la compañía estadounidense le costó integrarlo dado que el cantonés a menudo se superpone con el mandarín en la escritura, lo que hace complicado encontrar datos y entrenar modelos.
  • Manx: la lengua celta de la Isla de Man. Se trata de un idioma que casi se extinguió con el fallecimiento de su último hablante nativo en 1974. Tras unos esfuerzos de conservación, actualmente hay miles de hablantes de este idioma.
  • Nko: una forma estandarizada de las lenguas mandingas de África occidental que unifica muchos dialectos en un idioma común.
  • Punyabí: es la variedad de punjabi escrito en escritura persoárabe (Shahmukhi) y es el idioma más hablado en Pakistán.
  • Tamazight (amazigh): es una lengua bereber que se habla en todo el norte de África.
  • Tok Pisin: es un criollo de origen inglés y la lengua franca de Papua Nueva Guinea.

Tal y como comentan desde Google, decidir en qué idiomas centrarse es algo difícil teniendo en cuenta que existen muchísimos dialectos y variaciones de algunas lenguas, y en ocasiones no es obvio distinguir en qué variante sería más adecuado trabajar. Frente a esto, el enfoque «ha sido priorizar las variedades más utilizadas de cada idioma», explican. «Por ejemplo, el romaní es una lengua que tiene muchos dialectos en toda Europa. Nuestros modelos producen texto más cercano al Vlax Romani sureño, una variedad comúnmente utilizada en línea. Pero también mezcla elementos de otros, como el Vlax del Norte y el Romaní de los Balcanes», indica Caswell.

La IA, clave en este desarrollo

Desde Google exponen que su modelo PaLM 2 ha sido una «pieza clave» a la hora de desentrañar los entresijos de dialectos que se parecen mucho unos a otros, para los que hay que hilar muy fino. El uso de este modelo de IA ayudó al Traductor a «aprender idiomas con mayor eficacia que están estrechamente relacionados entre sí, incluidos idiomas cercanos al hindi, como el awadhi y el marwadi, y criollos franceses como el criollo de Seychelles y el criollo de Mauricio».

Google no pretende quedarse aquí, sino que quiere continuar añadiendo nuevos dialectos con el tiempo hasta alcanzar un catálogo de las 1.000 lenguas más habladas en el mundo, como parte de la llamada «Iniciativa de los 1.000 idiomas«, para la que se seguirán apoyando en inteligencia artificial.

 

Fuente: Google | adslzone