M2M-100 consigue unos resultados hasta diez puntos superiores que los mecanismos basados en inglés utilizando la escala BLEU, empleada para evaluar la calidad de traducciones realizadas por sistemas de traducción automática, como informó Facebook en un comunicado.
La mayor parte de herramientas de traducción emplean el inglés como paso intermedio para traducir desde otros idiomas porque es el idioma con mayor cantidad de datos disponibles. El sistema de Facebook soluciona este problema introduciendo 2.200 tipos distintos de traducciones -conocidos como direcciones-, diez veces más que las que emplean los convencionales.
De esta manera, las traducciones de la nueva herramienta usan conjuntos de datos "de muchos a muchos", como los describe la empresa estadounidense, con 7.500 millones de frases para cien idiomas. Estos datos se han obtenido de fuentes de datos públicas como las bases de datos ccAligned, ccMatrix y LASER.
Para reducir la cantidad de datos necesarios, M2M-100 utiliza la base de datos LASER 2.0, con identificación del idioma mejorada, y además se enfoca en los idiomas con mayor cantidad de datos disponibles, pero no solo el inglés, sino obviando traducciones poco frecuentes como del islandés al nepalí.
Además, la estrategia de Facebook tiene en cuenta factores como la geografía y las similitudes culturales para priorizar las lenguas que más se traducen entre ellas, seleccionando 14 grupos de lenguas en las que cada uno se conectó con los idiomas de su grupo.
Para su funcionamiento, el sistema emplea varias técnicas de escalado para construir un modelo universal con 15.000 millones de parámetros, lo que captura información de idiomas relacionados y proporciona un resultado más preciso.
Con información de Europa Press