Según el equipo de Microsoft, alrededor del 15% de las búsquedas que realizan los usuarios en Bing tienen errores ortográficos. Cuando las búsquedas están mal escritas, Microsoft hace coincidir un conjunto de documentos incorrectos y el buscador muestra respuestas incorrectas, lo que impide a los usuarios obtener resultados óptimos.

Para mejorar los resultados, Microsoft ha desarrollado Speller100, que se inspira en el proyecto de investigación de Inteligencia Artificial de Facebook, BART, un codificador automático de eliminación de ruido para preentrenamiento de modelos secuencia a secuencia (s2s) a nivel de palabra que genera, traduce y comprende un lenguaje natural.

Speller100 enmarca la corrección ortográfica como un problema del codificador automático que elimina el ruido de secuencia a secuencia a nivel del carácter o letra. A continuación, construye datos de preentrenamiento con mutaciones a nivel del carácter para imitar errores ortográficos.

El equipo de Microsoft diseñó funciones de ruido para generar errores comunes a la hora de escribir, como la rotación (micorsoft), inserción (micrrosoft), eliminación (micrsoft) y reemplazo (mictosoft) de unas letras por otras. Gracias a las funciones de ruido, no se necesita un gran corpus de búsquedas mal escritas, sino que se obtiene un modelo previamente entrenado.

Speller100 se basa en el concepto de familias de idiomas, es decir, grandes grupos de idiomas que comparten similitudes lingüísticas. Además, utiliza el concepto de aprendizaje de acción cero, que permite que un modelo aprenda y corrija la ortografía con precisión sin ningún dato de entrenamiento adicional etiquetado específico del idioma, lo que permite desarrollar Speller100 para idiomas con muy pocos datos.

Según datos de Microsoft, tras realizar diferentes pruebas en Bing utilizando Speller100, se ha reducido en un 5% el número de veces que los usuarios tuvieron que reformular manualmente su consulta, y las páginas sin resultados se han reducido un 30%.

Hasta ahora, la corrección ortográfica estaba disponible para aproximadamente dos docenas de idiomas, pero con Speller100 Microsoft ha diseñado un modelo de corrección ortográfica inclusivo que expande su servicio a más de 100 idiomas.

Con información de Europa Press