Por The New York Times | Char Adams

INCLUSO PARA LAS NUEVAS TECNOLOGÍAS, LA ACCESIBILIDAD ES IMPORTANTE.

Una y otra vez, he intentado utilizar Siri de Apple o su función de transcripción de voz a texto, pero nunca me entiende, pues soy tartamuda.

Para personas como yo, la tecnología de voz que forma parte de la vida cotidiana de muchas personas puede parecer prácticamente inútil. Decirle a Alexa que reproduzca una canción o pedirle indicaciones a Siri puede ser casi imposible cuando los sonidos prolongados (“Aaaaaaaaa-lexa”) o entrecortados (“¡Eh... Si... ri!”) hacen que los dispositivos no entiendan mis órdenes o dejen de escucharlas por completo.

Según el Instituto Nacional de la Sordera y Otros Trastornos de la Comunicación, casi 7,5 millones de personas en Estados Unidos también “tienen problemas para usar la voz” debido a trastornos como la tartamudez o las alteraciones del habla causadas por la parálisis cerebral.

Los asistentes de voz podrían mejorar radicalmente nuestras vidas. Su inaccesibilidad podría llegar a ser peligrosa para las personas con discapacidades móviles, que podrían depender de los asistentes de voz para pedir ayuda. En cambio, a menudo no nos entienden.

“Mi habla es lenta y arrastro algunas palabras”, dijo Dagmar Munn, una instructora de bienestar jubilada que padece esclerosis lateral amiotrófica (ELA). Utiliza una andadera con ruedas y tiene disartria, en la que el debilitamiento de los músculos provoca un deterioro del habla. Dijo que se le dificultaba usar Alexa y el Asistente de Google, tecnologías de las que, a medida que su trastorno se agrava, podría depender aún más para obtener ayuda con tareas como ajustar la temperatura en su hogar y encender las luces.

“Aunque tengo cuidado de enunciar y pronunciar cuidadosamente las órdenes, el dispositivo deja de escuchar para cuando pronuncio la segunda palabra. No puedo hablar lo suficientemente rápido para cumplir con el tiempo de escucha preestablecido”, comentó Munn. “La novedad se desvaneció en cuanto realmente necesité que el dispositivo respondiera”.

Las empresas suelen diseñar la tecnología de voz de tal manera que se adapte al habla ininterrumpida de “la voz promedio del inglés norteamericano”, dijo Frank Rudzicz, profesor adjunto de la Universidad de Toronto que estudia el habla, el lenguaje y la inteligencia artificial. En consecuencia, los dispositivos de voz a veces no reconocen los distintos patrones del habla.

Para interpretar el discurso, los asistentes de voz suelen convertir las órdenes de voz en texto y comparar ese texto con palabras reconocibles en una base de datos. Históricamente, muchas bases de datos no han incluido datos de referencia recabados de personas con patrones de habla diferentes, como sonidos arrastrados y repeticiones de palabras. Rudzicz dijo que muchas empresas han tratado de “llegar al 80 por ciento de las personas con el 20 por ciento del esfuerzo”, utilizando una “voz por defecto”.

En otras palabras, las empresas rara vez han dado prioridad a los que tenemos un habla que no coincide con lo que, según suponen los ingenieros, es la norma.

A medida que la conversación nacional sobre los derechos de los discapacitados y la accesibilidad ha ido creciendo, algunas de esas empresas —entre ellas Google, Apple y Amazon— por fin han empezado a rediseñar sus productos existentes para intentar que funcionen para personas como yo.

Apple ha recopilado más de 28.000 fragmentos de audio de tartamudos con la esperanza de mejorar los sistemas de reconocimiento de voz de Siri. Amazon ha colaborado con Voiceitt, una aplicación que aprende patrones de habla individuales, para hacer que Alexa sea más accesible. Microsoft ha destinado 25 millones de dólares a la tecnología inclusiva. Además, Google ha trabajado con ingenieros del habla, logopedas y un par de organizaciones de ELA para iniciar un proyecto que permita entrenar su software actual a fin de que reconozca diversos patrones de habla.

Julie Cattiau, gerente de producto en el equipo de inteligencia artificial de Google, me dijo que, en última instancia, la compañía espera equipar al Asistente de Google para que se adapte al habla de un individuo. “Por ejemplo, las personas que tienen esclerosis lateral amiotrófica suelen tener problemas de habla y movilidad a medida que la enfermedad avanza”, señaló. “Así que sería útil para ellos poder utilizar la tecnología con el fin de encender y apagar las luces o cambiar la temperatura sin tener que moverse por la casa”.

Muratcan Cicek, candidato a doctorado en la Universidad de California, campus Santa Cruz, con parálisis cerebral, tiene un grave trastorno del habla; no puede caminar y tiene un control limitado de los brazos y las manos. Dice que durante años intentó utilizar Cortana de Microsoft y el Asistente de Google, pero no podían entenderlo. Tras unirse al proyecto de Google, dijo que pudo utilizar un prototipo del Asistente de Google mejorado.

A pesar del éxito de Cicek, Cattiau dijo que la tecnología de voz mejorada de Google todavía tiene un largo camino que recorrer antes de que pueda lanzarse al público. Estos esfuerzos incompletos —anunciados en 2019, tres años después del debut del Asistente de Google— son una muestra del problema más acuciante de la tecnología de voz: la accesibilidad rara vez forma parte de su diseño original.

Rudzicz mencionó que es más difícil modificar el software después de su creación que desarrollarlo teniendo en cuenta las capacidades diferentes desde el inicio. Cuando las empresas no dan prioridad a la accesibilidad desde el principio, descuidan a posibles clientes y perjudican el potencial de sus iniciativas de diversidad.

“Representamos una base de clientes con poder adquisitivo, un segmento que estas empresas están ignorando”, afirmó Munn. “No necesito dispositivos especiales para discapacitados. Solo quiero que los dispositivos normales me entiendan mejor”.

Las empresas deben asegurarse de que la tecnología de voz tenga en cuenta la diversidad de patrones del habla desde el momento en que llega al mercado. Y las comunidades de personas con discapacidad deben formar parte del proceso de desarrollo, desde la concepción hasta la ingeniería y el lanzamiento de los dispositivos.

Como mínimo, todas las empresas deben ofrecer la opción de ampliar el tiempo de escucha de los asistentes de voz —como lo han hecho algunas— para que las personas con impedimentos del habla puedan hablar tan lenta o rápidamente como sea necesario para emitir una orden clara.

Con los cambios adecuados, “todo puede activarse por voz”, afirmó Sara Smolley, una de las fundadoras de Voiceitt. “Ahí está el poder y hacia allá va la revolución de la voz y la tecnología de voz”.

Hay que incluir a las personas con discapacidades en esa revolución de la voz. El mundo activado por comando de voz ya no debe dejar atrás a nadie. Este artículo apareció originalmente en The New York Times. Los asistentes de voz no nos entienden, pero deberían hacerlo. (Irene Suosalo/The New York Times)