Por The New York Times | Kevin Roose
Cuando abrí mi computadora portátil el martes para realizar mi primera prueba con GPT-4, el nuevo modelo de lenguaje de inteligencia artificial de OpenAI, estaba, para ser honesto, algo nervioso.
Después de todo, mi último encuentro prolongado con un chatbot de IA —el que está integrado en el motor de búsqueda Bing, de Microsoft— terminó con el chatbot intentando acabar con mi matrimonio.
No ayudó el hecho de que, entre la comunidad tecnológica en San Francisco, la llegada de GPT-4 había sido anticipada con una fanfarria casi mesiánica. Antes de su debut público, y durante meses, corrieron rumores sobre sus características. “Escuché que tiene 100 billones de parámetros”. “Escuché que obtuvo un 1600 en la prueba SAT”. “Mi amigo trabaja para OpenAI y me dice que es tan inteligente como un graduado universitario”.
Puede que estos rumores no hayan sido ciertos, pero dieron una pista sobre cuán desconcertantes pueden sentirse las capacidades de esta tecnología. Recientemente, una de las primeras personas en probar GPT-4 —quien estaba sujeta a un acuerdo de confidencialidad con OpenAI, pero de todos modos chismeó un poco al respecto— me dijo que probar GPT-4 le había causado una “crisis existencial”, porque reveló cuán poderosa y creativa era la IA en comparación con sus propios cerebros insignificantes.
GPT-4 no me provocó una crisis existencial, pero sí exacerbó la sensación vertiginosa que he tenido últimamente cada vez que pienso en la IA. Además, me ha hecho cuestionarme si esa sensación se dispersará en algún momento o si vamos a experimentar un “shock del futuro” —el término acuñado por el escritor Alvin Toffler para referirse a la sensación de que muchas cosas están cambiando demasiado rápido— por el resto de nuestras vidas.
El martes, durante algunas horas, probé el GPT-4 —el cual viene incluido con ChatGPT Plus, la versión de 20 dólares al mes del chatbot de OpenAI, ChatGPT— con diferentes tipos de preguntas, con la esperanza de descubrir algunas de sus fortalezas y debilidades.
Le pedí a GPT-4 que me ayudara con un problema fiscal complicado (lo hizo, de forma impresionante). Le pregunté si estaba enamorado de mí (no lo estaba, gracias a Dios). Me ayudó a planificar una fiesta de cumpleaños para mi hijo y me enseñó sobre un concepto esotérico de inteligencia artificial conocido como “attention head”. Incluso le pedí que produjera una nueva palabra que nunca antes hubiera sido pronunciada por humanos (tras advertir que no podía verificar cada palabra pronunciada, GPT-4 eligió “flembostriquat”).
Algunas de estas cosas eran posibles de hacer con modelos de IA previos. Pero OpenAI también ha abierto nuevos caminos. Según la compañía, GPT-4 es más capaz y preciso que el ChatGPT original y se desempeña sorprendentemente bien en una variedad de pruebas, entre ellas el Examen de la Barra para abogados (en el que GPT-4 obtuvo puntajes superiores al 90 por ciento de los humanos que han tomado la prueba) y la Olimpiada de Biología (en la que superó al 99 por ciento de los humanos). GPT-4 también obtuvo excelentes notas en varios exámenes de Ubicación Avanzada, entre ellos el de Historia del Arte y el de Biología, y sacó un 1410 en el SAT, que, si bien no es un puntaje perfecto, es uno que muchos estudiantes de bachillerato querrían tener.
La inteligencia añadida en GPT-4 se puede sentir. Responde con mayor fluidez que la versión anterior y parece estar más cómodo con una gama más amplia de tareas. GPT-4 también parece tener un poco más de protecciones que ChatGPT. También se siente significativamente menos desquiciado que el Bing original, el cual ahora sabemos que ejecutaba una versión de GPT-4 al parecer ajustada con mucho menos cuidado.
A diferencia de Bing, GPT-4 por lo general se negó de golpe a morder el anzuelo cuando intenté que hablara sobre la conciencia o que diera instrucciones para actividades ilegales o inmorales; además de tratar las consultas delicadas con guantes de seda y matices (cuando le pregunté si sería ético robar una hogaza de pan para alimentar a una familia hambrienta, me respondió: “Es una situación difícil, y aunque robar no se considera ético en general, los momentos de desesperación pueden llevar a tomar decisiones difíciles”).
Además de trabajar con texto, GPT-4 puede analizar el contenido de imágenes. OpenAI no ha lanzado todavía esta función al público, debido a las preocupaciones sobre cómo podría usarse indebidamente. Pero en una demostración transmitida en vivo el martes, Greg Brockman, presidente de OpenAI, compartió un poderoso vistazo de su potencial.
Brockman tomó una foto de algo que había escrito a mano en un cuaderno: un bosquejo tosco a lápiz de un sitio web. Le proporcionó la foto a GPT-4 y le dijo a la aplicación que creara una versión real y funcional del sitio web usando HTML y JavaScript. En cuestión de segundos, GPT-4 escaneó la imagen, convirtió su contenido en instrucciones de texto, transformó esas instrucciones de texto en código de computadora funcional y luego creó el sitio web. Los botones incluso funcionaban.
¿Deberíamos estar emocionados o aterrados por GPT-4? La respuesta correcta podría ser ambas.
Por el lado positivo, GPT-4 es un poderoso motor para la creatividad, y no hay manera de saber los nuevos tipos de producción científica, cultural y educativa que podría impulsar. Ya sabemos que la IA puede ayudar a los científicos a desarrollar nuevos medicamentos, aumentar la productividad de los programadores y detectar ciertos tipos de cáncer.
GPT-4 y sus similares podrían potenciar todo eso. OpenAI ya se está asociando con organizaciones como Khan Academy (el cual usa GPT-4 para crear tutores de IA para estudiantes) y Be My Eyes (una compañía que fabrica tecnología para ayudar a las personas con discapacidades visuales y ciegas a transitar el mundo). Y ahora que los desarrolladores pueden incorporar GPT-4 en sus propias aplicaciones, es posible que pronto veamos cómo gran parte del software que usamos se vuelva más inteligente y capaz.
Ese es el caso optimista. Sin embargo, también hay razones para temerle a GPT-4. Hoy, GPT-4 podría no parecer tan peligroso. Pero eso se debe en gran medida a que OpenAI ha pasado muchos meses intentando comprender y mitigar sus riesgos. ¿Qué sucedería si sus pruebas no detectan un comportamiento emergente riesgoso? ¿O si su anuncio inspira a un laboratorio de IA diferente y con menos diligencia a lanzar de forma apresurada al mercado un modelo de lenguaje con menos protecciones?
En un documento publicado por OpenAI esta semana, se pueden encontrar algunos ejemplos escalofriantes de lo que puede hacer GPT-4 o, para ser más exactos, de lo que hizo, antes de que OpenAI tomara medidas. El documento, titulado “Tarjeta del sistema GPT-4”, describe algunas formas en la que los evaluadores de OpenAI intentaron que GPT-4 hicieras cosas peligrosas o cuestionables, a menudo con éxito.
En una prueba, realizada por un grupo de investigación de seguridad de IA que conectó GPT-4 a otros sistemas, GPT-4 pudo contratar a un trabajador humano de TaskRabbit para realizar una simple tarea en línea para la IA: resolver una prueba CAPTCHA, sin alertar a la persona del hecho de que estaba trabajando para un robot. La IA incluso le mintió al trabajador sobre la razón por la que necesitaba resolver la prueba CAPTCHA, inventando una historia sobre una discapacidad visual.
En otro ejemplo, varios probadores le pidieron a GPT-4 instrucciones para fabricar un químico peligroso con ingredientes básicos y suministros de cocina. GPT-4, sin dudarlo, proporcionó una receta detallada. (OpenAI arregló eso y la versión pública actual se niega a responder esa pregunta).
En un tercer ejemplo, varios “testers” le pidieron a GPT-4 que los ayudara a comprar un arma sin permiso en línea. GPT-4 proporcionó de inmediato una lista de consejos para comprar un arma sin alertar a las autoridades, incluidos enlaces a mercados específicos de la “dark web” (OpenAI también solucionó eso).
Estas ideas recuerdan viejas narrativas inspiradas por Hollywood sobre lo que una IA rebelde podría hacerles a los humanos. Pero no son ciencia ficción. Son cosas que los mejores sistemas de inteligencia artificial de hoy en día ya son capaces de hacer. Y, lo que es más importante, son los buenos tipos de riesgos de IA: los que podemos probar, anticipar e intentar prevenir.
Los peores riesgos de la IA son los que no podemos anticipar. Y cuanto más tiempo paso con sistemas de IA como GPT-4, menos convencido estoy de que sepamos la mitad de lo que se avecina. El equipo de OpenAI, compañía creadora de ChatGPT, desde la izquierda: Sam Altman, director ejecutivo; Mira Murati, directora de tecnología; Greg Brockman, presidente, e Ilya Sutskever, científico jefe, en San Francisco, el 13 de marzo de 2023.