Las acciones de Nvidia, fabricante de los procesadores especializados que se utilizan en inteligencia artificial (IA), se desplomaron el 27 de enero más de un 15%, en lo que fue la mayor pérdida de valor en un día de la historia.
Un mes antes, la empresa china DeepSeek había publicado el archivo DeepSeek V3, que contiene el reporte técnico de su motor de IA, así como la licencia que permite su uso por terceros sin costo.
La semana previa al desplome de las acciones de Nvidia apareció su chat. Utilizado sin opciones contiene información hasta julio 2024; la opción R1 habilita DeepThink, para problemas complejos, y también incluye una opción que permite la búsqueda en internet de información actualizada.
Así, DeepSeek debe analizarse desde varios puntos de vista, que van desde la tecnología, hasta su modelo y los costos.
La tecnología
DeepSeek incorpora optimizaciones que en su conjunto le permiten lograr resultados similares a otros modelos utilizando mucho menos recursos.
Ninguna de las optimizaciones es en sí un gran salto, pero la combinación de ellas y otras, en una ingeniería muy sofisticada, permiten un salto en calidad impresionante.
Unos pocos ejemplos de estas optimizaciones incorporadas son:
- Uso de arquitecturas que reducen la cantidad de parámetros sin sacrificar significativamente el rendimiento.
- Entrenar modelos más pequeños para imitar el comportamiento de modelos grandes, lo que reduce el consumo de recursos.
- Reducir la precisión de los cálculos (por ejemplo, de 32 bits a 8 bits) para disminuir el uso de memoria y acelerar la inferencia.
- Reutilizar modelos pre entrenados y ajustarlos para tareas específicas, lo que reduce el tiempo y los recursos necesarios para el entrenamiento.
- Uso de técnicas de paralelización para distribuir el entrenamiento en múltiples GPUs o nodos, optimizando el tiempo y el costo.
- Procesar múltiples solicitudes simultáneamente para maximizar el uso de hardware.
- Técnicas de eliminación de conexiones innecesarias en redes neuronales para reducir el tamaño del modelo y acelerar la inferencia.
La energía
Por su parte, el consumo de energía debe analizarse en dos momentos relevantes.
Por un lado, el entrenamiento. Modelos grandes como GPT-4 pueden consumir cientos de MWh (megavatios-hora) durante el entrenamiento, algo equivalente a la energía consumida por cientos de hogares en un año. Mientras que modelos optimizados permiten reducir este consumo en un 30-50%.
Por otro lado, la inferencia, que es lo que ocurre cuando tenemos una interacción. En modelos grandes puede consumir decenas de kWh por cada 100,000 solicitudes. Mientras que los modelos optimizados reducen este consumo a unos pocos kWh para la misma cantidad de solicitudes.
El modelo abierto
Deep Seek ha publicado la información necesaria para replicar su modelo en cualquier datacenter. Empresas como Poe lo incorporaron a su oferta en pocos días, Microsoft ya lo integró a Azure AI y GitHub, y si prefieren utilizar DeepSeek desde una empresa fundada en Uruguay ya lo pueden hacer en Zapia. Estas versiones están alojadas en servidores fuera de China —por si los usuarios tienen suspicacias respecto a la privacidad—.
Pero, ¿cuál es el negocio cuando se publica todo el conocimiento? Este tema tiene una larga historia en la industria del software.
Muchas empresas operan con el modelo abierto. De este modo, venden los servicios necesarios para adaptar su software a soluciones específicas. El producto para usuarios finales es gratuito, eso asegura una gran base de clientes acostumbrados a utilizar el producto. Pero la adaptación del producto a necesidades específicas requiere un proyecto especializado y tiene el consiguiente costo.
Los costos
El costo tiene, a su vez, varios componentes.
Por un lado, el hardware. Según el propio DeepSeek, el costo de hardware básico es de menos de US$ 5 millones, al menos un orden de magnitud menor que otros modelos. Por otro lado, la ingeniería, que implica los recursos humanos necesarios para implementar el modelo.
Además, está el costo de entrenamiento, que consiste en horas de GPU y la energía utilizada. Para esto se podrían aprovechar versiones preentrenadas de DeepSeek para reducir el tiempo y los recursos necesarios.
En tanto, el proceso de inferencia implica el tiempo de GPU y la energía utilizada, un orden de magnitud menor que en otros modelos.
La empresa
DeepSeek es una empresa independiente, que no cuenta con el apoyo del estado chino. Así lo señala un informe de la revista Wired: “DeepSeek representa una nueva generación de empresas tecnológicas chinas que dan prioridad a los avances tecnológicos a largo plazo frente a la comercialización rápida”.
Es una empresa horizontal, con unos pocos cientos de empleados, todos ellos jóvenes formados en las mejores universidades chinas.
La versión más difundida sobre China sostiene que existen grandes trabas a la innovación, que el gigante asiático se ha limitado a copiar tecnología de occidente y aprovechar su mano de obra calificada. Esta versión sostiene que el embargo tecnológico que lleva adelante Estados Unidos, que comenzó en la administración de Joe Biden (pre-Trump), le generará importantes problemas de competitividad.
DeepSeek demuestra que esta versión está profundamente equivocada. Las barreras tecnológicas, en la práctica, resultaron un acelerador que llevó a este sector de China a buscar nuevas alternativas, a resolver los problemas con más ingeniería, más software y menos fuerza bruta. ¡La corta historia de DeepSeek es un canto al emprendedurismo y la ingeniería!
China ya era líder en tecnologías verdes, y su sector empresarial ha demostrado que también es un jugador de primera en el campo de la inteligencia artificial —están saliendo nuevas versiones de modelos que se incorporan a la frenética carrera por el mercado de la IA—.
Primeras reflexiones sobre las consecuencias
¡DeepSeek es una muy buena noticia!
Se puede discutir si ‘o1’ (Open AI) es mejor o peor que ‘R1’ (DeepSeek), DeepMind (Google), u otros. Pero una vez más el mundo del software muestra que no es posible capturar el valor de una tecnología de una forma cerrada.
Hay espacio para construir soluciones especializadas que utilicen algún modelo de IA, y existen muchos modelos de IA que compiten entre sí abriendo el espacio a desarrolladores que logren comprender las necesidades de las organizaciones y las potencialidades que ofrecen las diferentes tecnologías.
OpenAI y los modelos grandes no representan el fin de la historia del software.
Por Fernando Brum
fbrum34
Acerca de los comentarios
Hemos reformulado nuestra manera de mostrar comentarios, agregando tecnología de forma de que cada lector pueda decidir qué comentarios se le mostrarán en base a la valoración que tengan estos por parte de la comunidad. AMPLIAREsto es para poder mejorar el intercambio entre los usuarios y que sea un lugar que respete las normas de convivencia.
A su vez, habilitamos la casilla reportarcomentario@montevideo.com.uy, para que los lectores puedan reportar comentarios que consideren fuera de lugar y que rompan las normas de convivencia.
Te creemos,Liz!!!