Antes de que ChatGPT de OpenAI surgiera y captara la atención del mundo por su capacidad para crear oraciones convincentes, una pequeña empresa emergente llamada Latitude estaba cautivando a los consumidores con su juego AI Dungeon que les permitía usar inteligencia artificial para crear cuentos fantásticos basados en sus indicaciones.
Pero a medida que AI Dungeon se hizo más popular, el CEO de Latitude, Nick Walton, recordó que el costo de mantener el juego de rol basado en texto comenzó a dispararse. El software de generación de texto de AI Dungeon fue impulsado por la tecnología de lenguaje GPT ofrecida por Microsoft
OpenAI, laboratorio de investigación de IA respaldado por OpenAI. Cuanta más gente jugaba AI Dungeon, mayor era la factura que Latitude tenía que pagar a OpenAI.
Para agravar la situación, Walton también descubrió que los especialistas en marketing de contenido estaban usando AI Dungeon para generar copias promocionales, un uso para AI Dungeon que su equipo nunca previó, pero que terminó aumentando la factura de AI de la empresa.
En su apogeo en 2021, Walton estima que Latitude estaba gastando casi $200,000 al mes en el llamado software de inteligencia artificial generativa de OpenAI y Amazon Web Services para mantenerse al día con los millones de consultas de los usuarios que necesitaba procesar cada día.
“Bromeamos diciendo que teníamos empleados humanos y empleados de inteligencia artificial, y gastamos la misma cantidad en cada uno de ellos”, dijo Walton. “Gastamos cientos de miles de dólares al mes en IA y no somos una gran empresa nueva, por lo que fue un costo muy alto”.
A fines de 2021, Latitude pasó de usar el software GPT de OpenAI a un software de lenguaje más económico pero aún capaz ofrecido por la startup AI21 Labs, dijo Walton, y agregó que la startup también incorporó modelos de código abierto y lenguaje gratuito en su servicio para reducir el costo. Las facturas de IA generativa de Latitude se han reducido a menos de $ 100,000 por mes, dijo Walton, y la puesta en marcha cobra a los jugadores una suscripción mensual para funciones de IA más avanzadas para ayudar a reducir el costo.
Las costosas facturas de IA de Latitude subrayan una verdad desagradable detrás del reciente auge de las tecnologías de IA generativa: el costo de desarrollar y mantener el software puede ser extraordinariamente alto, tanto para las empresas que desarrollan las tecnologías subyacentes, generalmente conocidas como un gran lenguaje o modelos básicos , y aquellos que usan la IA para potenciar su propio software.
El alto costo del aprendizaje automático es una realidad incómoda en la industria, ya que los capitalistas de riesgo buscan empresas que podrían valer billones y grandes empresas como Microsoft, Meta y Google utilizan su considerable capital para desarrollar una ventaja en la tecnología que los retadores más pequeños no pueden alcanzar.
Pero si el margen para las aplicaciones de IA es permanentemente más pequeño que los márgenes anteriores del software como servicio, debido al alto costo de la informática, podría frenar el auge actual.
El alto costo de la capacitación y la “inferencia” (en realidad, la ejecución) de grandes modelos de lenguaje es un costo estructural que difiere de los auges informáticos anteriores. Incluso cuando el software está construido o entrenado, todavía requiere una gran cantidad de poder de cómputo para ejecutar grandes modelos de lenguaje porque hacen miles de millones de cálculos cada vez que devuelven una respuesta a un aviso. En comparación, servir aplicaciones o páginas web requiere mucho menos cálculo.
Estos cálculos también requieren hardware especializado. Si bien los procesadores de computadora tradicionales pueden ejecutar modelos de aprendizaje automático, son lentos.
La mayor parte del entrenamiento y la inferencia ahora se lleva a cabo en procesadores de gráficos o GPU, que inicialmente estaban destinados a juegos en 3D, pero se han convertido en el estándar para las aplicaciones de IA porque pueden hacer muchos cálculos simples simultáneamente.
Nvidia fabrica la mayoría de las GPU para la industria de la IA, y su chip, esencial del centro de datos, cuesta $10,000. Los científicos que construyen estos modelos a menudo bromean diciendo que ” derriten las GPU ”.
MODELOS DE ENTRENAMIENTO
Los analistas y tecnólogos estiman que el proceso crítico de entrenar un modelo de lenguaje grande como GPT-3 de OpenAI podría costar más de $4 millones. Los modelos de lenguaje más avanzados podrían costar más de “millones de un solo dígito alto” para entrenar, dijo Rowan Curran, analista de Forrester que se enfoca en inteligencia artificial y aprendizaje automático.
El modelo LLaMA más grande de Meta lanzado el mes pasado, por ejemplo, usó 2048 GPU Nvidia A100 para entrenar en 1,4 billones de tokens (750 palabras son aproximadamente 1000 tokens), lo que tomó alrededor de 21 días, dijo la compañía cuando lanzó el modelo el mes pasado.
Se necesitaron alrededor de 1 millón de horas de GPU para entrenar. Con precios exclusivos de AWS , costaría más de 2,4 millones de dólares. Y con 65 mil millones de parámetros, es más pequeño que los modelos GPT actuales en OpenAI, como ChatGPT-3, que tiene 175 mil millones de parámetros.
Clement Delangue, director ejecutivo de Hugging Face, una startup de IA, dijo que el proceso de capacitación del modelo de lenguaje grande Bloom de la empresa tomó más de dos meses y medio y requirió acceso a una supercomputadora que era “algo así como el equivalente a 500 GPU. ”
Las organizaciones que construyen grandes modelos de lenguaje deben ser cautelosas cuando vuelven a entrenar el software, lo que ayuda a mejorar sus capacidades, porque cuesta mucho, dijo.
“Es importante darse cuenta de que estos modelos no están capacitados todo el tiempo, como todos los días”, dijo Delangue, y señaló que es por eso que algunos modelos, como ChatGPT, no tienen conocimiento de los eventos recientes. El conocimiento de ChatGPT se detiene en 2021, dijo.
“En realidad estamos haciendo un entrenamiento en este momento para la versión dos de Bloom y no costará más de $10 millones volver a entrenar”, dijo Delangue. “Así que ese es el tipo de cosas que no queremos hacer todas las semanas”.
INFERENCIA Y QUIÉN PAGA POR ELLA
Para usar un modelo de aprendizaje automático entrenado para hacer predicciones o generar texto, los ingenieros usan el modelo en un proceso llamado “INFERENCIA”, que puede ser mucho más costoso que el entrenamiento porque es posible que deba ejecutarse millones de veces para un producto popular.
Para un producto tan popular como ChatGPT, que la firma de inversión UBS estima que alcanzó los 100 millones de usuarios activos mensuales en enero, Curran cree que podría haberle costado a OpenAI $ 40 millones procesar los millones de mensajes que las personas introdujeron en el software ese mes.
Los costos se disparan cuando estas herramientas se usan miles de millones de veces al día. Los analistas financieros estiman que el chatbot Bing AI de Microsoft, que funciona con un modelo OpenAI ChatGPT, necesita al menos $ 4 mil millones de infraestructura para brindar respuestas a todos los usuarios de Bing.
En el caso de Latitude, por ejemplo, si bien la startup no tuvo que pagar para entrenar el modelo de lenguaje OpenAI subyacente al que estaba accediendo, tuvo que dar cuenta de los costos de inferencia que eran algo así como “medio centavo por llamada”. ” en “un par de millones de solicitudes por día”, dijo un portavoz de Latitude.
“Y estaba siendo relativamente conservador”, dijo Curran sobre sus cálculos.
Para sembrar las semillas del auge actual de la IA, los capitalistas de riesgo y los gigantes tecnológicos han estado invirtiendo miles de millones de dólares en nuevas empresas que se especializan en tecnologías de IA generativa. Microsoft, por ejemplo, invirtió hasta $10 mil millones en el supervisor de GPT, OpenAI, según informes de los medios en enero. Fuerza de ventas
El brazo de capital de riesgo de Salesforce Ventures, recientemente debutó con un fondo de $250 millones que atiende a nuevas empresas de IA generativa.
Como describió el inversionista Semil Shah de las firmas de capital de riesgo Haystack y Lightspeed Venture Partners en Twitter, “los dólares de capital de riesgo pasaron de subsidiar su viaje en taxi y entrega de burritos a LLM y cómputo generativo de inteligencia artificial”.
Muchos empresarios ven riesgos al confiar en modelos de IA potencialmente subsidiados que no controlan y simplemente pagan por uso.
“Cuando hablo con mis amigos de IA en las conferencias de inicio, esto es lo que les digo: no dependan únicamente de OpenAI, ChatGPT o cualquier otro modelo de lenguaje grande”, dijo Suman Kanuganti, fundador de personal.ai, un chatbot actualmente en modo beta. “Debido a que los negocios cambian, todos son propiedad de grandes empresas tecnológicas, ¿verdad? Si cortan el acceso, te vas”.
Empresas como la firma de tecnología empresarial Conversica están explorando cómo pueden usar la tecnología a través del servicio en la nube Azure de Microsoft a su precio actual con descuento.
Si bien el CEO de Conversica, Jim Kaskade, se negó a comentar sobre cuánto está pagando la startup, admitió que el costo subsidiado es bienvenido ya que explora cómo los modelos de lenguaje se pueden usar de manera efectiva.
“Si realmente estuvieran tratando de cubrir los gastos, estarían cobrando mucho más”, dijo Kaskade.
CÓMO PODRÍA CAMBIAR
No está claro si la computación de IA seguirá siendo costosa a medida que se desarrolle la industria. Las empresas que fabrican los modelos básicos, los fabricantes de semiconductores y las nuevas empresas ven oportunidades comerciales en la reducción del precio de ejecución del software de IA.
Nvidia, que tiene alrededor del 95% del mercado de chips de IA, continúa desarrollando versiones más potentes diseñadas específicamente para el aprendizaje automático, pero las mejoras en la potencia total de los chips en toda la industria se han ralentizado en los últimos años.
Aún así, el CEO de Nvidia, Jensen Huang, cree que en 10 años, la IA será “un millón de veces” más eficiente debido a las mejoras no solo en los chips, sino también en el software y otras partes de la computadora.
“La Ley de Moore, en sus mejores días, habría entregado 100 veces más en una década”, dijo Huang el mes pasado en una llamada de ganancias. “Al idear nuevos procesadores, nuevos sistemas, nuevas interconexiones, nuevos marcos y algoritmos, y trabajar con científicos de datos e investigadores de IA en nuevos modelos, en todo ese lapso, hemos hecho que el procesamiento de modelos de lenguaje grande sea un millón de veces más rápido”.
Algunas nuevas empresas se han centrado en el alto costo de la IA como una oportunidad de negocio.
“Nadie estaba diciendo ‘Debes construir algo diseñado específicamente para la inferencia’. ¿Como se veria eso?” dijo Sid Sheth, fundador de D-Matrix, una startup que construye un sistema para ahorrar dinero en la inferencia al hacer más procesamiento en la memoria de la computadora, en lugar de en una GPU.
“La gente está usando GPU hoy en día, GPU NVIDIA, para hacer la mayor parte de sus inferencias. Compran los sistemas DGX que vende NVIDIA que cuestan mucho dinero. El problema con la inferencia es que si la carga de trabajo aumenta muy rápidamente, que es lo que le sucedió a ChatGPT, llegó a un millón de usuarios en cinco días. No hay forma de que la capacidad de su GPU pueda mantenerse al día porque no fue diseñada para eso. Fue construido para el entrenamiento, para la aceleración de gráficos”, dijo.
Delangue, el CEO de HuggingFace, cree que más empresas estarían mejor atendidas centrándose en modelos más pequeños y específicos que son más baratos de entrenar y operar, en lugar de los modelos de lenguaje grande que atraen la mayor parte de la atención.
Mientras tanto, OpenAI anunció el mes pasado que está reduciendo el costo para que las empresas accedan a sus modelos GPT. Ahora cobra una quinta parte de un centavo por unas 750 palabras de producción.
Los precios más bajos de OpenAI han llamado la atención del fabricante de AI Dungeon, Latitude.
“Creo que es justo decir que definitivamente es un gran cambio que estamos emocionados de ver que suceda en la industria y estamos constantemente evaluando cómo podemos brindar la mejor experiencia a los usuarios”, dijo un portavoz de Latitude. “Latitude continuará evaluando todos los modelos de IA para asegurarse de que tengamos el mejor juego disponible”.