¿Pueden las empresas de tecnología aprender a amar los modelos de IA más económicos?

El boom de la IA se ha construido sobre un supuesto básico: los modelos más grandes son más poderosos, y los modelos más poderosos ganan. Ahora, la industria está a punto de aprender qué sucede si ese supuesto comienza a fallar.
Los costos crecientes ya han presionado a los usuarios a darle una segunda oportunidad a los modelos más pequeños y económicos. Esta búsqueda de modelos consciente de costos es nueva y no está claro cómo afectará a la industria, pero el impacto probablemente será significativo.
Una predicción, presentada mejor por el cofundador de Coinbase Brian Armstrong, es que resultará en que la gran mayoría de las tareas se ejecuten en modelos más económicos.
"[L]a demanda de inteligencia es casi infinita, pero el 80% de las cargas de trabajo se ejecutarán en modelos 99% más baratos en 12-18 meses", escribió Armstrong en X. "El 20% de las cargas de trabajo seguirá ejecutándose en los últimos modelos donde maximizar el IQ es importante".
Es difícil exagerar qué cambio tan significativo sería para la industria de IA si la predicción de Armstrong se cumple.
Hasta ahora, la mayoría de las empresas de IA han competido en calidad, lo que ha significado recurrir al modelo más avanzado disponible. Si esos mismos trabajos pueden ser manejados por modelos más económicos sin afectar la calidad, significaría un cambio masivo en la economía de la IA. Y críticamente, la mayor parte de los ahorros provendría de los bolsillos de los grandes laboratorios, asestando un golpe financiero a OpenAI y Anthropic justo cuando se preparan para sus OPV.
Es un cambio potencialmente sísmico en la industria, basado en una pregunta básica: ¿Están las empresas listas para cambiar a modelos más pequeños?
Las pruebas iniciales sugieren que, cuando el sistema está bien organizado, los modelos más económicos podrían reemplazar a los más grandes sin ningún sacrificio en calidad. En una prueba reciente de la herramienta legal de IA Harvey, la empresa logró reducir los costos de inferencia en 3 veces sin reducir la calidad. La prueba, realizada en asociación con la plataforma de inferencia Fireworks AI, combinó Claude Opus y GLM 5.1 de Fireworks, y cambió a Opus para las tareas más intensivas. El resultado fue una carga significativamente menor en términos de tiempo de servidor y costo general.
"La calidad es lo primero, y en lo legal siempre lo será", le dijo a TechCrunch Gabe Pereyra, cofundador de Harvey, refiriéndose a los servicios legales de IA que proporciona su startup. "Sin embargo, la definición de calidad está evolucionando de simplemente usar el modelo más poderoso para todo, a usar el mejor modelo que obtenga la respuesta correcta de manera más eficiente".
Esta tendencia a menudo se presenta en términos de laboratorios principales versus modelos chinos u de código abierto, pero eso pierde el punto más importante. La verdadera división no es entre modelos propietarios y abiertos; es entre modelos grandes y pequeños. Puede ahorrar dinero cambiando de GPT-5.5 a V4 Flash de DeepSeek, pero cambiar a GPT-5.4-mini funciona igual de bien.
Hay una guerra de precios activa en curso entre la inferencia interna de los grandes laboratorios y los modelos de código abierto servidos independientemente. Para la pregunta más grande de pequeño versus grande, realmente no importa qué tipo de modelo pequeño gane.
Todo esto podría parecer obvio: por supuesto que no deberías usar más computación

