OpenAI ya no quiere depender solo de Nvidia para mover sus modelos. El 24 de junio, junto a Broadcom, presentó Jalapeño, su primer chip propio. No es para entrenar, es para inferencia: la parte en la que el modelo ya entrenado responde a lo que le pides. Y ahí está buena parte del coste diario de tener ChatGPT funcionando.
Qué es Jalapeño
Un chip diseñado a medida para una sola cosa: que los modelos de lenguaje respondan rápido y gastando menos. OpenAI dice que lo llevó del diseño a la fábrica en nueve meses, uno de los ciclos más rápidos vistos en un chip de este nivel, y que sus propios modelos ayudaron a diseñarlo. En pruebas rinde bastante más por cada vatio que los chips punteros de hoy.
Puntos clave
- Ya está corriendo GPT-5.3-Codex-Spark en el laboratorio. El despliegue completo llega a finales de 2026 y Microsoft se queda con el 40% del primer lote.
- Es un ASIC de tamaño retícula, la pieza de silicio más grande que se puede fabricar de una vez. Lo construyó Broadcom.
- El chip está optimizado alrededor de cómo sirven los modelos de OpenAI: la memoria, la red y los patrones de respuesta que de verdad usan sus modelos frontera.
- No sustituye a Nvidia de golpe. Es el primero de una plataforma de varias generaciones que las dos empresas quieren construir juntas.
Por qué OpenAI se mete a fabricar chips
Es integración vertical pura. OpenAI ya controla el modelo y el producto. Con el chip cierra el círculo: puede ajustar cada capa a las otras dos en vez de adaptarse a un hardware genérico que sirve para todo el mundo. Cuando diseñas el chip para tus propios modelos, exprimes rendimiento que un chip de propósito general deja sobre la mesa. Y de paso dejas de pagar el margen de Nvidia, que controla la mayoría del mercado y pone el precio.
Nueve meses, y con ayuda de sus propios modelos
El dato del ciclo de desarrollo no es un detalle de nota de prensa. Diseñar un chip avanzado y llevarlo hasta la fábrica suele llevar años. OpenAI dice que lo hizo en nueve meses, y que sus propios modelos ayudaron en el diseño. Es decir, usó IA para construir el hardware que va a correr esa misma IA. El resultado es un ASIC de tamaño retícula, la pieza de silicio más grande que se puede fabricar de una sola vez, construida por Broadcom y optimizada alrededor de cómo sirven sus modelos: la memoria, la red y los patrones de respuesta que de verdad usan sus modelos frontera. No es un chip que sirva para todo, es un chip que sirve para lo suyo.
OpenAI no está sola en esto
El movimiento encaja en un patrón que se repite este año. Google lleva tiempo con sus TPU, Amazon empuja Trainium e Inferentia, y esta misma semana Qualcomm entró en los centros de datos comprando Modular para plantar cara a Nvidia. Todos los grandes que dependen de comprar chips a Nvidia están construyendo los suyos. La diferencia de OpenAI es que controla las tres capas a la vez: el chip, el modelo y el producto que usa medio mundo. Que Microsoft se quede con el 40% del primer lote dice que el aliado que pone el dinero también quiere su parte del silicio.
Por qué la inferencia y no el entrenamiento
Que el chip sea para inferencia, y no para entrenar, no es un detalle menor. Entrenar un modelo es un gasto grande pero puntual: lo haces una vez cada varios meses. La inferencia es el gasto que no para, porque ocurre cada vez que alguien escribe algo en ChatGPT, millones de veces al día. A escala de OpenAI, ese goteo constante se come una parte enorme de la factura de computación. Por eso atacar la inferencia primero tiene sentido de negocio: es donde un céntimo ahorrado por respuesta se multiplica por miles de millones de respuestas. Optimizar lo que haces todo el rato pesa más que optimizar lo que haces de vez en cuando.
Por qué importa
Si OpenAI baja su coste de inferencia, eso acaba llegando al precio que pagas tú por usar IA en tu empresa. La inferencia es el gasto que se repite cada vez que alguien lanza una consulta, así que abaratarla mueve la factura de verdad, no la de un experimento puntual. Y marca la pauta del sector: Google, Amazon y Meta ya empujan sus propios chips por el mismo motivo. Para quien está calculando cuánto le va a costar meter IA en sus operaciones, la tendencia de fondo apunta a la baja. Con un matiz: nada de esto llega mañana, el despliegue completo es para finales de año y la dependencia de Nvidia seguirá siendo alta un buen tiempo.
Relacionado


