OpenAI y Broadcom lanzan Jalapeño: silicio de inferencia a fin de 2026

Lo que OpenAI y Broadcom realmente anunciaron el 24 de junio y por qué el silicio es la noticia

OpenAI y Broadcom presentaron Jalapeño el 24 de junio de 2026 — el primer Procesador de Inteligencia personalizado de OpenAI, un ASIC del tamaño de retícula construido específicamente para inferencia de LLM. El chip pasó del diseño inicial al tape-out de manufactura en nueve meses — uno de los ciclos ASIC más rápidos que la industria del silicio de frontera ha registrado — con los propios modelos de OpenAI participando en el bucle de diseño-y-optimización. Muestras de ingeniería ya corren cargas de trabajo de producción incluyendo GPT-5.3-Codex-Spark a frecuencia y potencia objetivo en el laboratorio. El despliegue inicial está apuntado para fin de 2026, con expansión "en los años siguientes".

Las lecturas operativamente importantes:

Jalapeño es un ASIC construido específicamente para inferencia, no un acelerador de entrenamiento reutilizado. OpenAI es explícito: la arquitectura está diseñada alrededor de los cuellos de botella prácticos que importan para inferencia a escala, no la carga de trabajo de multiplicación de matrices contra la que optimiza el silicio del cluster de entrenamiento. La matriz de adquisiciones de FY27 que califica el sustrato de inferencia contra partes NVIDIA del tier de entrenamiento está corriendo contra el eje incorrecto.
El tape-out de nueve meses es la meta-señal. Los ASICs de frontera históricamente se sitúan en ciclos de 18-a-24 meses; el cronograma comprimido es una consecuencia directa de los modelos de OpenAI participando en el flujo de diseño. El chip es a la vez el artefacto y el punto de prueba de que el diseño de silicio con-modelo-en-el-bucle es ahora la cadencia por defecto de la frontera.
El rendimiento por watt es el eje en el que lidera el anuncio, no el throughput bruto. La potencia de data-center es el recurso restringido para inferencia a escala-de-frontera — el sustrato que gana la curva de costo por-carga-de-trabajo es el que envía más tokens por watt-hora, no más tokens por die. El framing de Jalapeño reconoce el cambio.
El despliegue a fin-de-2026 aterriza dentro de la ventana de planeación de FY27. El primer envío del chip corta a través del mismo ciclo de adquisiciones en el que se renegocian los contratos permanentes de inferencia-de-frontera de los cuatro proveedores. Los equipos cuyo modelo de costo de inferencia de FY27 trata a OpenAI como un consumidor de API descendente del silicio de NVIDIA están corriendo contra un escenario que deja de mantenerse en enero.

La lectura estructural no es OpenAI hizo un chip. Es que la curva de costo de inferencia del lado-de-OpenAI de la frontera está por desprenderse del modelo de costo por-token-NVIDIA contra el que se redactó el plan de adquisiciones de FY27, el eje de costo por-inferencia-exitosa por-carga-de-trabajo es donde realmente corre la negociación del contrato permanente, y la envolvente de portabilidad-por-proveedor de FY27 necesita un re-shootout por-carga-de-trabajo-de-inferencia que califique el tier de inferencia de OpenAI contra el sustrato en el que realmente correrá dentro de doce meses.

Lo que Jalapeño reestructura para la pila de inferencia de FY27

La envolvente de costo por-token del lado-de-OpenAI está por moverse sin un recorte público de precio. El silicio personalizado a escala de OpenAI aparece primero como mejora de unit-economics, después como precio de venta. La negociación del contrato permanente de FY27 que califica precio de API contra rate-cards públicos pierde la curva de costo real contra la que el proveedor optimiza. La entrada de negociación que la función de adquisiciones del equipo debería estar calificando es el costo por-inferencia-exitosa por-carga-de-trabajo contra el sustrato de OpenAI en los próximos veinticuatro meses, no la página actual de rate-card.

El contrato permanente de inferencia-de-frontera de tres proveedores necesita una cláusula de portabilidad por-carga-de-trabajo. El lado-de-Anthropic corre en TPU + AWS Trainium + NVIDIA. El lado-de-Google corre en TPU. El lado-de-OpenAI ahora se mueve a Jalapeño + NVIDIA + Azure Maia. La envolvente de portabilidad-por-proveedor de FY27 redactada hace tres meses contra un sustrato NVIDIA homogéneo entre los tres proveedores está corriendo contra un sustrato de silicio por-proveedor fragmentado alrededor del cual la política de enrutamiento del equipo necesita calificar. La cláusula de portabilidad es donde el contrato de FY27 absorbe el riesgo de fragmentación.

Las clases de carga de trabajo críticas-en-latencia se enrutan diferente contra ASICs optimizados-para-inferencia que contra aceleradores de propósito-general. El patrón de ocho-worktree-agentes-en-paralelo en el que se estandarizó la superficie de agente-de-programación califica contra la latencia por-agente tanto como contra el costo por-agente. Un sustrato optimizado alrededor de cuellos de botella con-forma-de-inferencia (desalojo de KV-cache, throughput de decodificación especulativa, potencia por-token) cambia la envolvente de latencia por-carga-de-trabajo en formas contra las que la política de enrutamiento necesita re-calificar. El re-shootout es el artefacto.

El tape-out de nueve meses es la señal operativa para la planeación de FY28. El ciclo comprimido significa que la próxima generación de Jalapeño aterriza dentro de la ventana de adquisiciones de FY28, no dos ventanas después. El plan de enrutamiento de modelo de FY28 redactado contra una asunción de sustrato-de-inferencia-estático-de-dos-años está corriendo contra un sustrato de refresh-de-dieciocho-meses. La curva de costo por-proveedor obtiene un re-shootout fresco cada año, no cada dos años.

Dónde el anuncio de Jalapeño es señal y dónde es ruido

Señal: la afirmación de rendimiento-por-watt es la métrica portante. La inferencia de frontera a escala de OpenAI está restringida por potencia, no por die. El sustrato que cierra la brecha de costo por-inferencia-exitosa por-carga-de-trabajo es el que envía más tokens por watt-hora. La entrada de adquisiciones de FY27 que el modelo de costo de inferencia del equipo debería volver a ejecutar es la envolvente de costo por-watt, no la envolvente de costo por-die.

Señal: los modelos de OpenAI participando en el flujo de diseño es la meta-señal para la cadencia de silicio de la frontera. El ciclo comprimido de tape-out es una consecuencia directa, y la próxima generación cicla de la misma manera. La entrada de planeación de FY28 es que el sustrato de inferencia de OpenAI se refresca en una cadencia de dieciocho meses hacia adelante.

Ruido: Jalapeño reemplaza a NVIDIA en OpenAI es el marco incorrecto. El chip complementa el sustrato NVIDIA + Azure Maia; NVIDIA permanece como el caballo de batalla de entrenamiento-y-inferencia-de-entrenamiento para el próximo ciclo de adquisiciones. El marco correcto es que el sustrato de inferencia de OpenAI se vuelve multi-silicio en FY27, y la política de enrutamiento por-carga-de-trabajo califica contra tres arquitecturas de die co-existentes del lado-de-OpenAI de la frontera.

Ruido: el anuncio es una jugada contra el negocio de GPUs de NVIDIA. NVIDIA no es el cliente que OpenAI está tratando de desbloquear — el cliente es la función de adquisiciones empresarial que califica el costo por-inferencia-exitosa por-carga-de-trabajo contra el contrato permanente de FY27. La señal está dirigida al comprador, no al proveedor.

Lo que el equipo de ingeniería debería hacer en las próximas dos semanas

Actualizar el modelo de costo de inferencia de FY27 para calificar el sustrato de OpenAI contra una curva de costo por-carga-de-trabajo, no una página de rate-card. La página de rate-card es la superficie de marketing; la curva de costo es el sustrato operativo. La entrada de adquisiciones que el modelo del equipo debería alimentar a la negociación del contrato permanente es el costo por-inferencia-exitosa por-carga-de-trabajo sobre el sustrato de OpenAI en los próximos veinticuatro meses, no el número actual publicado de $/M-tokens.

Agregar una cláusula de portabilidad por-carga-de-trabajo al contrato permanente de FY27 que califique contra tres sustratos de silicio co-existentes del lado-de-OpenAI. Jalapeño + NVIDIA + Azure Maia es la línea base de FY27 del lado-de-OpenAI. La cláusula de portabilidad que el contrato del equipo debería mantener especifica la envolvente de enrutamiento por-clase-de-carga-de-trabajo la libertad que el equipo retiene para desplazarse entre los tres sustratos sin gatillo de renegociación.

Re-calificar la envolvente de latencia por-carga-de-trabajo en clases críticas-en-latencia contra asunciones de ASIC-optimizado-para-inferencia. El presupuesto de latencia por-agente del patrón de ocho-worktree-agentes-en-paralelo se fijó contra asunciones de acelerador de propósito-general. Re-calificar el presupuesto contra el sustrato de ASIC-de-inferencia contra el que el equipo realmente enrutará en Q1 2027, y lanzar el presupuesto actualizado por-agente dentro del sprint.

Mover la cadencia de planeación de FY28 a una asunción de refresh-de-silicio-de-dieciocho-meses. El tape-out de nueve meses es la señal de que la cadencia de silicio de OpenAI es más rápida que la cadencia de planeación-FY-de-dos-años a la que está acostumbrada la función de adquisiciones del equipo. La entrada de planeación de FY28 es el sustrato de silicio por-proveedor se refresca dentro de cada ventana FY, no permanece estático entre dos ventanas FY.

Lo que Jalapeño abarata pero no reemplaza

Jalapeño comprime el costo por-watt de la inferencia a escala-de-frontera en el sustrato de OpenAI, no el juicio-senior de decidir qué clases de carga de trabajo tienen forma-de-ASIC-de-inferencia, escribir el verificador por-carga-de-trabajo contra el que califica la política de enrutamiento, ser dueño de la envolvente de portabilidad-por-proveedor sobre el contrato permanente de FY27, y ejecutar la revisión-de-código de sustrato-de-silicio por-ciclo contra la pila de inferencia del equipo. Los equipos que confunden el costo por-watt abaratado con el juicio abaratado enrutan la superficie de generación-de-forma-libre contra un sustrato cuya envolvente de latencia no cierra para la clase de carga de trabajo, y leen el post-mortem por-ciclo sobre la brecha de sustrato-desalineado que el shootout habría expuesto. Los equipos que mantienen el juicio-senior en el centro de la decisión de sustrato traducen el cambio de silicio a mejoras de costo por-semana que el plan FY anterior no podía producir.

La pregunta del sustrato de inferencia ya no es cuál nube es la más barata; es qué costo por-inferencia-exitosa por-carga-de-trabajo respalda el contrato permanente de FY27 contra el mapa de sustrato de tres-silicios del lado-de-OpenAI de la frontera, qué envolvente de portabilidad por-carga-de-trabajo retiene el contrato para el refresh de FY28, y a qué cadencia de re-shootout por-ciclo se compromete la función de adquisiciones contra el ciclo de refresh-de-silicio-de-dieciocho-meses.

En SONNET CODE ejecutamos la práctica de Desarrollo de IA contra el artefacto de enrutamiento de sustrato-de-inferencia por-carga-de-trabajo — shootouts por-clase-de-carga-de-trabajo contra el mapa de frontera de cuatro proveedores, envolventes de portabilidad-por-proveedor sobre el contrato permanente de FY27, y revisiones-de-código de sustrato-de-silicio por-ciclo contra la pila de inferencia del equipo. Si el plan de inferencia de FY27 de tu equipo todavía está redactado contra una asunción de silicio-único, agenda una llamada — te llevaremos a través del re-shootout de sustrato que lanzamos dentro de un sprint, mucho antes de que el despliegue a fin-de-2026 de Jalapeño aterrice dentro de la ventana de adquisiciones de FY27.