MIT NANDA: el 95% de los pilotos de IA fracasan; las soluciones de proveedores ganan 67% frente a 33%

Lo que dicen realmente las cifras de junio y el patrón operativo que las acompaña

Tres fuentes de medición convergieron en el mismo hallazgo en los últimos 12 meses y la conversación de adquisiciones todavía no se ha puesto al día. La revisión State of AI in Business 2025 de MIT Project NANDA, basada en más de 300 implementaciones empresariales de IA divulgadas públicamente y 150 entrevistas a ejecutivos, encontró que el 95% de los pilotos empresariales de IA generativa entregaron cero retorno medible, y que las soluciones desarrolladas por proveedores tienen éxito aproximadamente el 67% de las veces mientras que los desarrollos internos tienen éxito aproximadamente el 33% — una brecha de éxito de 2x que se mantiene en todas las industrias, tamaños de empresa y presupuestos de piloto. La encuesta paralela de IDC encontró que el 88% de las pruebas de concepto de agentes de IA nunca llegan a producción. La revisión Tech Trends 2026 de Deloitte situó la tasa de fracaso de piloto a producción en el 89% en entornos empresariales. Los tres conjuntos de datos juntos cuentan la misma historia desde tres ángulos: el modelo operativo predeterminado de 2025 —reunir un equipo interno, elegir una API de frontera, construir el agente internamente contra un flujo de trabajo a medida— es un patrón en el que cuatro de cada cinco pilotos mueren, y la configuración que duplica la tasa de supervivencia es un socio proveedor especialista del lado de la construcción, no del lado del modelo.

Las piezas operativamente importantes:

La brecha de 2x entre proveedor e interno es la cifra estructuralmente interesante, no la tasa de fracaso del 95% por sí sola. Una tasa de fracaso del 95% leída de forma aislada se interpreta como los agentes de IA todavía no funcionan; una tasa de fracaso del 95% leída contra la división 67%/33% se interpreta como los agentes funcionan — lo que falla es el enfoque de construcción. La pregunta de adquisiciones para el FY27 ya no es ¿deberíamos invertir en agentes de IA en absoluto? sino ¿deberíamos invertir en el modelo operativo que duplica la tasa de supervivencia de nuestro piloto?. El mismo equipo de ingeniería, el mismo presupuesto, el mismo flujo de trabajo, ejecutado con un socio de construcción especialista, tiene un resultado de producción medible diferente al mismo equipo ejecutándose con un grupo puramente de hágalo-usted-mismo.
La banda de tasa de fracaso de piloto del 88-95% es uniforme en los tres conjuntos de datos — MIT NANDA, IDC, Deloitte — lo que hace que el hallazgo sea difícil de descartar como la lente de una sola consultora. La cifra es la misma cuando MIT recorre 300 implementaciones, cuando IDC encuesta pruebas de concepto específicas de agentes y cuando Deloitte agrega en entornos empresariales. La concordancia entre fuentes dice que la tasa de fracaso es la tasa base del modelo operativo predeterminado, no un artefacto estadístico de la metodología de una sola encuesta.
El modo de fracaso en el que convergen los tres conjuntos de datos no es la calidad del modelo ni el presupuesto de cómputo. La distribución de modos de fracaso que emerge de las entrevistas y autopsias es deriva en el ajuste al flujo de trabajo, ausencia de contratos de verificación, deuda de integración contra la pila heredada, ambigüedad de gobernanza en la capa de prompt y datos, y un equipo de ingeniería senior cuya atención fue consumida por la construcción en lugar del problema de negocio que la construcción debía resolver. El modelo de frontera rara vez es el cuello de botella; el modelo operativo alrededor del modelo lo es.
La ventaja del "socio especialista" en el grupo del 67% es el interés compuesto de atención y experiencia que el equipo interno no puede replicar desde un punto de partida cero. Un socio que ha entregado veinte integraciones de agentes empresariales contra tres industrias tiene veinte modos de fracaso vistos y corregidos en su memoria muscular antes de la reunión inicial; el equipo interno tiene cero. La brecha de 2x es lo que parecen veinte contra cero al final del piloto. La ventaja no es la marca del proveedor; es la curva de aprendizaje compuesta que un equipo especialista ya ha pagado y que el equipo interno tiene que pagar desde cero, en el cronograma del comprador, con el presupuesto del comprador.

La lectura estructural no es construir-versus-comprar vuelve como debate de adquisiciones. Es que el consenso de medición de junio de 2026 dice que el predeterminado del lado de la compra para agentes empresariales de IA tiene probabilidades medibles mejores que el predeterminado del lado de la construcción, y que la ventaja del lado de la compra no tiene que ver con el modelo que vende el proveedor sino con la disciplina operativa que el socio de construcción especialista aporta a la integración. La hoja de cálculo de adquisiciones que todavía tiene una sola línea etiquetada equipo de construcción de agente de IA — interno opera contra una base de evidencia que se ha endurecido de forma medible contra esa línea en un año.

Lo que las cifras de NANDA, IDC y Deloitte reestructuran sobre las adquisiciones del FY27

Cuatro cambios concretos que se siguen cuando la ventaja medida de 2x del proveedor se convierte en la tasa base contra la que se evalúa el plan del FY27.

La decisión de construir-versus-comprar pasa de la capacidad a la tasa de supervivencia. Hace doce meses, el debate de construir-versus-comprar se planteaba como ¿puede el equipo interno construirlo? — con el supuesto implícito de que la capacidad era la restricción vinculante. Las cifras de MIT/IDC/Deloitte replantean el debate como ¿cuál es la tasa de supervivencia por dólar de cada camino? — la restricción vinculante es la probabilidad de que el piloto llegue a producción con un resultado medible, no la probabilidad de que el equipo pueda implementar el prototipo. La pregunta de adquisiciones se convierte en la pregunta de la tasa de supervivencia; la pregunta de la tasa de supervivencia tiene una respuesta medida; la respuesta medida favorece el camino del socio especialista por 2x.

La defensa de "tenemos un equipo interno sólido" deja de evaluar bien contra la cifra del 33%. La tasa de éxito del 33% del desarrollo interno no es una cifra que mejore de forma material con la antigüedad del equipo; el desglose de NANDA por experiencia de equipo muestra que la brecha se mantiene en organizaciones de ingeniería de nivel medio y de frontera. El argumento nuestro equipo es demasiado senior para fracasar como el equipo promedio es el mismo argumento que hicieron los equipos fracasados del grupo del 33% antes de que arrancara el piloto. La lectura honesta es que la calidad del equipo interno es necesaria pero no suficiente; la disciplina del socio especialista es la variable adicional que eleva la tasa de éxito del 33% al 67%. Los equipos que leen los datos con honestidad dejan de usar la antigüedad del equipo como justificación para el camino del hágalo-usted-mismo.

La conversación sobre la duración del ciclo de adquisiciones pasa de "construir es más rápido" a "construir quema más ciclos de piloto". El predeterminado de hágalo-usted-mismo de 2025 se justificaba a menudo con no queremos el ciclo de adquisiciones de un socio especialista; el equipo interno puede empezar el lunes. La cifra del 88% que nunca llega a producción replantea el cálculo: empezar el lunes y morir en ocho semanas consume el mismo trimestre calendario que empezar cuatro semanas tarde con un socio especialista y llegar a producción al final del trimestre. El ciclo de piloto es el costo real; el ciclo de adquisiciones es un costo único anticipado que el camino del socio especialista amortiza contra las probabilidades de 67%/33%.

La factura de atención de ingeniería senior se convierte en una línea de primera clase del FY27. El modelo operativo predeterminado de hágalo-usted-mismo asume que la atención de ingeniería senior es capacidad interna gratuita que no necesita una línea de presupuesto. Las entrevistas de MIT NANDA sacan a la luz el hallazgo opuesto: las organizaciones de ingeniería que ejecutaron pilotos de hágalo-usted-mismo y fracasaron reportaron la misma causa dominante — la atención de los ingenieros senior fue consumida por la construcción durante dos trimestres, el problema de negocio que la construcción debía resolver se desvió, y el resto de la hoja de ruta de ingeniería se estancó. La ventaja oculta del camino del socio especialista es el presupuesto de atención de ingeniería senior que preserva para el trabajo que el socio no puede hacer por el equipo. El plan del FY27 que evalúa esto con honestidad le pone un número a la factura de atención senior y decide construir-versus-comprar contra ese número, no contra el costo de software del titular.

Dónde los datos son señal y dónde son ruido

Cuatro lecturas honestas sobre lo que el consenso de medición de junio de 2026 le dice al comprador.

Señal: la concordancia entre fuentes del 88-95% es evidencia del modelo operativo, no varianza de la cohorte de pilotos. Cuando tres programas de medición independientes —académico, analista de la industria, consultora— convergen en la misma banda de tasa de fracaso, la convergencia es evidencia de que la tasa mide el modelo operativo predeterminado en lugar de la cohorte de pilotos que cada programa muestreó por casualidad. La señal que el comprador debería tratar como portante es la convergencia, no la cifra de una sola fuente.

Señal: la división 67%/33% entre proveedor e interno es la señal de grado de decisión de adquisiciones, incluso si la tasa de éxito absoluta es discutida. Un comprador que disputa si la tasa de éxito es del 67% frente al 60% o al 75% está perdiendo de vista el punto de decisión de adquisiciones: la proporción relativa de 2x entre los dos caminos es la cifra contra la que debería evaluarse la decisión de construir-versus-comprar del FY27, y la proporción de 2x es robusta entre las fuentes. La decisión que respaldan los datos es preferir el camino del socio especialista como predeterminado a menos que haya una razón específica de la carga de trabajo por la que el desarrollo interno esté estructuralmente favorecido.

Ruido: los datos de tasa de fracaso no dicen que todo desarrollo interno fracasará. La tasa de éxito del 33% del desarrollo interno es una cifra de tasa base, no un determinismo. Desarrollos internos específicos —cargas de trabajo con profunda especificidad de dominio, cargas de trabajo donde la PI del desarrollo es en sí misma el foso competitivo, cargas de trabajo donde la profundidad de integración cruza sistemas que ningún socio puede aprender en la práctica— tienen éxito a tasas mucho más altas dentro del equipo adecuado. La lectura honesta de los datos es el camino del socio especialista es el predeterminado; el camino del desarrollo interno es la excepción que necesita una justificación explícita específica de la carga de trabajo, no el desarrollo interno es imposible.

Ruido: los datos no eligen cuál socio especialista debería contratar el equipo. Una tasa promedio de éxito de proveedor del 67% es una banda que contiene especialistas con éxito del 90% y otros con éxito del 40%; la diligencia de adquisiciones del comprador todavía tiene que evaluar al socio específico contra la carga de trabajo específica. Los datos de NANDA/IDC/Deloitte cambian el modelo operativo predeterminado; no reemplazan el ciclo de diligencia del proveedor.

Lo que el planificador del FY27 debería hacer en el próximo trimestre

Cuatro acciones concretas que cierran la brecha entre el consenso de medición de junio y la decisión de modelo operativo del FY27 que respaldan los datos.

Ejecute una auditoría de supervivencia ajustada a la tasa base en cada piloto de agente de IA que esté actualmente en el plan. Para cada piloto, marque desarrollo interno o desarrollado por proveedor y aplique la previa de tasa base del 33% / 67% al pronóstico de planificación. La salida de la auditoría es la cartera de agentes de IA del FY27 ajustada por rendimiento esperado contra la que el equipo puede priorizar atención y presupuesto. La auditoría no es la decisión; es la calibración sobre la decisión que el equipo ya está a punto de tomar contra una previa sin calibrar.

Identifique las excepciones específicas de carga de trabajo donde el camino del desarrollo interno esté estructuralmente favorecido y escriba la justificación. Las excepciones existen; el trabajo del planificador es hacerlas explícitas en lugar de implícitas. La justificación escrita por excepción obliga al equipo a evaluar la excepción contra por qué esta carga de trabajo es estructuralmente diferente de la tasa base del 33%; la disciplina de escribirlo es lo que atrapa las excepciones que en realidad son solo hágalo-usted-mismo-predeterminado-con-otro-nombre.

Ponga en marcha el ciclo de evaluación de socios como un flujo de trabajo de adquisiciones de primera clase del FY27, no como un proyecto secundario de fin de trimestre. La ventaja del socio especialista requiere el socio especialista adecuado; el socio adecuado se selecciona mediante un ciclo de diligencia que evalúa el historial moldeado por la carga de trabajo del socio, no su presentación de ventas. El entregable del ciclo de evaluación es una lista corta de dos a tres socios por clase de carga de trabajo, cada uno con un compromiso de referencia que el equipo ha recorrido de principio a fin, cada uno con un acuerdo de prueba por clase de carga de trabajo contra el que el equipo puede evaluar.

Renegocie el presupuesto de atención de ingeniería senior contra la decisión de construir-versus-comprar por carga de trabajo. Para cada carga de trabajo de agente de IA en el plan del FY27, decida explícitamente cuánta atención de ingeniería senior debería consumir la carga de trabajo — y evalúe la decisión de construir-versus-comprar contra ese número junto con el costo de software. La contabilidad honesta de la factura de atención senior es lo que hace visible el presupuesto de atención preservada del camino del socio especialista como una ventaja real en la hoja de cálculo del FY27, no como un beneficio blando agitado en el aire.

El trabajo de juicio senior que el socio especialista abarata operativamente pero no reemplaza

El camino del socio especialista comprime el costo de aprender los modos de fracaso que el socio ya ha pagado en otros veinte compromisos. No comprime el trabajo de juicio senior de elegir en qué cargas de trabajo de agentes invertir, escribir los criterios de éxito por carga de trabajo contra los que el equipo evaluará el trabajo del socio, ser dueño de la integración en la pila de producción que el equipo sigue operando, y decidir qué cargas de trabajo son la excepción específica de carga de trabajo donde el camino del desarrollo interno está estructuralmente favorecido. Las organizaciones de ingeniería que confunden la curva de aprendizaje abaratada con el juicio abaratado estarán, dentro de seis meses, leyendo autopsias de pilotos cuya causa raíz es dejamos que el socio eligiera la carga de trabajo, y la carga de trabajo resultó ser la batalla equivocada. Las organizaciones que mantienen el juicio senior en el centro de la decisión de selección de carga de trabajo estarán, dentro de seis meses, en el grupo del 67% — y del lado de la implementación en producción del FY27 de la línea, no del lado del cementerio de prototipos del FY27. Los datos son la palanca; el juicio senior es el muro de carga.

La pregunta de adquisiciones ya no es construir o comprar; es qué cargas de trabajo pertenecen al predeterminado del socio especialista, qué cargas de trabajo pertenecen a la excepción de desarrollo interno específica de carga de trabajo, y qué presupuesto de atención senior está dispuesto a gastar el equipo en cualquiera de los dos caminos. Los equipos que hacen la pregunta correcta este trimestre se compran las probabilidades de 2x que miden los datos; los equipos que hacen la equivocada se compran otro año de pilotos de cementerio del 88%.