La IA de investigación profunda ha sido una de las carreras armamentísticas más intensas en tecnología este año. Google anunció su agente de investigación para Gemini en diciembre de 2024, OpenAI publicó su propio agente de investigación en febrero de 2025, xAI siguió el ejemplo, Perplexity apostó por reforzar lo suyo y el Claude de Anthropic ganó una base fiel entre profesionales que necesitan respuestas detalladas y citadas, presentando su agente en abril del año pasado. Cada empresa ha estado tratando de convencerte de que su único modelo de IA es el investigador más inteligente de la sala. Microsoft acaba de decir: ¿Por qué elegir uno? La compañía anunció el lunes dos funciones nuevas para la herramienta Researcher de Copilot—llamadas Critique y Council—que ponen a trabajar en secuencia el GPT de OpenAI y el Claude de Anthropic en la misma tarea de investigación. El resultado, según las pruebas de Microsoft frente a un punto de referencia de la industria, puntúa más alto que cualquier sistema incluido en esa prueba, incluidos los modelos de las principales compañías de IA.
Presentamos Critique, un nuevo sistema de investigación profunda multi-modelo en M365 Copilot.
Puedes usar varios modelos juntos para generar respuestas y reportes óptimos. pic.twitter.com/m4RlQmCKzs
— Satya Nadella (@satyanadella) March 30, 2026
“Critique es un nuevo sistema multi modelo de investigación profunda diseñado para tareas de investigación complejas. Separa la generación de la evaluación y utiliza una combinación de modelos de laboratorios Frontier, incluyendo Anthropic y OpenAI”, explica Microsoft. “Un modelo lidera la fase de generación, planifica la tarea, itera a través de la recuperación y produce un borrador inicial, mientras que un segundo modelo se centra en la revisión y el refinamiento, actuando como un revisor experto antes de que se produzca el informe final”. Aquí está el problema básico que Critique está diseñado para corregir: hoy, cada herramienta de investigación de IA funciona de la misma manera. Haces una pregunta, un modelo planifica una búsqueda, rastrea fuentes, redacta un informe y te lo devuelve. Ese único modelo hace todo sin que nadie verifique su trabajo. Esto puede terminar dejando colarse algunas alucinaciones, algunos errores en las citas, afirmaciones falsas o inexactas, etc.
Critique rompe ese flujo de trabajo en dos. GPT se encarga de la primera fase: planifica la investigación, obtiene fuentes y escribe un borrador inicial. Luego Claude entra como un editor estricto, revisando el informe por precisión factual, calidad de las citas y si la respuesta realmente abordó lo que se pidió. Solo después de esa revisión, el informe final llega al usuario. Microsoft dice que los roles también pueden ejecutarse eventualmente en la dirección opuesta, con Claude redactando y GPT criticando, aunque por ahora GPT va primero.
En el benchmark DRACO—una prueba estandarizada que cubre 100 tareas complejas de investigación en 10 dominios, incluyendo medicina, derecho y tecnología—Copilot con Critique obtuvo 57.4 puntos. Con Claude Opus de Anthropic por sí solo obtuvo 42.7. El sistema combinado de Microsoft supera el siguiente mejor resultado en casi un 14%.
Imagen: Microsoft
Las mayores mejoras aparecieron en la amplitud del análisis y la calidad de la presentación, y también se registró una mejora significativa en la exactitud de los hechos.
La segunda función, Council, adopta un enfoque diferente para el mismo problema. En lugar de que un modelo revise el trabajo del otro, Council ejecuta GPT y Claude simultáneamente y coloca sus informes completos lado a lado. Luego, un tercer modelo “juez” lee ambos y escribe un resumen explicando en qué coincidieron las dos AIs, en qué se diferenciaron y qué ángulos únicos captó cada una que la otra pasó por alto. Comparar manualmente herramientas de investigación de IA ha sido algo que los usuarios han tenido que hacer por su cuenta hasta ahora.
En Critique, los modelos esencialmente colaboran entre sí, mientras que en Council los modelos compiten entre sí.
Critique es la experiencia predeterminada en Researcher, mientras que Council requiere que selecciones “Model Council” en el selector para activar el modo de visualización lado a lado. Ambas funciones están disponibles actualmente para los usuarios inscritos en el programa Frontier de Microsoft, el canal de acceso anticipado para las capacidades más recientes de Copilot. Se requiere una licencia de Microsoft 365 Copilot ($30/usuario/mes), pero los usuarios también deben estar inscritos en Frontier para acceder a ellas.
Imagen: Microsoft
OpenAI y Microsoft tienen una asociación de varios miles de millones de dólares, pero la apuesta de Microsoft es que ningún modelo único se mantendrá en la cima por mucho tiempo, y que el verdadero valor está en la capa de orquestación que enruta tareas hacia la combinación que funcione mejor.