Microsoft ha logrado que GPT y Claude funcionen juntos—y el resultado supera a cualquier herramienta de investigación de IA que exista

Decrypt

En resumen

  • Microsoft lanzó dos modos diferentes que combinan GPT y Claude para mejorar la calidad de la investigación con IA.
  • Critique hace que los modelos colaboren, mientras que Council hace que trabajen en paralelo, y un tercer juez detecta las discrepancias.
  • Este flujo de trabajo de dos modelos corrige alucinaciones, citas débiles y otros problemas asociados con la investigación de IA con un solo modelo.

La IA de investigación profunda ha sido una de las carreras armamentísticas más intensas en tecnología este año. Google anunció su agente de investigación para Gemini en diciembre de 2024, OpenAI publicó su propio agente de investigación en febrero de 2025, xAI siguió el ejemplo, Perplexity apostó por reforzar lo suyo y el Claude de Anthropic ganó una base fiel entre profesionales que necesitan respuestas detalladas y citadas, presentando su agente en abril del año pasado. Cada empresa ha estado tratando de convencerte de que su único modelo de IA es el investigador más inteligente de la sala. Microsoft acaba de decir: ¿Por qué elegir uno? La compañía anunció el lunes dos funciones nuevas para la herramienta Researcher de Copilot—llamadas Critique y Council—que ponen a trabajar en secuencia el GPT de OpenAI y el Claude de Anthropic en la misma tarea de investigación. El resultado, según las pruebas de Microsoft frente a un punto de referencia de la industria, puntúa más alto que cualquier sistema incluido en esa prueba, incluidos los modelos de las principales compañías de IA.

Presentamos Critique, un nuevo sistema de investigación profunda multi-modelo en M365 Copilot.

Puedes usar varios modelos juntos para generar respuestas y reportes óptimos. pic.twitter.com/m4RlQmCKzs

— Satya Nadella (@satyanadella) March 30, 2026

“Critique es un nuevo sistema multi modelo de investigación profunda diseñado para tareas de investigación complejas. Separa la generación de la evaluación y utiliza una combinación de modelos de laboratorios Frontier, incluyendo Anthropic y OpenAI”, explica Microsoft. “Un modelo lidera la fase de generación, planifica la tarea, itera a través de la recuperación y produce un borrador inicial, mientras que un segundo modelo se centra en la revisión y el refinamiento, actuando como un revisor experto antes de que se produzca el informe final”. Aquí está el problema básico que Critique está diseñado para corregir: hoy, cada herramienta de investigación de IA funciona de la misma manera. Haces una pregunta, un modelo planifica una búsqueda, rastrea fuentes, redacta un informe y te lo devuelve. Ese único modelo hace todo sin que nadie verifique su trabajo. Esto puede terminar dejando colarse algunas alucinaciones, algunos errores en las citas, afirmaciones falsas o inexactas, etc.

 Critique rompe ese flujo de trabajo en dos. GPT se encarga de la primera fase: planifica la investigación, obtiene fuentes y escribe un borrador inicial. Luego Claude entra como un editor estricto, revisando el informe por precisión factual, calidad de las citas y si la respuesta realmente abordó lo que se pidió. Solo después de esa revisión, el informe final llega al usuario. Microsoft dice que los roles también pueden ejecutarse eventualmente en la dirección opuesta, con Claude redactando y GPT criticando, aunque por ahora GPT va primero. En el benchmark DRACO—una prueba estandarizada que cubre 100 tareas complejas de investigación en 10 dominios, incluyendo medicina, derecho y tecnología—Copilot con Critique obtuvo 57.4 puntos. Con Claude Opus de Anthropic por sí solo obtuvo 42.7. El sistema combinado de Microsoft supera el siguiente mejor resultado en casi un 14%.

Imagen: Microsoft

Las mayores mejoras aparecieron en la amplitud del análisis y la calidad de la presentación, y también se registró una mejora significativa en la exactitud de los hechos. La segunda función, Council, adopta un enfoque diferente para el mismo problema. En lugar de que un modelo revise el trabajo del otro, Council ejecuta GPT y Claude simultáneamente y coloca sus informes completos lado a lado. Luego, un tercer modelo “juez” lee ambos y escribe un resumen explicando en qué coincidieron las dos AIs, en qué se diferenciaron y qué ángulos únicos captó cada una que la otra pasó por alto. Comparar manualmente herramientas de investigación de IA ha sido algo que los usuarios han tenido que hacer por su cuenta hasta ahora. En Critique, los modelos esencialmente colaboran entre sí, mientras que en Council los modelos compiten entre sí. Critique es la experiencia predeterminada en Researcher, mientras que Council requiere que selecciones “Model Council” en el selector para activar el modo de visualización lado a lado. Ambas funciones están disponibles actualmente para los usuarios inscritos en el programa Frontier de Microsoft, el canal de acceso anticipado para las capacidades más recientes de Copilot. Se requiere una licencia de Microsoft 365 Copilot ($30/usuario/mes), pero los usuarios también deben estar inscritos en Frontier para acceder a ellas.

Imagen: Microsoft

OpenAI y Microsoft tienen una asociación de varios miles de millones de dólares, pero la apuesta de Microsoft es que ningún modelo único se mantendrá en la cima por mucho tiempo, y que el verdadero valor está en la capa de orquestación que enruta tareas hacia la combinación que funcione mejor.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios