¡El primer AI que crea otro AI en la historia! GPT-5.3 participa en su propio desarrollo, la ciencia ficción se convierte en realidad

MarketWhisper

OpenAI lanzó GPT-5.3-Codex, el primer modelo que “participa en la autocreación” para depurar su propio código, gestionar el despliegue y diagnosticar pruebas. Karpathy calificó la revisión como “la más cercana a la escena de despegue de la IA.”

La IA comenzó a crear singularidades tecnológicas y avances en el sector

Se ha publicado oficialmente la cuenta oficial de OpenAI: GPT-5.3-Codex, que es “el primero en participar en la creación de tu propio modelo”. ¿Qué significa? En otras palabras, durante el proceso de desarrollo, esta IA ayudó a depurar su propio código de entrenamiento, gestionar su propio proceso de despliegue y diagnosticar sus propios resultados de prueba. En términos humanos, la IA ha empezado a crear IA.

Andrej Karpathy, un exinvestigador de OpenAI y director de IA de Tesla, tuiteó justo después de leerlo: “Esto es lo más parecido que he visto a una escena de despegue de IA en la ciencia ficción.” Esta valoración de los principales investigadores en IA es importante porque Karpathy ha experimentado personalmente varias etapas clave del desarrollo de la IA, y su juicio se basa en un profundo conocimiento técnico.

La IA se repite a sí misma, esto no es retórica de marketing. Según la divulgación interna de OpenAI, GPT-5.3-Codex hizo estas cosas durante el proceso de desarrollo: analizar pruebas que no detectaron registros de entrenamiento, sugerir correcciones para scripts y perfiles de entrenamiento, generar recetas de despliegue y resumir y evaluar anomalías para revisión humana. ¿Qué significa esto? La IA ya no es solo una herramienta, está empezando a formar parte del equipo de desarrollo, y es del tipo que puede mejorarse a sí misma.

Esta capacidad de participar en el desarrollo supera la posición tradicional de la IA. En el pasado, los modelos de IA eran diseñados, entrenados y desplegados íntegramente por humanos, y la IA era un producto pasivo. Ahora GPT-5.3 ha desempeñado un papel activo en su propio nacimiento y, aunque sigue bajo supervisión humana, este cambio de rol tiene implicaciones de gran alcance. Sugiere una posibilidad: los futuros modelos de IA podrían ser en gran medida diseñados y optimizados por la propia IA, con los humanos proporcionando solo dirección y revisión final.

Autoparticipación en el desarrollo de GPT-5.3

Analizar registros de entrenamiento: Señalar automáticamente las pruebas fallidas para identificar anomalías durante el entrenamiento

Plan de reparación recomendado: Sugiero mejoras en los scripts y perfiles de entrenamiento

Generar la receta de despliegue: Automatizar el proceso de despliegue y reducir las operaciones manuales

Anomalía de evaluación resumida: Organizar resultados complejos de evaluaciones en informes comprensibles para las personas

Un artículo reciente de SEAL publicado por el MIT (arXiv:2506.10943) describe una arquitectura de IA que aprende continuamente tras el despliegue, evolucionando sin reentrenamiento. Cabe destacar que algunos investigadores de SEAL se han unido ahora a OpenAI. Esto significa que la IA ha pasado de ser una “herramienta estática” a un “sistema dinámico”, el aprendizaje ya no se detiene en el despliegue y los límites entre inferencia y entrenamiento se están desvaneciendo. GPT-5.3 podría ser la primera aplicación comercial de esta nueva arquitectura.

El 77,3% aplastó la matanza de referencia de Claude

El 5 de febrero, OpenAI y Anthropic lanzaron una nueva generación de modelos con solo 20 minutos de diferencia. Primero, Anthropic lanzó Claude Opus 4.6, y luego OpenAI lanzó GPT-5.3-Codex. Como OpenAI quiere usar GPT-5.3-Codex para disparar a los nuevos modelos de otros, debe tener alguna capacidad. Los datos no mienten, GPT-5.3-Codex estableció nuevos récords en múltiples benchmarks del sector tan pronto como se lanzó.

Terminal-Bench 2.0 pone a prueba las capacidades operativas de la IA en un entorno terminal real, compilando código, entrenando modelos y configurando servidores. GPT-5.3-Codex obtuvo un 77,3%, mientras que GPT-5.2-Codex solo obtuvo un 64,0% y Claude Opus 4.6 reportó un 65,4%. Esto supone un aumento de 13 puntos porcentuales entre generaciones, lo que ya supone un gran avance en el campo de la IA. La comparación entre el 77,3% y el 65,4% muestra que GPT-5.3 establece una ventaja significativa en tareas de ingeniería del mundo real.

SWE-Bench Pro es un benchmark diseñado específicamente para probar capacidades reales de ingeniería de software, que abarca cuatro lenguajes de programación: Python, JavaScript, Go y Ruby. GPT-5.3-Codex obtuvo un 56,8%, superando el 56,4% de su predecesor, GPT-5.2-Codex, y mantuvo su primer puesto en la industria. Más importante aún, OpenAI reveló que GPT-5.3-Codex utiliza el menor número de tokens de salida de cualquier modelo cuando alcanza esta puntuación, lo que significa que no solo es preciso sino también eficiente.

OSWorld-Verified evalúa la capacidad de la IA para completar tareas productivas en un entorno de escritorio visual, editando hojas de cálculo, creando presentaciones, trabajando en documentos y más. GPT-5.3-Codex obtuvo un 64,7%, frente a la media humana del 72%. Esto significa que ha alcanzado el rendimiento de la gente común en tareas de operación informática, casi duplicando respecto a su predecesor. Este rendimiento casi humano hace que la IA sea realmente capaz de trabajar en la oficina por primera vez, en lugar de ser solo una herramienta auxiliar.

Claude contraataca equipos de fichas y agentes de 100K

Lo que resulta aún más destacable es que Claude Opus 4.6 soporta por primera vez una ventana de contexto de token (beta) de 100K en el modelo a nivel Opus, que puede procesar toda la base de código o cientos de páginas de documentos a la vez, y lanzó la función Agent Teams, donde varios agentes de IA pueden colaborar en la programación, prueba y escritura de documentos al mismo tiempo.

Cuando OpenAI y Anthropic lanzan sus modelos insignia el mismo día y en el mismo momento, ¿esta competición ya no es solo una competición técnica, sino una batalla por la futura configuración de la IA: la ruta de “autoevolución” de OpenAI o la ruta de “colaboración multiagente” de Anthropic? La estrategia de OpenAI es hacer que una sola IA sea más poderosa e incluso mejorarse a sí misma. La estrategia de Anthropic es permitir que múltiples IAs colaboren en tareas complejas mediante la división del trabajo y la colaboración.

El contexto de los tokens de 100K es un avance tecnológico. Esto equivale a unos 75 millones de palabras en inglés o 300 caracteres chinos, lo que es suficiente para caber en todo el código de un proyecto de software de tamaño medio o en una documentación técnica densa. Esta capacidad permite a Claude “ver” el proyecto completo en lugar de una comprensión fragmentaria. Para el análisis y refactorización de arquitectura de proyectos a gran escala, esta visión global es crucial.

Agents Teams aporta el concepto de colaboración a la IA. Un Agente escribe código, otro prueba y un tercero escribe documentación, y pueden comunicarse y coordinarse entre sí. Este patrón imita cómo funcionan los equipos humanos de software y puede ser más adecuado para ciertos escenarios que una sola superIA. Sin embargo, la colaboración multiagente también introduce nuevas complejidades: cómo coordinar, cómo evitar conflictos y cómo garantizar la coherencia.

Ambas rutas tienen sus ventajas y desventajas. La vía de autoevolución de OpenAI es más agresiva y, si tiene éxito, puede llevar a mejoras exponenciales en las capacidades, pero también podría descontrolarse. La ruta multiagente de Anthropic es más conservadora, reduciendo el punto único de riesgo al distribuir capacidades, pero los costes de coordinación pueden limitar la eficiencia. A medida que la IA empieza a evolucionar en la naturaleza, las preguntas sobre gobernanza pasarán de “qué tan inteligente es” a “¿cómo gestionamos un sistema que está en constante cambio?” Y cuando dos grandes empresas de IA lanzan modelos revolucionarios seguidos en menos de 20 minutos, la ventana de tiempo restante para el pensamiento y la preparación humana se está reduciendo a una velocidad visible a simple vista.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

昨日美国以太坊现货 ETF 净流入 2670 万美元,ETHA 流入 3240 万美元

Gate News 消息,3 月 14 日,据 Farside 监测,昨日(3 月 13 日)美国以太坊现货 ETF 净流入 2670 万美元。具体数据显示:贝莱德 ETHA 净流入 3240 万美元,Bitwise ETHW 净流入 220 万美元,富达 FETH 净流出 790 万美元。

GateNewshace1h

比特币现货 ETF 昨日净流入 1.80 亿美元,贝莱德 IBIT 领涨

3月13日,比特币现货ETF总净流入达1.80亿美元,已连续五天实现净流入。其中贝莱德ETF IBIT单日净流入1.44亿美元,总净流入达到630.66亿美元。富达ETF FBTC单日净流入2324.14万美元,总净流入109.90亿美元。目前,比特币现货ETF总资产净值为918.26亿美元,累计净流入561.36亿美元。

GateNewshace1h

Strategy 公司 STRC 本周交易量创新高,推算对应约 3.9 万枚 BTC 潜在购买规模

加密分析师Ragnar指出,Strategy公司的永续优先股STRC本周创下7.45亿美元的单日交易量,预计可能对应约3.9万枚比特币的购买规模。尽管市场潜力巨大,但当前加密市场结构尚未完全转向牛市,比特币与纳斯达克100指数相关性较高,可能面临市场回调风险。

GateNewshace3h

昨日美国 SOL 现货 ETF 净流入 759.64 万美元,BSOL 贡献全部流入

3月14日消息,SoSoValue数据显示,3月13日美国SOL现货ETF单日净流入759.64万美元,唯一净流入产品为Bitwise Solana Staking ETF,历史总净流入达7.82亿美元。目前SOL现货ETF总资产净值为8.55亿美元。

GateNewshace4h

一周精选丨告别“龙虾”狂欢,回归加密本源,Hyperliquid是本周最热项目

PANews编者按:PANews精选了一周的优质内容,帮助大家利用周末时间查漏补缺,点击标题即可阅读。 宏观视角 a16z:致加密创始人,企业不买最好的技术 区块链创始人如何向企业销售?本文揭示企业不买“最好”技术,而选择破坏最小的升级路径。结合真实案例,分享将区块链技术包装成企业可接受方案的关 马斯克最新访谈:AI已进入自我进化循环,人类正从“回路”中消失 马斯克在科技峰会透露,特斯拉擎天柱3人形机器人即将投产,AI已进入自我改进阶段。他预测未来经济将高速增长并转向通缩,商品服务产出远超货币供给,甚至预言“钱不再重要”。 对话Bitwise首席信息官:量子计算与AI威胁被夸大,

PANewshace4h

美股收盘三大指数均下跌,加密概念股 UPXI 涨超 19%

3月14日,美股三大指数收跌,道指跌0.26%,标普500跌0.61%,纳指跌0.93%。加密概念股表现不一,UPXI涨超19.3%。同时,去中心化RWA交易平台msx.com上线数百种RWA代币,包括美股及ETF。

GateNewshace4h
Comentar
0/400
Sin comentarios