Gate News informa que, el 17 de marzo, Moonshot publicó el informe técnico Attention Residuals, en el que propone reemplazar las conexiones residuales fijas en Transformer por mecanismos de atención, logrando en el modelo Kimi Linear 48B un uso equivalente de un 25% más de potencia de cálculo y un aumento en la latencia de inferencia de menos del 2%. Elon Musk publicó anoche en X: “Impressive work from Kimi”, y la cuenta oficial de Moonshot respondió hoy en Weibo: “¡Tu cohete también está bastante bien hecho!”.
Este tuit también llevó la discusión hacia uno de los coautores del artículo: Chen Guangyu (nombre en inglés Nathan), de 17 años, que aún cursa la escuela secundaria. Los otros dos coautores del artículo son Su Jianlin, quien propuso RoPE (codificación de posición rotatoria), y Zhang Yu, primer autor de Kimi Linear. Chen Guangyu se unió a Moonshot en noviembre de 2025, y el proyecto de código abierto Flash Linear Attention en GitHub fue su punto de entrada al aprendizaje automático.
Chen Guangyu también respondió en X a las discusiones externas, diciendo que “un artículo que combine algoritmos y co-diseño de infraestructura, con experimentos y teoría complementarios, difícilmente puede ser escrito por una sola persona”, y que todos en el equipo de Kimi están involucrados. Además, Yu Zhang y Su Jianlin son contribuyentes iguales, y recordó a todos que “no crean en rumores”.
Su página de LinkedIn muestra que estudia en Basis International Park Lane Harbour en Huizhou. Moonshot Academy fue la organizadora del hackathon para estudiantes de secundaria “Moonshot 48” en marzo de 2025, en el que Chen Guangyu obtuvo el primer lugar.