Laporan apa yang membuat Musk juga merasa tidak percaya?



Moonshot AI(Tim Kimi)baru saja merilis laporan teknis yang mengguncang: 《Attention Residuals》, yang langsung meningkatkan residual connections (koneksi residual) di Transformer yang telah digunakan selama hampir 10 tahun. Hasilnya bahkan Elon Musk tidak bisa menahan diri untuk meninggalkan komentar, merasa tidak percaya (tingkat shock unbelievable).

Inti dari laporan ini bisa dirangkum dalam satu kalimat:
"Jangan biarkan setiap layer terus-menerus menambahkan informasi dari semua layer sebelumnya dengan bobot yang sama, biarkan model belajar sendiri menggunakan attention untuk memilih sinyal dari layer awal mana yang benar-benar berguna!"

Di Transformer tradisional (struktur PreNorm), output setiap layer adalah:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)

Secara sederhana: tidak peduli apakah informasi dari 100 layer sebelumnya berguna atau tidak, semuanya ditambahkan begitu saja. Saat depth semakin dalam, sinyal penting dari awal akan terdilusi oleh banyak layer berikutnya hingga hampir hilang (mereka menyebut fenomena ini PreNorm dilution atau representational dilution).

Tim Kimi langsung mengganti tanda "+" ini dengan attention lintas-layer yang ringan (depth-wise attention):

Formula baru kurang lebih terlihat seperti ini (versi sederhana):
x_l = Attention( Q=x_l^{pre}, K=ringkasan semua layer sebelumnya, V=value yang sesuai ) + hal lainnya

Implementasi yang lebih praktis mereka sebut Block AttnRes: setiap beberapa layer (misalnya 8-16 layer) buat ringkasan key/value, kemudian gunakan attention untuk memilih ringkasan-ringkasan ini, bukan menghitung attention di setiap layer. Dengan cara ini memory dan komputasi meningkat sangat sedikit (latency inferensi <2%), tapi efeknya sangat kuat.

Hasil eksperimen mereka (menggunakan model Kimi Linear series mereka sendiri, 48B total / 3B active):
• Pada FLOPs yang sama, peningkatan performa setara dengan keuntungan komputasi 1.25x
• Peningkatan nyata pada inferensi sequence panjang dan tugas reasoning multi-step yang kompleks
• Magnitude (norma) hidden state lebih stabil, tidak seperti residual tradisional yang meledak atau melemah seiring kedalaman
• Propagasi gradient lebih merata, layer dalam lebih mudah dilatih
⚠️⚠️

Pertanyaannya, kenapa Musk reaksinya sebesar itu?

"Residual connections tidur selama delapan tahun, akhirnya ada yang berani mengubahnya, dan mengubahnya dengan sangat elegan, hasilnya juga luar biasa baik?!"

Kenapa ini penting? Karena residual connection hampir merupakan satu-satunya penyelamat yang memungkinkan Transformer dilatih hingga 100+ layer, bahkan ribuan layer, semua orang merasa sudah optimal dan tidak bisa diubah. Hasilnya Kimi menggunakan mekanisme attention yang paling familiar, untuk mengatasi masalah dari residual itu sendiri, setara dengan memainkan kalimat "attention adalah semua yang Anda butuhkan" ke level baru.

Sekarang sudah ada implementasi Rust (berbasis framework burn), berbagai diagram penjelasan visualisasi sedang viral di X, dan ada yang mengatakan ini adalah inovasi arsitektur yang benar-benar bisa masuk generasi berikutnya dari model open source/closed source besar, setelah mHC DeepSeek.

Jika Anda membuat model besar, melatih LLM Anda sendiri, laporan ini layak untuk dibaca semalam-semalamnya versi original + kode (GitHub sudah open source).

Laporan:
Bersiaplah untuk terkejut 🚀
Lihat Asli
post-image
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan