China’s KI AI-Startup Moonshot AI hat kürzlich einen technischen Bericht veröffentlicht, in dem ein neues Architekturkonzept namens „Attention Residuals“ vorgestellt wird, das versucht, das seit langem verwendete Residual-Design von Transformers neu zu gestalten. Kurz nach der Veröffentlichung des Berichts äußerte Elon Musk in den sozialen Medien: „Impressive work from Kimi (Kimis Arbeit ist beeindruckend)“, was dazu führte, dass diese Technik schnell Aufmerksamkeit erregte.
Das KI-Modell Kimi aus China erweitert die Aufmerksamkeit auf die Interaktion zwischen Modellen
Der Schwerpunkt von Kimi liegt diesmal auf der Behandlung eines sehr zentralen, aber selten neu durchdachten Mechanismus in Transformers: der Residual-Verbindung. Seit ResNet sind die meisten Modelle so aufgebaut, dass die Ausgaben jeder Schicht „direkt addiert werden“ und die Gewichte dabei gleich bleiben. Diese Methode ist einfach und stabil, doch wenn das Modell sehr tief wird, treten Probleme auf: Die vorher angesammelten Informationen nehmen immer mehr zu, während neue Signale kaum noch wirken können oder sogar überlagert werden, was das Training erschwert.
Kimis Ansatz besteht darin, die Attention-Mechanismen vom ursprünglichen Einsatz „zwischen Tokens“ auf den Einsatz „zwischen den Schichten des Modells“ zu erweitern. Bei Attention Residuals wird in jeder Schicht nicht mehr alle Informationen der vorherigen Schichten gleichmäßig aufgenommen, sondern durch Attention ausgewählt, welche Schichten wichtiger sind. Das bedeutet, das Modell addiert nicht mehr nur ständig, sondern wählt aktiv relevante Informationen basierend auf der aktuellen Eingabe aus.
Kimi steigert die Effizienz um das 1,25-fache, ohne die Inferenzlatenz zu erhöhen
Wenn jede Schicht alle vorherigen Schichten betrachtet, ist der Rechenaufwand zu hoch. Deshalb schlägt Kimi eine Kompromisslösung vor, genannt Block Attention Residuals: Das Modell wird in mehrere Blöcke unterteilt, innerhalb derer die ursprüngliche Additionsmethode beibehalten wird, zwischen den Blöcken erfolgt jedoch eine Attention-basierte Auswahl. Dadurch bleibt die Fähigkeit zur Informationsauswahl erhalten, während der Speicher- und Rechenaufwand deutlich reduziert wird. Diese Methode kann praktisch direkt auf bestehende Modelle angewendet werden.
Die Ergebnisse zeigen, dass Kimi bei einem großen Modell die Inferenzlatenz kaum erhöht (weniger als 2 %), gleichzeitig aber die Effizienz um etwa 1,25-fach steigert und in mehreren Testmetriken Verbesserungen erzielt. Das bedeutet, dass diese Methode nicht nur theoretisch elegant ist, sondern auch praktische Anwendbarkeit besitzt. Während früher Attention hauptsächlich die Beziehungen zwischen einzelnen Wörtern löste, ermöglicht Kimi dem Modell, auch darüber nachzudenken, welche Informationen zwischen den verschiedenen Schichten genutzt werden sollten.
Kurz gesagt, das Modell liest nicht nur Daten, sondern lernt auch, wie es auf vergangene Berechnungen zurückgreifen kann.
Der Artikel wurde von Elon Musk gelobt: „Beeindruckend!“ Was ist das Geheimnis des chinesischen KI-Modells Kimi? Ursprünglich veröffentlicht bei Chain News ABMedia.