DeepSeek führt am 30. April die Methode „Visual Primitives“ ein, um das multimodale Denken zu verbessern

Laut technischem Bericht von DeepSeek führte das Unternehmen am 30. April Visual Primitives ein, eine Methode, die grundlegende visuelle Einheiten wie Punkte und Begrenzungsrahmen in Denkketten einbettet, um das Reference-Gap-Problem in multimedialen Aufgaben zu adressieren. Das Verfahren senkt den Verbrauch von Bild-Token durch KV-Cache-Komprimierung.

In Benchmarks für Zähl- und räumliches Denken entspricht der Ansatz in ausgewählten Dimensionen der Leistung von GPT-5.4, Claude-Sonnet-4.6 und Gemini-3-Flash. DeepSeek erklärte, es werde Teile der Benchmarks und Datensätze Open Source stellen, wobei die Modellgewichte nach der Integration veröffentlicht werden.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare