Laut technischem Bericht von DeepSeek führte das Unternehmen am 30. April Visual Primitives ein, eine Methode, die grundlegende visuelle Einheiten wie Punkte und Begrenzungsrahmen in Denkketten einbettet, um das Reference-Gap-Problem in multimedialen Aufgaben zu adressieren. Das Verfahren senkt den Verbrauch von Bild-Token durch KV-Cache-Komprimierung.
In Benchmarks für Zähl- und räumliches Denken entspricht der Ansatz in ausgewählten Dimensionen der Leistung von GPT-5.4, Claude-Sonnet-4.6 und Gemini-3-Flash. DeepSeek erklärte, es werde Teile der Benchmarks und Datensätze Open Source stellen, wobei die Modellgewichte nach der Integration veröffentlicht werden.