「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the “point-to-reason” synergy humans use.」

「傳統的思維鏈停留在語言空間裡，但視覺推理需要更多。透過使用點和框作為認知錨點，我們的模型弭合了「引用鴻溝」，模擬了人類「邊指邊想」的協同機制。」

看得清和指得準，是兩回事

目前所有多模態大模型做圖像推理，本質都是把看到的畫面轉化成文字，然後在文字空間裡做思維鏈推理。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash，全是這個路子。

過去兩年，OpenAI、Google、Anthropic 的改進方向集中在一個問題：怎麼讓模型看得更清楚。高分辨率裁切、動態分塊、把圖片放大再塞進去。DeepSeek 管這個叫 Perception Gap，感知鴻溝。

但這篇論文指出了另一個瓶頸：Reference Gap，引用鴻溝。模型看清了，但在推理過程中沒法精確指向圖中的某個東西。

你可以這樣理解：一張圖裡 25 個人密密麻麻站在一起，你用語言去描述「左邊第三排穿藍色球衣那個人旁邊的那個」，描述本身就是模糊的。模型數著數著就丟了上下文，忘了剛才數到誰。

人類怎麼解決這個問題？夠原始的：伸出手指，指一個數一個。

284B 參數的模型，裝上了一根手指

DeepSeek 的方案：讓模型在思考過程中直接輸出圖片上的座標。

想像一下，模型看到一張圖裡有很多人，它的思維鏈不再是「我看到左邊有個穿藍衣服的人」，而是「我看到這個人」然後附上一個框的座標，把人圈出來。每數一個人就圈一個框，圈完之後數框的數量就行了。

兩種座標格式：一種是框（bounding box），畫個矩形把物體圈住，適合標定物體位置；一種是點（point），在圖上戳一個位置，適合追蹤路徑和走迷宮。DeepSeek 管這兩種東西叫「視覺原語」，最小的思維單元。

關鍵變化在這裡：以前模型輸出座標是作為最終答案（「目標在這裡」），現在座標嵌入了思考過程本身。座標是草稿紙上的標記，不是答卷上的答案。

把一張圖壓縮 7056 倍，還能數清楚裡面有幾個人

模型底座是 DeepSeek-V4-Flash，一個 284B 參數的 MoE 模型。MoE 的意思是：模型腦子很大，但每次回答問題只調用一小部分神經元來幹活，推理時只激活 13B 參數。類似於一個百人團隊，每個任務只派 5 個人上場。

視覺編碼器這邊，做了三級壓縮。打個比方：你有一張照片要發給朋友，網速很慢。第一步，你把照片切成小方格備用；第二步，每 9 個小方格合併成 1 個（3×3 壓縮）；第三步，再在傳輸時進一步精簡掉冗餘信息（KV Cache 壓縮 4 倍）。

實際數字：一張 756×756 的圖，57 萬像素，一路壓下去變成 81 個信息單元。壓縮比 7,056 倍。

我看到這個數字的第一反應是：這還能看清東西？但論文裡的結果說明，確實能。不光能看清楚，還能精確數出圖裡有 25 個人。

對比一下：同樣 800×800 的圖，Gemini-3-Flash 消耗約 1100 個 token 來表示這張圖，Claude-Sonnet-4.6 約 870 個，GPT-5.4 約 740 個。DeepSeek 在最終計算時只用 90 個信息單元。別人用一千多個格子來記住一張圖，DeepSeek 用 90 個格子就夠了，然後騰出來的算力全拿去「指」。

4000 萬條訓練數據怎麼攢出來的

DeepSeek 從 Huggingface 等平台把所有帶「目標檢測」標籤的數據集都爬了下來，初篩得到 97,984 個數據源。

然後做了兩輪篩選。

第一輪查標籤質量。用 AI 自動審核三類問題：標籤是無意義的數字編號（類別名叫「0」「1」的那種）、標籤是私人實體（「MyRoommate」）、標籤是模糊縮寫（工業檢測裡的「OK」「NG」，一個蘋果「OK」和一個電路板「OK」長得完全不一樣，AI 學不了）。這輪砍掉 56%，剩 43,141 個。

第二輪查框的質量。三個標準：漏標太多的（標了一半就不標了）、框畫歪了切掉物體一半的、框大到把整張圖都框住的（說明原始數據是圖片分類硬轉成的檢測數據，沒有定位信息）。再砍 27%，剩 31,701 個。

最後按類別抽樣、去重，產出超過 4000 萬高質量樣本。

DeepSeek 選擇先把框的數據做大，點的數據後面再補。原因也簡單：你讓 AI 標一個框，答案基本唯一（把物體剛好圈住）；但讓 AI 標一個點，物體上哪個位置都算對，沒有唯一正確答案，訓練信號太模糊。而且框本身就包含了兩個點（左上角和右下角），學會畫框之後標點就是降維操作。

怎麼把「指」這個能力教給模型

後訓練的策略是「先分頭練，再合併」。

DeepSeek 先拿框的數據訓練一個專門畫框的專家模型，再拿點的數據訓練一個專門標點的專家模型。分開訓練是因為數據量還不夠大，兩種能力混在一起容易互相干擾。

然後對兩個專家分別做強化學習。怎麼判斷模型「畫對了框」或「走對了路」？DeepSeek 設計了一套多維度的打分系統：格式對不對（座標語法正確嗎）、邏輯通不通（思考過程有沒有自相矛盾）、答案準不准（最終結果和標準答案差多少）。

強化學習的數據篩選也有講究：先讓模型做 N 遍同一道題，全做對的題太簡單沒訓練價值，全做錯的題太難學不到東西，只留「有對有錯」的題來練。

最後一步是把兩個專家的能力合到一個模型裡。具體做法：讓統一模型照著兩個專家的輸出去學，類似於一個學生同時跟兩個老師學不同科目。

給了它手指之後，它是怎麼數數的

數 25 個人

給模型一張足球隊合照，問「圖裡有多少人？」

思考過程：先判斷「這是團隊合照，要數所有人，包括球員和教練」。然後一次性輸出 25 個框座標，每個人身上圈一個框。接著按排數統計：前排坐著 4 個 + 中排 9 個 + 後排 8 個 + 左側 2 個教練 + 右側 2 個教練 = 25。

「地上的熊有幾隻？」

圖中有三隻熊。模型逐一給每隻畫框並判斷位置：第一隻，在樹幹上垂直攀爬，排除；第二隻，在岩石邊緣走動，算；第三隻，在碎木和泥土間，算。答案：2 隻。

不是先數出三隻再減一隻，而是對每隻都做了「是不是在地面上」的判斷，每個判斷背後都有一個具體座標錨定。它真的在逐個檢查，不是在猜。

多跳空間推理

一個 3D 渲染場景裡有一堆彩色幾何體。問題：「存不存在一個紫色橡膠物體跟灰色金屬物體一樣大？」

模型先框出灰色金屬球體，確認是個小號物體。然後逐一框出場景裡其他小號物體：棕色金屬圓柱、藍色金屬方塊、藍色橡膠方塊、黃色橡膠圓柱……六個物體逐個查，顏色、材質、大小三個屬性一一核對。結論：不存在紫色橡膠的。

六次定位，六次判斷。每一步都有座標錨著，不會出現「等等剛才查到哪了」的情況。

論文中更多案例參考：

迷宮導航：別人擲硬幣，DeepSeek 真的在搜尋

論文測了四種任務，迷宮是差距拉得最開的一個。

任務很直接：給一張迷宮圖，問從起點到終點有沒有路，有的話畫出來。迷宮有三種形狀，方格的、圓環的、蜂巢的。

模型走迷宮的方式跟你小時候用鉛筆在紙上畫一樣：選一條岔路走到頭，走不通就退回來試另一條。區別是它每走一步都在圖上標一個座標點，留下記錄。

論文裡展示了一個圓形迷宮的完整過程：模型先標出起點和終點的位置，然後開始探索。走了 18 步，中間兩次鑽進死胡同又退出來，最後繞出了一條通路，把整條路徑的座標點串起來輸出。

DeepSeek 還設計了一批陷阱迷宮：乍一看有路，但中間某段被偷偷堵住了。這種迷宮考的是耐心，模型不能只看起點附近的走勢就下結論，得老老實實把能走的路都試一遍才能確認走不通。

準確率對比：

DeepSeek：66.9%
GPT-5.4：50.6%
Claude-Sonnet-4.6：48.9%
Gemini-3-Flash：49.4%
Qwen3-VL：49.6%

迷宮只有兩種答案：有路，或者沒路。隨機猜正好 50%。GPT、Claude、Gemini、Qwen 全在 50% 附近晃，跟擲硬幣沒什麼區別。DeepSeek 的 66.9% 不算高，但它確實是在一步步走的，不是在蒙。

路徑追蹤：大家來找茬的終極版本

這個任務更直觀：一堆線纏在一起，每條線從一個標記通向另一個標記。你的耳機線從口袋裡掏出來是什麼樣，畫面就什麼樣。題目問你：C 這條線通向哪個終點？

模型的做法是沿著線一路輸出座標點，像手指劃過紙面。線彎得厲害的地方點標得密，直線段標得疏。人用眼睛追一根線的時候也是這樣，彎道處慢下來，直線處一掃而過。

論文還加了一個加難版測試：所有線顏色粗細都一樣。不能靠顏色區分是哪根線了，只能靠曲線本身的走勢連續性來判斷交叉口該跟著哪條走。

DeepSeek：56.7%
GPT-5.4：46.5%
Claude-Sonnet-4.6：30.6%
Gemini-3-Flash：41.4%

Claude 的 30.6% 有點出乎意料。終點一般有四五個選項，隨機猜也該有 20% 出頭，30.6% 只比瞎猜強一點點。可能它在這類純空間追蹤任務上，語言推理的慣性反而幫了倒忙。

怎麼教 AI 走迷宮不作弊

迷宮的訓練有一個現實問題：如果只看最終答對沒答對來給分，模型很快就學精了，與其費盡心思搜尋還可能答錯，不如直接猜一個，反正認真走了答錯跟沒走答錯，分數一樣是零。

DeepSeek 的解決辦法是把過程也算進分數。每一步合法的探索都給分，穿牆扣分，走得越遠越好。哪怕最後沒到終點，只要認真搜尋了大部分區域，也能拿到不錯的成績。這樣一來，模型就沒有偷懶的動力了。

不可解迷宮的要求更高：不能光說一句「走不通」，還得證明你確實把能到的地方都走遍了。搜尋覆蓋率也算分。

一個彩蛋，三個局限

後訓練數據裡沒有中文。但模型能用中文做視覺原語推理。

給它一張咖啡機的照片，用中文問「怎麼做拿鐵」，它用中文標註了蒸汽棒、奶壺、咖啡豆、拿鐵按鈕的位置座標，然後給出操作步驟。多語言能力是從基座模型那裡繼承的，視覺原語的訓練沒有把它破壞掉。

它還能把看圖和世界知識結合起來：給一張金門大橋的照片問「這附近有 NBA 球隊嗎？」它先框出金門大橋，推理出這是舊金山，然後回答金州勇士隊。

能理解幽默：一塊水果切面上的天然斑點恰好組成了一張憂鬱貓臉的模樣，模型能指出相似點在哪裡並解釋為什麼好笑。

能做密室逃脫指導：框出高處的鑰匙、地板上的椅子、帶鎖的門，建議「把椅子搬到鑰匙下方 → 踩上去拿鑰匙 → 去開門」。

論文很坦誠地寫了目前做不到的事。

輸入解析度有限制。ViT 輸出被卡在 81 到 384 個視覺信息單元之間，遇到很細緻的場景（比如數手指這種），座標精度還不夠。這可能就是前天實測時數手指翻車的直接原因。

目前需要特定觸發詞才能激活視覺原語模式。模型還不能自己判斷「這道題我該伸手指來做」，得有人提醒它。

拓撲推理的泛化能力有限。在訓練過的迷宮類型上效果好，換一種新的空間結構就可能掉鏈子。陳小康在那條已刪推文裡也說了：

「We’re still in the early stages; generalization in complex topological reasoning tasks isn’t perfect yet, but we’re committed to solving it.」

「我們還在早期階段，複雜拓撲推理任務的泛化還不完善，但我們會持續解決。」

前天實測時，DeepSeek 識圖模式展現的那些能力（追問發布者身份、聯想鯨魚 logo 含義、自我糾正、給自己開「小型答辯會」），和這篇論文描述的思維方式一脈相承。它在腦中建立視覺錨點，圍繞錨點做推理，碰到矛盾就回溯修正。

而數手數晕了，就是 Reference Gap 的活體演示。手指交叉重疊的畫面裡，純靠語言描述去區分「從左數第三根」和「從右數第二根」，跟你自己不伸手指去數一群擠在一起的人一個道理，注定混亂。

這篇論文指向的方向是：多模態推理的下一步進化在錨定機制上。DeepSeek 用 90 個信息單元就打平了別人用上千 token 的效果，省下來的算力全拿去讓模型「一邊想一邊指」。

分辨率軍備競賽可以緩一緩了，教會模型伸出手指，比給它配一副更貴的眼鏡管用。

這隻鯨魚開了眼之後，還長出了手指。66.9% 的迷宮準確率離完美還遠，但至少它在認真走，不像隔壁那幾位在擲硬幣。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

DeepSeek連夜刪掉的新論文到底說了什麼

熱門話題

WCTC交易王PK

美國尋求戰略比特幣儲備

比特幣ETF期權限額提高4倍#

#聯準會利率不變但內部分歧加劇#

DeFi4月安全事件損失超6億美元

置頂