V4發布前的DeepSeek:特質、組織和梁文鋒的獨特目標

DeepSeek 正處在一個變化的關口,從 2025 年下半年至今,明確已離開、找到新去處的 DeepSeek 成員有:

  • 去年底被騰訊姚順雨挖走的王炳宣,他是 DeepSeek LLM(DeepSeek 第一代大型語言模型)的核心作者,此後參與歷代模型訓練。

  • 約在春節前後離開的魏浩然,他是 DeepSeek-OCR 系列的核心作者,可能會入職某大廠。

  • 近期正式離職的郭達雅,他是 DeepSeek-R1 的核心作者,可能會入職某大廠。

  • 以及 2025 年較早時期離職進入退休狀態的阮翀,他在今年 1 月官宣加入自動駕駛創業公司元戎啟行;阮翀是從幻方時期就加入的老成員,是 Janus-Pro 等 DeepSeek 多模態成果的核心貢獻者。

DeepSeek 此前並未融資,沒有明確的公司估值。當其它 AI 公司市值或估值高漲,梁文鋒正在想辦法回答團隊成員的疑問:公司到底值多少錢?這關係著員工簽的期權協議到底價值幾何。

從 2025 年秋天起,梁文鋒也開始更多提產品化和商業化。DeepSeek 已有小數十人的產品團隊,但尚未涉足 AI 編程、通用 Agent 等熱門應用方向,在 C 端仍只有典型的 Chatbot 產品。

梁文鋒的新課題還有管理規模。DeepSeek 的人數已超過幻方,是他管過的最大的組織。

籠罩以上多重變化的是,DeepSeek V4 仍未正式發布。

其實在 26 年 1 月左右,V4 的一個小參數版本已給到了一些開源框架社群開始做適配。按此前相對樂觀的預期,大參數版的 V4 原本可能在 2 月中旬春節前後發布和開源。據了解,DeepSeek V4 有可能會在 4 月發布。

有人離開,更多人選擇留下。DeepSeek 在調整,但也有諸多不變的特質。

它是全球僅有的「不捲」的核心 AI Lab。當 Google、OpenAI、xAI、字節跳動等中美公司的核心 AI 開發人員每週工作 70~80 小時時,平日裡 DeepSeek 的多數員工會在下午 6 點~7 點左右離開公司,他們早上也不打卡。

梁文鋒認為,一個人一天能高品質輸出的時間很難超過 6~8 小時。

DeepSeek 沒有明確的績效考核和 DDL(截止時間)。這個精簡而人才密度極高的組織依然延續「自然分工」,研究員可自由組隊或獨自鑽研一些新想法。

「除了主線之外,DeepSeek 也有人在做一些可能一年都不會有成效的長期研究。」「DeepSeek 是一個真心想做研究的人,在國內,甚至全球能找到的最好的地方。」有接近 DeepSeek 的人士說。

當然,DeepSeek 還有一個特点:神秘。尤其 2025 年之後,除了公開發布技術報告外,從創始人梁文鋒到團隊成員集體「沉默」,在 AI 從業者活躍的社交媒體或社群裡很難聽到他們的聲音。

在這篇報道裡,我們呈現了從各種管道了解到的 DeepSeek 的特點、工作重心、組織運轉方式,以及這個不到 200 人的組織正在發生的變化。這一切的源頭,都是梁文鋒為 DeepSeek 設立的獨特目標。

梁文鋒其人:做少數事,做到極致

梁文鋒的 AI 目標遠早於 DeepSeek 成立的 2023 年。

2016 年,AGI 的提出者、DeepMind 創始人哈薩比斯曾組建量化交易團隊,試圖給當時想從 Google 獨立的 DeepMind 創收,結果沒賺到錢。

同一年,浙大本碩畢業的梁文鋒做量化投資已經 8 年。他在 2015 年創立幻方,2016 年開始用 GPU 跑深度學習實盤交易,在 2017 年底實現「幾乎所有交易策略 AI 化」,在 2019 年開始建立幻方的第一個算力叢集,有 1100 張 GPU 的「螢火 1 號」。

也是 2019 年,幻方 AI(幻方人工智能基礎研究有限公司)正式註冊成立。現在在小米負責 AI 的羅福莉和近期加入元戎的阮翀都是在這之後加入幻方,後在 2023 年轉入 DeepSeek。

作為一個不到 30 歲就財富自由的人,梁文鋒的生活簡單而神祕。

在周圍人的印象中,他會好幾天穿同一件衣服。他在杭州曾長期住飯店,在多數 DeepSeek 研發人員所在的北京則租房住。他身材瘦長精幹、有運動習慣,被人所知的愛好是徒步等戶外運動。

黃仁勳會邀請英偉達員工去家裡做客,喝小酒、聊家常,開心地展示跑車。而梁文鋒不參與季度團建活動,很少和成員聚餐,年底大團建也只在講話時露面,不會參與全程。

2022 年,幻方一位員工「一隻平凡的小豬」個人向慈善機構捐助 1.38 億元。後來很多人猜這隻小豬就是梁文鋒。幻方工作人員的回覆是:「員工捐款均是匿名,公司內部也不知道小豬的真實身分。」

在工作範疇裡,梁文鋒只做少數事。他不做多數初創公司 CEO 做的一些事,如融資。

2023 年,梁文鋒小範圍見過一些投資人。但據我們了解,他提出了一個不常規的要求:類似 OpenAI 與微軟的投資協議,梁文鋒希望投資方接受一個回報上限。這一輪見下來,沒有機構投資 DeepSeek。

之後兩年,中國大模型融資洶湧,頻現數億元大單輪,梁文鋒卻不再見投資人了,甚至不建立新的聯繫。即使不在融資窗口,大部分創始人也不會拒絕認識一下第一線機構合夥人,而梁文鋒拒絕了多數此類請求。

梁文鋒幾乎把所有時間投入到他認為應該聚焦的少數事上,做得細緻、做到極致。

DeepSeek 此前成功的關鍵之一是「力出一孔」,明確以語言模型為更高優先級,沒有做多模態生成等熱門方向。

在選定的主線上,梁文鋒會「hands on」地深入細節。他從不同背景的團隊成員身上學習演算法、架構、Infra、數據的知識,會自己參與模型和產品的細節討論。

見過梁文鋒的人不少都提到,他沒有 CEO 或所謂天才的「氣場」,更像一個研究員,他和人談論最多的是具體技術問題。

綠洲資本創始合夥人張津劍曾在《那些活出來的人中》分享了一個小故事,他問自己投資的 MiniMax 創始人閆俊傑:「有比你更專注的人嗎?」閆俊傑說有一次約一位沒見過的朋友吃飯,到早了,看到一位穿 T 恤的小哥,以為是助理。對方開始沒有自我介紹,問了閆俊傑很多技術問題。過了半小時,閆俊傑說:「梁總什麼時候來?」對方說:「我就是梁文鋒」。

DeepSeek 組織:扁平、交叉分工、不加班

與梁文鋒的風格相應,DeepSeek 的組織極其扁平、各環節交叉分工、謹慎擴張規模、不加班。

創立幻方時,梁文鋒有合夥人,而 DeepSeek 沒有二把手,尤其在研究團隊,只有梁文鋒和其他研究員兩個層級。梁文鋒做重大決定,承擔最多結果。

這部分研究團隊現在約有 100 多人,它像一個大型實驗室。主要在 2000 年前後出生的 DeepSeek 研究員們習慣稱 1985 年出生的梁文鋒為「梁老板」。這個老板更接近導師:組織研發、協調資源,也做具體研究,在共同成果上署名為通訊作者。

梁文鋒本人參與最多的是基模架構團隊,他會與團隊深入討論後確定每一代基模的架構定版。這個團隊有小幾十人,他們是預訓練的主力。

與基模架構密切相關的是 Infra 和數據團隊,各有小幾十人。Infra 團隊在一些公司里更像完成演算法需求的「內部乙方」,而 DeepSeek 的 Infra 團隊會在模型訓練前的定版階段就參與討論、給出建議。

這幾個模組間的緊密合作使 DeepSeek 的團隊界限沒那麼泾渭分明,形成了「交叉分工」。這其實是最符合模型訓練特點的協作形式,因為在模型實驗和定版階段,就要考慮數據選擇和 Infra 實現。

梁文鋒是串起這些不同模組的探測器和黏合劑,他會出席每一個團隊各自的會議,了解全局進度和卡點。DeepSeek 大部分團隊的週會也向其它團隊的人開放,可跨組參會。

深入細節的一號位風格和自發形成的緊密協作都很難在大組織裡實現。所以 DeepSeek 會很謹慎地擴大核心研發團隊的規模。

在全球 AI 圈都非常特異的一點是,DeepSeek 不加班。他們不打卡,沒有明確的績效考核,平日多數成員會在 6 點~7 點左右離開公司。DeepSeek 給員工免費提供一些下班後福利,如球類課程、運動場地報銷等。

梁文鋒認為:一個人每天能高品質工作的時間很難超過 6~8 小時。加班疲勞下的昏庸判斷反而會浪費寶貴的算力資源,得不償失。

在人員構成上,DeepSeek 此前幾乎不社招,以應屆生和實習生留任為主。2025 年初,《晚點》曾梳理當時參與過 DeepSeek 三代模型(LLM、V2、V3&R1)的 172 名研究者(包括實習生),並找到了其中 84 人的履歷:超 7 成的人是本科生和碩士生,超 7 成的人小於 30 歲。

在 V3 和 R1 之前,DeepSeek 是以大廠約 1/10 的人數、約 1/2 的人均工作時間,以極高的專注和聚焦,跻身全球大模型第一梯隊。

但隨著觸達頂尖 AI 能力需要探索的方向越來越多,繼續保持這種組織規模、溝通方式和協作氛圍已越來越難。

過去 15 個月,DeepSeek 繼續做自己,而外部世界劇烈變化

2025 年初 V3 和 R1 爆火後,DeepSeek 並沒有乘勝追擊放大招,而是沿著他們專注的方向繼續研發,已公開的成果大致有三類:

一是效率最佳化:極致榨取 GPU 算力,提高單位算力能產出的智慧。這包括 DeepSeek 在 2025 年初的開源周釋出的一整套訓練與推理 Infra,涵蓋推理 kernel、通信庫、矩陣乘法庫和數據處理框架。(註:kernel 是在 GPU 上執行最底層計算的程式碼,用來實現矩陣乘法等核心運算。)

還有對「注意力機制」的持續改進:如 25 年初的 NSA(原生稀疏注意力)和後續的 DSA(動態稀疏注意力)。加上更早時 V2 中的 MLA(多頭潛在注意力),它們的共同目標,是在不大幅增加算力的前提下處理更長的上下文。

從 25 年 9 月底更新的 DeepSeek-V3.2 中還可以看到,DeepSeek 甚至把底層的算子庫從主流的 CUDA 和 Triton 語言換成了 TileLang。CUDA 是英偉達提供的最底層語言,Triton 由 OpenAI 開源,TileLang 則是北京大學楊智團隊發起的開源專案。

二是模型架構改進,如 26 年初發布的 mHC(流行約束超連接),旨在提升大規模訓練中的穩定性;以及在模型之外構建長期記憶的 Engram。外界普遍認為,mHC 會被用到 V4 的訓練中。

三是一些「非主流」探索,如把文本轉成圖片,再輸入給模型的 DeepSeek-OCR。這個思路是讓模型按更接近人類「看文字」的方式理解段落與層級,提升對複雜文件的理解力。

在 DeepSeek 內部,還有更多進行中的此類嘗試,包括持續學習、自主學習等。

梁文鋒還在 2025 年招募了一些神經科學和腦科學背景的顧問,想探索更接近人腦的學習機制。

而同期,外部 AI 環境在 2025 年至今急劇變化,最受關注的競爭主線有兩條:

一是以 coding 能力為基礎的 Agentic 模型和應用。這是 Anthropic 和 OpenAI 目前競爭最激烈的主戰場,形成了 Opus 4.6 vs GPT-5.4 兩個最新模型,和 Claude Code vs Codex 兩個產品的對陣。年初至今爆火的 OpenClaw 小龍蝦也是 Agentic 應用的最新形態。

二是多模態生成,這個領域因「魔法效果」屢次出圈:2025 年春天的 OpenAI GPT-4o,秋天的 Google NanoBanana,再到 2026 年春節前的字節 Seedance 2.0。而視頻生成也與一個更前沿的方向有關,即「世界模型」。

DeepSeek 首先沒怎麼投入多模態生成,因為梁文鋒認為多模態生成不是智能的主線。

在 Agent 方向上,DeepSeek-V3.2 強化了 Agent 能力,但 DeepSeek 的整體迭代頻次低於 R1 之後一度深感焦慮其它小虎。

2025 年初至今,智譜、MiniMax、Kimi 分別已更新了 5 版、4 版和 3 版模型,針對 Agent 或 coding 強化。

據 OpenRouter 數據,過去 30 天(2 月 24 日-3 月 26 日),透過 OpenRouter 呼叫的 OpenClaw 應用的模型 token 消耗前 10 中,6 個模型來自中國,DeepSeek-V3.2 排在第 12。(註:OpenRouter 更反映個人和中小開發者的使用情況,只能作為整體 Token 消耗的參考。)

DeepSeek 的目標不是最主流的,有人離開、有人留下

DeepSeek 的「特立獨行」,和梁文鋒認同的 AGI 目標有關,除了追求大模型的智能上限外,他認為還有兩個很重要的工作:

一是基於國產生態來做大模型。

DeepSeek 會投入對國產 GPU 的適配,以解決高性能 GPU 供給受限的現實。比如他們在去年 8 月更新 V3.1 後提及,DeepSeek 採用的 UE8M0 FP8——這是一種數據壓縮格式——「是針對下一代國產晶片設計」。前文提到的用國產開源的 TileLang 替代 Triton 也是這類工作,能在基礎層更有主動權。

在與 AI 從業者交流時,梁文鋒也曾提過這樣的假設:「能不能用現存的一部分算力,就實現現在所有的智能?」

二是「原創式創新」,做一些大廠或其它創業公司不會去試、不願意去試的方向。

比如 2024 年下半年,DeepSeek 就開始了 Janus 系列,嘗試統一多模態的理解和生成。DeepSeek 也做過 Prover 系列,探索形式化證明。還有 25 年的 OCR,以及內部在繼續做的持續學習和仿生人腦的探索。

作為創始人,梁文鋒最在意的,不僅是模型效果本身,也包括追求效果的路上那些更本質、原創的發現。

但這與外界現在對 DeepSeek 的部分期待並不匹配:一些人希望 DeepSeek 每次出手都像 R1 那樣石破天驚,這有些強人所難,也不符合技術規律。

梁文鋒可以不在意外部期待,但他必須面對和處理內部期待。

對更多年輕的研究員來說,做更多前沿研究,也需要承擔更多不確定性。更保險的路,是持續參與業界最強模型,在那些被關注的技術報告上署名,以及能有豐富的 GPU 資源支撐實驗和探索。

除了榮譽和影響力,外界對 DeepSeek 成員的吸引力還有高額的財富承諾。

DeepSeek 的絕對薪資不低,但外面給的更高。一些獵頭告訴我們,競爭對手開出了「難以拒絕的數字」;「翻 2 到 3 倍問題不大」;「其他公司開出 8 位數(算股票或期權)總包」。

新變化還有,MiniMax 和智譜上市、股價高漲,階躍、Kimi 的 IPO 也提上日程。這也讓一些 DeepSeek 成員對手中那份沒有明確標價的期權產生更多疑問。

面對巨額邀約,更多人選擇留下。他們認可梁文鋒追求 AGI 的方式,願意做並非競爭驅動的探索;也習慣了 DeepSeek 相對寬鬆、從容的研究氛圍。

近期外界的一些傳聞並不準確,DeepSeek 團隊雖有變化,但並沒有成組流失。

「留下的人多少還是有些理想的。」有接近 DeepSeek 的人士說,梁文鋒覺得在提升模型效率和性能的主線外,需要做一些當下回報不明確的方向,因為「國外那些算力更多的公司,如 Google、OpenAI,內部肯定在試各種方向」。

至今,DeepSeek 相對小的團隊和成立以來的透明、扁平的氛圍,讓成員之間依然可以自然分工:有時開始一個新方向,就是因為有三五個人都覺得一個 idea 不錯,然後就一起做了。

這與梁文鋒 2024 年接受《暗湧》採訪時的描述相呼應:「我們一般不前置分工」;「每個人有自己獨特的成長經歷,都是自帶想法的,不需要 push 他……不過當一個 idea 顯示出潛力,我們也會自上而下地去調配資源。」

「DeepSeek 是一個真心想做研究的人,在國內,甚至是全球能找到的最好的地方。」有接近 DeepSeek 的人士說。

改變世界,也被世界改變

對 AGI 目標的獨特認知和拆解,是 DeepSeek 的可貴之處,也是它如今面臨內部張力的原因。因為梁文鋒看重的生態建設和原創探索,與業界普遍把「保持最強」視為第一優先級,是重合但並非完全一致的目標。

而且大模型發展到今天,「強」和「原創性」的標準越來越模糊而主觀。

Benchmark 分數已不能完全衡量模型水平。尤其進入 Agentic 模型競爭後,產品觸手以及帶來的長尾使用案例與多樣化數據變得更重要了,這恰恰是專注於模型研發的 DeepSeek 此前沒有太多投入的地方。

即將發布的 V4,大概率仍是開源最強模型,但很難是碾壓級的強。因為現在不同場景的不同開發者和使用者對「強」的標準和感受已越來越多元。

什麼是原創的、有價值的新探索,向來眾說紛紜,取決於不同研究者的經驗、判斷和直覺,所謂「技術品味」。

驗證品味的方式是實驗,而實驗的數量和規模又受限於 GPU 資源。相對於同行,DeepSeek 並沒有那麼多算力。

最後,不管是大模型的生態基礎,還是在追求模型效果的過程中,探索其它團隊不一定會試的方向,這些梁文鋒看重的工作的回報都極不明確。

前沿研究本該承擔這種不確定性,但它與算力資源有限的事實,以及外界對 DeepSeek 能持續驚艷甚至「碾壓」的期待並不完全匹配。

梁文鋒意識到了要改變,近期他開始想辦法給公司估值,給團隊成員更多確定的預期。

DeepSeek 也將更多投入產品。我們梳理了 DeepSeek 一位 HR 在社交媒體上從 2024 年 12 月至今發布的所有招聘啟示,在今年 3 月中旬的最新招聘中,DeepSeek 第一次提及其它具體產品的名稱,要招募 Agent 方向「模型策略產品經理」:

持續跟踪行業前沿,熟悉並深度使用過 Claude Code、OpenClaw、Manus 等知名 agent……

接下來,肯定會看到 DeepSeek 在 Agent 產品上的更多動作。

2025 年初,DeepSeek 以慷慨的開源精神和以小博大的奇蹟,震撼了中國和世界,也改變了世界:讓一批同行投入更多精力到模型技術本身,啟發了 Kimi K2 和 K2-thinking 等後續模型,也直接催生了一些新團隊,如陳天橋出資支持的 MiroMind。

奇蹟之所以是奇蹟,就是因為它不常發生,是小概率事件。在中國這個崇尚競爭和結果說話的環境裡,敢於追求獨特目標的 DeepSeek 的存在本身,是一個令人驚喜的小概率事件。

接觸梁文鋒的人評價:「他是一個特別抗噪音的人。」

2025 年 R1 爆火後,梁文鋒顯示了對追捧的淡然。而現在,他面臨另一種情形的考驗:在外部競爭加劇時,分辨噪音與信號,堅持該堅持的,改變要改變的。

「低頭做事的人也許不一定能在浮躁的市場洪流裡笑到最後,但是只有更多 DeepSeek 這樣的公司出現,中國科技才有從『複製』到領跑的可能。」一位從業者說。

這是屬於梁文鋒和 DeepSeek 的工作。而曾被這家公司震動過的更多人,能做的很簡單:卸下爽文敘事,用更多平常心去看待一家公司和技術創新。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言