a16z 長文:AI 的下一個前沿不在語言,而在物理世界——機器人、自主科學、腦機介面的三重飛輪

作者: Oliver Hsu(a16z)

編譯: 深潮 TechFlow

深潮導讀: 這篇文章來自 a16z 研究員 Oliver Hsu,是 2026 年以來最系統的一份「物理 AI」投資地圖。他的判斷是:語言/程式碼這條主線仍在擴展,但真正能跑出下一代顛覆性能力的,是緊挨著主線的三個領域——通用機器人、自主科學(AI 科學家)、腦機接口等新型人機接口。作者拆解了支撐它們的五個底層能力,並論證這三條戰線之間會形成相互喂養的結構性飛輪。對想看清物理 AI 投資邏輯的人,這是目前最完整的框架。

今天主導 AI 的範式,圍繞語言和程式碼組織。大語言模型的擴展法則已經被刻畫得很清楚,數據、算力、算法改進的商業飛輪正在轉動,能力每上一個台階帶來的回報仍然很大,而且這些回報大部分是看得見的。這套範式配得上它吸走的資本和注意力。

但另一批毗鄰領域,已經在孕育期裡做出了實質進展。這裡包括 VLA(視覺-語言-動作模型)、WAM(世界動作模型)等通用機器人路線,圍繞「AI 科學家」展開的物理與科學推理,以及利用 AI 進展重塑人機交互的新型接口(包含腦機接口和神經科技)。除了技術本身,這幾個方向都開始吸引到人才、資本和創始人。把前沿 AI 延伸到物理世界的技術原語正在同時成熟,過去 18 個月的進展說明這些領域很快會進入各自的擴展階段。

在任何一個技術範式裡,當前能力和中期潛力之間的差距最大之處,往往具備兩個特徵:一是能吃到驅動當前前沿的同一套擴展紅利,二是離主流範式又有一步距離——近到能繼承它的基礎設施和研究動能,遠到需要做實打實的額外工作。這段距離本身就有雙重作用:它自然形成了對快速跟隨者的護城河,同時也定義了一個信息更稀、更不擁擠的問題空間,因此更可能涌現新能力——恰恰因為捷徑還沒被走完。

圖注:當前 AI 範式(語言/程式碼)與毗鄰前沿系統的關係示意

今天符合這一描述的有三個領域:機器人學習、自主科學(尤其是材料和生命科學方向)、以及新型人機接口(包括腦機接口、無聲語音、神經可穿戴,以及像數字化嗅覺這樣的新感官通道)。它們並非完全獨立的工作,主題上屬於同一群「物理世界的前沿系統」。它們共享一套底層原語:物理動力學的學習表徵、面向具身動作的架構、仿真與合成數據基礎設施、不斷擴展的感官通道、以及閉環的智能體編排。它們在跨領域的反饋關係中彼此強化。它們也是最可能涌現出質變能力的地方——模型規模、物理落地、新數據形態三者交互的產物。

本文將梳理支撐這些系統的技術原語,說明為何這三個領域代表了前沿機會,並提出它們之間的相互強化構成一個結構性飛輪,把 AI 推向物理世界。

五個底層原語

在看具體應用之前,先理解這些前沿系統共享的技術底座。把前沿 AI 推進到物理世界,靠的是五個主要原語。這些技術不專屬於任何單一應用領域,它們是構件——能讓「把 AI 延伸到物理世界」的系統被造出來。它們的同步成熟,是當下這個時刻之所以特別的原因。

圖注:支撐物理 AI 的五個底層原語

原語一:物理動力學的學習表徵

最根本的一個原語,是能學出一套壓縮的、通用的物理世界行為表徵——物體如何運動、形變、碰撞、對受力如何反應。沒有這一層,每個物理 AI 系統都得從零學起自己領域的物理規律,這個成本沒人付得起。

好幾個架構流派正在從不同方向逼近這個目標。VLA 模型從上層切入:拿預訓練好的視覺-語言模型——這類模型已經具備對物體、空間關係和語言的語義理解——在它們上面加一個動作解碼器輸出運動控制指令。關鍵點在於,學會「看」和「理解世界」的巨額成本可以被互聯網規模的圖文預訓練摊薄。Physical Intelligence 的 π₀、Google DeepMind 的 Gemini Robotics、英偉達的 GR00T N1,都在越來越大的規模上驗證了這種架構。

WAM 模型則從下層切入:基於在互聯網規模視頻上預訓練的視頻擴散 Transformer,繼承對物理動力學的豐富先驗(物體怎麼下落、怎麼被遮擋、受力後怎麼互動),再把這些先驗和動作生成耦合起來。英偉達的 DreamZero 展示了對全新任務和環境的零樣本泛化,用少量適配數據就能從人類視頻演示中做跨本體遷移,真實世界泛化能力拿到了有意義的提升。

第三條路線或許對判斷未來方向最有啟發,它把預訓練 VLM 和視頻擴散骨幹整個跳過。Generalist 的 GEN-1 是一個從頭訓練的原生具身基礎模型,訓練數據是超過 50 萬小時的真實物理交互數據,主要通過低成本可穿戴設備從執行日常操作任務的人身上收集。它不是標準意義上的 VLA(沒有一個視覺-語言骨幹在被微調),也不是 WAM。它就是一個專為物理交互設計的基礎模型,從零開始,學的不是互聯網圖像、文本或視頻的統計規律,而是人與物體接觸的統計規律。

像 World Labs 這類公司在做的空間智能,對這個原語有價值,因為它補上了 VLA、WAM 和原生具身模型共同的短板:三者都沒有顯式建模所處場景的三維結構。VLA 繼承的是圖文預訓練的 2D 視覺特徵;WAM 從視頻裡學動力學,視頻本身是 3D 的 2D 投影;從穿戴傳感器數據學的模型能捕捉力和運動學,但捕捉不了場景幾何。空間智能模型能幫補上這塊——學會重建、生成物理環境的完整 3D 結構並對它推理:幾何、光照、遮擋、物體關係、空間佈局。

各條路線的收斂本身就是重點。不管表徵是從 VLM 繼承、從視頻協同訓練中學出來、還是原生從物理交互數據裡搭出來的,底層原語是同一個:壓縮的、可遷移的物理世界行為模型。這些表徵能吃到的數據飛輪非常龐大、大部分還沒動——不只是互聯網視頻和機器人軌跡,還有可穿戴設備正在開始規模化採集的那片海量人類身體經驗語料。同一套表徵既能服務一個正在學疊毛巾的機器人,也能服務一個在預測反應結果的自主實驗室,還能服務一個正在解讀運動皮層抓握意圖的神經解碼器。

原語二:面向具身動作的架構

光有物理表徵不夠。把「理解」翻譯成可靠的物理動作,需要架構去解決幾個相互關聯的問題:把高層意圖映射到連續運動指令、在長動作序列上保持一致性、在實時延遲約束下運行、以及隨經驗持續提升。

雙系統分層架構已經成了複雜具身任務的標準設計:慢而強的視覺-語言模型負責場景理解和任務推理(System 2),配上一個快而輕的視覺-運動策略負責實時控制(System 1)。GR00T N1、Gemini Robotics、Figure 的 Helix 都採用這種路線的變體,解決了「大模型提供豐富推理」和「物理任務要求毫秒級控制頻率」之間的根本張力。Generalist 則走了另一條路,用「諧振推理」讓思考和動作同時發生。

動作生成機制本身也在快速演化。π₀ 開創的基於流匹配和擴散的動作頭,已經成為生成平滑、高頻連續動作的主流方法,取代了從語言建模借來的離散 tokenization。這類方法把動作生成當成一個類似圖像合成的去噪過程,產出的軌跡物理上更平滑、對誤差累積更穩健,優於自回歸 token 預測。

但架構層面最關鍵的進展,可能是把強化學習擴展到預訓練 VLA 上——一個在示範數據上訓練出來的基礎模型,可以通過自主練習繼續提升,就像人通過反覆練習和自我修正打磨一項技能。Physical Intelligence 的 π*₀.₆ 工作是對這一原則的最清晰規模化演示。他們的方法叫 RECAP(基於優勢條件策略的經驗與修正強化學習),解決的問題是純模仿學習沒法搞定的長序列信用分配。一個機器人如果以略微偏斜的角度抓起了意式咖啡機的手柄,失敗不會立即出現,可能到幾步之後插入時才暴露。模仿學習沒機制把這次失敗歸因到更早那次抓取上,RL 有。RECAP 訓練一個價值函數,估計從任意中間狀態開始成功的概率,然後讓 VLA 選擇高優勢動作。關鍵在於,它把多種異質數據——示範數據、在策略自主經驗、執行過程中專家遠程操作提供的修正——整合進同一個訓練管線。

這套方法的結果對 RL 在動作領域的前景是個好消息。π*₀.₆ 在真實家庭環境中疊 50 種從未見過的衣物、可靠地組裝紙箱、在專業機器上製作意式咖啡,連續運行幾個小時無需人介入。在最難的任務上,RECAP 相對純模仿基線把吞吐翻了一倍多,失敗率砍掉一半以上。這套系統還證明了 RL 後訓練會產生模仿學習得不到的質變行為:更平滑的恢復動作、更高效的抓取策略、示範數據裡不存在的自適應糾錯。

這些收益說明一件事:把大模型從 GPT-2 推到 GPT-4 的算力擴展動力,正開始在具身領域運轉——只是現在位於曲線更早的位置,動作空間是連續的、高維的,並且要面對物理世界那些毫不留情的約束。

原語三:作為擴展基礎設施的仿真與合成數據

在語言領域,數據問題被互聯網解決了:自然產生、免費可得的萬億級 token 文本。在物理世界,這個問題難上幾個數量級——這一點現在已經是共識,最直接的信號是針對物理世界的數據供應商創業公司正在迅速增加。真實世界的機器人軌跡採集成本高、規模化有風險、多樣性有限。一個語言模型可以從十億次對話中學習,一個機器人(暫時)沒辦法有十億次物理交互。

仿真和合成數據生成是解決這一約束的基礎設施層,它們的成熟是物理 AI 在今天而不是五年前加速的關鍵原因之一。

現代仿真棧把基於物理的仿真引擎、基於光線追蹤的照片級渲染、程序化環境生成、以及用仿真輸入生成照片級視頻的世界基礎模型組合在了一起——後者負責彌合 sim-to-real 的鴻溝。整條管線從真實環境的神經重建(只用一部手機就能做)開始,填充物理精確的 3D 資產,再到帶自動標註的大規模合成數據生成。

仿真棧的改進意義在於,它在改變支撐物理 AI 的經濟假設。如果物理 AI 的瓶頸從「收集真實數據」轉向「設計多樣虛擬環境」,成本曲線就會崩潰。仿真隨算力擴展,不靠人力和物理硬件。這對訓練物理 AI 系統的經濟結構的改造,跟互聯網文本數據對訓練語言模型的改造是同一種——意味著對仿真基礎設施的投資對整個生態杠杆極大。

但仿真不只是機器人原語。同一套基礎設施服務於自主科學(實驗室設備的數字孿生、假設預篩用的仿真反應環境)、新型接口(訓練 BCI 解碼器的仿真神經環境、標定新傳感器的合成感官數據)、以及其他 AI 與物理世界交互的領域。仿真是物理世界 AI 的通用數據引擎。

原語四:擴展感官通道

物理世界傳遞信息的信號,遠比視覺和語言豐富。觸覺傳遞材料屬性、抓握穩定性、接觸幾何等攝像頭看不到的信息。神經信號以任何現有人機接口都遠遠不及的帶寬編碼運動意圖、認知狀態、感知經驗。亞聲帶肌肉活動在任何聲音產生之前就編碼了言語意圖。第四個原語,是 AI 對這些此前難以觸達模態的感官通路快速擴展——不只來自研究,也來自一整個構建消費級設備、軟件和基礎設施的生態。

圖注:正在擴展的 AI 感官通道,從 AR、EMG 到腦機接口

最直觀的指標是新品類設備的出現。AR 設備近幾年在體驗和形態上大幅改善(已經有公司在這個平台上做消費和工業場景的應用);語音優先的 AI 可穿戴讓語言類 AI 拿到了更完整的物理世界上下文——它們真的跟著用戶走進物理環境。長期來看,神經接口可能打開更完整的交互模態。AI 帶來的計算方式轉變,創造了一個讓人機交互大幅升級的機會,Sesame 這樣的公司正在為此打造新的模態和設備。

語音這種更主流的模態,也為新興交互方式帶來順風車。像 Wispr Flow 這類產品把語音推成主要輸入方式(因為它信息密度高,有天然優勢),無聲語音接口的市場條件也跟著改善。無聲語音設備用多種傳感器捕捉舌頭和聲帶動作,無聲識別語言——它代表一種比語音信息密度更高的人機交互模態。

腦機接口(有創和非侵入式)代表更深的前沿,圍繞它的商業生態持續推進。信號會出現在臨床驗證、監管批准、平台整合、機構資本的匯合點上——而這是幾年前還純粹屬於學術領域的一個技術品類。

觸覺感知正進入具身 AI 架構,機器人學習裡的一些模型開始把觸覺作為一等公民明確納入。嗅覺接口正在變成真實的工程產物:可穿戴嗅覺顯示器用微型氣味發生器、毫秒級響應,已經在混合現實應用裡被演示;嗅覺模型也開始跟視覺 AI 系統配對,用於化工過程監控。

這些發展的共同規律是:它們在極限下會彼此收斂。AR 眼鏡持續生成用戶和物理環境交互的視覺和空間數據;EMG 腕帶捕捉人類運動意圖的統計規律;無聲語音接口捕捉亞聲帶發音到語言輸出的映射;BCI 以目前最高分辨率捕捉神經活動;觸覺傳感器捕捉物理操作的接觸動力學。每一個新品類設備同時也是一個數據生成平台,喂養著多個應用領域底層的模型。一個用 EMG 推斷運動意圖數據訓練的機器人,和一個只靠遠程操作數據訓練的機器人,學到的抓握策略不一樣;一個響應亞聲帶指令的實驗室接口,和一個鍵盤控制的實驗室在延遲和流暢性上完全是兩回事;用高密度 BCI 數據訓練的神經解碼器,產出的運動規劃表徵是任何其他通道拿不到的。

這些設備的擴散正在擴展訓練前沿物理 AI 系統可用數據流形的有效維度——並且這種擴展很大一部分由資本充裕的消費品公司推動,而非只來自學術實驗室,意味著數據飛輪能跟著市場採用率一起擴張。

原語五:閉環智能體系統

最後一個原語更偏架構層面。它指的是把感知、推理、動作編排成持續、自主、閉環運轉的系統,在長時間維度上無人介入地工作。

在語言模型裡,對應的發展是智能體系統的興起——多步推理鏈、工具使用、自我糾正流程,把模型從單輪問答工具推到了自主問題解決者。在物理世界,同樣的轉變正在發生,只是要求苛刻得多。一個語言智能體出錯可以無成本回退;一個物理智能體打翻一瓶試劑就回不去了。

物理世界的智能體系統有三個特性把它和數字版區分開來。第一,它們需要嵌入實驗或運行閉環:直接對接原始儀器數據流、物理狀態傳感器和執行原語,讓推理落在物理現實上,而不是物理現實的文字描述上。第二,它們需要長序列持久性:記憶、溯源追蹤、安全監控、恢復行為,把多個運行週期連起來,而不是把每個任務當成獨立插曲。第三,它們需要閉環適應:根據物理結果修訂策略,而不是只根據文字反饋。

這個原語把一個個獨立能力(好的世界模型、可靠的動作架構、豐富的傳感器套件)融合成能在物理世界自主運轉的完整系統。它是整合層,它的成熟是下文三個應用領域能作為真實世界部署而非孤立研究演示存在的前提。

三個領域

上面這些原語是通用的使能層,它們本身並不指定最重要的應用會長在哪裡。很多領域都涉及物理動作、物理測量或物理感知。把「前沿系統」和「僅僅是改良版現有系統」區分開來,是領域內模型能力提升和擴展基礎設施發生複利的程度——不只是性能更好,而是湧現出以前做不到的新能力。

機器人、AI 驅動科學、新型人機接口是這種複利效應最強的三個領域。每一個都用獨特方式把原語組裝起來,每一個都被當前原語正在解除的約束卡住,也每一個都會在運行過程中副產品式地生成一種結構化物理數據——這種數據反過來讓原語本身變得更好,形成反饋迴路,加速整個系統。它們不是唯一值得關注的物理 AI 領域,但它們是前沿 AI 能力和物理現實交互最密集的地方,也是距離當前語言/程式碼範式最遠、因此新能力湧現空間最大——同時又與之高度互補、能吃到其紅利的地方。

機器人

機器人是最字面意義上的物理 AI 體現:一個 AI 系統要實時感知、推理、對物質世界施加物理動作。它也同時對每一個原語構成壓力測試。

想想一個通用機器人要疊一條毛巾得做多少事。它需要對可變形材料在受力下如何表現有一套學到的表徵——一個物理先驗,而這不是語言預訓練能提供的。它需要一個能把高層指令翻譯成 20Hz 以上控制頻率連續運動指令序列的動作架構。它需要仿真生成的訓練數據,因為沒有人收集過幾百萬次真實疊毛巾演示。它還需要觸覺反饋來檢測滑動並調整抓握力,因為視覺分不清一次穩固抓握和一次正在失敗的抓握。它還需要一個閉環控制器,能在疊錯時識別出錯並恢復,而不是盲目執行記憶軌跡。

圖注:機器人任務對五個底層原語的同時調用

這就是為什麼機器人是個前沿系統,而不是一個工具更好的成熟工程學科。這些原語不是改良現有機器人能力,它們解鎖的是之前在窄受控工業環境之外做不到的操作、運動和交互類別。

過去幾年前沿進步顯著——我們此前也寫過。第一代 VLA 證明了基礎模型可以控制機器人完成多樣任務。架構進展在打通機器人系統的高層推理和底層控制。端側推理變得可行,跨本體遷移意味著一個模型可以用有限數據適配到一個全新機器人平台。剩下的核心挑戰是規模化的可靠性,這仍然是部署的瓶頸。每步 95% 成功率,在 10 步任務鏈上只有 60%,而生產環境要求遠高於此。RL 後訓練在這裡潛力很大,能幫助這個領域跨到擴展階段所需要的能力和魯棒性門檻。

這些進展對市場結構有影響。機器人行業幾十年的價值都沉澱在機械系統本身,機械仍然是技術棧的關鍵部分,但隨著學習策略變得更標準化,價值會往模型、訓練基礎設施、數據飛輪遷移。機器人同時也反哺上述原語:每條真實世界軌跡都是改善世界模型的訓練數據,每次部署失敗都暴露出仿真覆蓋的缺口,每個新本體的測試都擴大可用於預訓練的物理經驗多樣性。機器人既是原語最苛刻的消費者,也是它們最重要的改進信號來源之一。

自主科學

如果說機器人是用「實時物理動作」測試原語,自主科學測的是另一件略有不同的事——對因果複雜物理系統的持續多步推理,時間跨度以小時或天計,實驗結果需要被解讀、情境化,並用來修訂策略。

圖注:自主科學(AI 科學家)整合五個底層原語的方式

AI 驅動的科學是原語組合最徹底的領域。一個自動駕駛實驗室(self-driving lab, SDL)需要學到的物理化學動力學表徵去預測實驗會產出什麼;需要具身動作去移液、定位樣品、操作分析儀器;需要仿真做候選實驗預篩和稀缺儀器時間分配;需要擴展的傳感能力——光譜、色譜、質譜以及越來越新的化學和生物傳感器——來表徵結果。它比任何其他領域都更需要閉環智能體編排原語:能維持多輪「假設-實驗-分析-修正」工作流無人介入,保留溯源、監控安全、根據每輪揭示的信息調整策略。

沒有其他領域如此深度地調用這些原語。這就是自主科學是前沿「系統」,而不是軟件更好的實驗室自動化的原因。Periodic Labs 和 Medra 這類公司,分別在材料科學和生命科學領域把科學推理能力和物理驗證能力合成一體,實現科學迭代,並一路產出實驗訓練數據。

這類系統的價值在直覺上很明顯。傳統材料發現從概念到商業化要好幾年,AI 加速工作流理論上能把這個過程壓縮到遠少於此。關鍵約束正在從假設生成(基礎模型就能很好輔助)轉向製造與驗證(需要物理儀器、機器人執行、閉環優化)。SDL 就是衝著這個瓶頸去的。

自主科學另一個重要特性——在所有物理世界系統裡都成立——是它作為數據引擎的角色。一個 SDL 跑的每個實驗,產出的不只是科學結果,還是一個有物理落地、經過實驗驗證的訓練信號。一條關於聚合物在特定條件下如何結晶的測量,豐富了世界模型對材料動力學的理解;一條經過驗證的合成路徑,成為物理推理的訓練數據;一次被表徵的失敗,告訴智能體系統它的預測在哪裡失效。一個 AI 科學家做真實實驗產出的數據,跟互聯網文本或仿真輸出在性質上不一樣——它是結構化的、因果的、實證驗證過的。這正是物理推理模型最需要、卻沒有其他來源能提供的那種數據。自主科學是直接把物理現實轉化為結構化知識、改進整個物理 AI 生态的那條通路。

新型接口

機器人把 AI 延伸到物理動作,自主科學把 AI 延伸到物理研究。新型接口把它延伸到人工智能和人類感知、感官體驗、身體信號的直接耦合——設備橫跨 AR 眼鏡、EMG 腕帶一直到植入式腦機接口。把這個品類黏合起來的不是單一技術,而是一個共同功能:擴展人類智能和 AI 系統之間通道的帶寬和模態——並在此過程中生成直接可用於構建物理 AI 的人類-世界交互數據。

圖注:從 AR 眼鏡到腦機接口,新型接口的譜系

跟主流範式的距離,既是這個領域的挑戰也是潛力所在。語言模型在概念層知道這些模態,但並不天然熟悉無聲語音的運動模式、嗅覺受體結合的幾何結構、或 EMG 信號的時序動力學。解碼這些信號的表徵必須從正在擴展的感官通道裡學出來。很多模態並沒有互聯網規模的預訓練語料,數據往往只能從接口本身產出——意味著系統和它的訓練數據在協同演化,這在語言 AI 裡沒有對應物。

這個領域的近期表現是 AI 可穿戴作為消費品類的迅速崛起。AR 眼鏡或許是這個品類最顯眼的例子,其他以語音或視覺為主要輸入的可穿戴也在同步出現。

這套消費設備生態既為 AI 延伸到物理世界提供了新的硬件平台,也在成為物理世界數據的基礎設施。一個戴著 AI 眼鏡的人,能持續產出關於人如何在物理環境中導航、操作物體、與世界交互的第一人稱視頻流;其他可穿戴持續捕捉生物識別和運動數據。AI 可穿戴的裝機量正在變成一個分布式的物理世界數據採集網絡,以此前不可能的規模記錄人類物理經驗。想想智能手機作為消費設備的體量——一個新品類消費設備在同等規模上讓計算機以新模態感知世界,也為 AI 與物理世界的交互開出了一條巨大的新通道。

腦機接口代表更深的前沿。Neuralink 已經植入了多位患者,手術機器人和解碼軟件在迭代。Synchron 的血管內 Stentrode 已經被用來讓癱瘓用戶控制數字和物理環境。Echo Neurotechnologies 在做一套用於語言恢復的 BCI 系統,基於他們在高分辨率皮層語音解碼上的研究。Nudge 這類新公司也被組建起來,聚集人才和資本去做新的神經接口與腦交互平台。研究層面的技術里程碑也值得注意:BISC 芯片在單顆芯片上演示了 65536 電極的無線神經記錄;BrainGate 團隊直接從運動皮層解碼了內部語言。

貫穿 AR 眼鏡、AI 可穿戴、無聲語音設備、植入式 BCI 的主線不只是「它們都是接口」,而是它們共同構成了人類物理經驗和 AI 系統之間一條帶寬遞增的光譜——光譜上的每個點都在支撐本文三大領域背後那些原語的持續進展。用幾百萬 AI 眼鏡用戶的高質量第一人稱視頻訓練的機器人,學到的操作先驗和用篩選過的遠程操作數據集訓練的機器人完全不同;響應亞聲帶指令的實驗室 AI,和鍵盤控制的實驗室在延遲和流暢性上完全是兩回事;用高密度 BCI 數據訓

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言