Gate 廣場創作者新春激勵正式開啟,發帖解鎖 $60,000 豪華獎池
如何參與:
報名活動表單:https://www.gate.com/questionnaire/7315
使用廣場任意發帖小工具,搭配文字發布內容即可
豐厚獎勵一覽:
發帖即可可瓜分 $25,000 獎池
10 位幸運用戶:獲得 1 GT + Gate 鸭舌帽
Top 發帖獎勵:發帖與互動越多,排名越高,贏取 Gate 新年周邊、Gate 雙肩包等好禮
新手專屬福利:首帖即得 $50 獎勵,繼續發帖还能瓜分 $10,000 新手獎池
活動時間:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
詳情:https://www.gate.com/announcements/article/49112
GPT-4推理更像人了!中國科學院提出「思維傳播」,類比思考完勝CoT,即插即用
原文來源:新智元
如今,GPT-4、PaLM等巨型神經網路模型橫空出世,展現出驚人的少樣本學習能力。
只要給出簡單提示,它們就能進行文字推理、寫故事、回答問題、程式設計…
然鵝,LLM在複雜、多步驟推理任務上卻常常敗給人類,且苦苦掙扎無果。
對此,中國科學院和耶魯大學的研究人員提出了一種「思維傳播」(Thought Propagation)新框架,能夠透過「類比思維」來增強LLM的推理。
「思維傳播」靈感來自人類認知,即當遇到新問題時,我們經常將其與我們已經解決的類似問題進行比較,以推導出策略。
因此,此方法的核心便是,讓LLM在解決輸入的問題之前,先探索與輸入相關的「類似」問題。
最後,它們的解決方案可以拿來即用,或提取有用計劃的見解。
可以預見的是,「思維傳播」在為LLM邏輯能力的固有限制所提出的全新思路,讓大模型像人類一樣用「類比」方法解決難題。
LLM多步驟推理,敗給人類
顯而易見,LLM擅長根據提示進行基本推理,但在處理複雜的多步驟問題時仍有困難,例如最佳化、規劃。
反觀人類,他們會汲取類似經驗中的直覺來解決新問題。
大模型無法做到這一點,是由其固有的限制決定的。
因為LLM的知識完全來自於訓練資料中的模式,無法真正理解語言或概念。因此,作為統計模型,它們很難進行複雜的組合泛化。
再加上,大模型的推理是局部的、「短視的」,因此LLM很難找到最佳解決方案,也很難在長時間範圍內保持推理的一致性。
總之,大模型在數學證明、策略規劃和邏輯推理上的缺陷,主要源自於2個核心問題:
**- 無法重複使用先前經驗中的見解。 **
人類從實踐中累積了可重複使用的知識和直覺,有助於解決新問題。相較之下,LLM在處理每個問題時都是「從0開始」,不會借鏡先前的解決方案。
**- 多步驟推理中的複合錯誤。 **
人類會監控自己的推理鏈,必要時會修改最初的步驟。但是LLM在推理的早期階段所犯的錯誤會被放大,因為它們會把後面的推理引向錯誤的道路。
以上這些弱點,嚴重阻礙了LLM應對需要全局最優或長期規劃的複雜挑戰中的應用。
對此,研究人員提出了全新的解決方法—思維傳播。
TP框架
透過類比思維,讓LLM更像人類一樣進行推理。
在研究者看來,從0開始推理無法重複使用解決類似問題的見解,而且會在中間推理階段出現錯誤累積。
而「思維傳播」可以探索與輸入問題相關的類似問題,並從類似問題的解決方案中獲得啟發。
**1. 提出類似問題:**LLM透過提示產生一組與輸入問題有相似之處的類似問題。這將引導模型檢索潛在的相關先前經驗。
**2. 解決類似問題:**透過現有的提示技術,如CoT,讓LLM解決每個類似的問題。
**3. 總結解決方案:**有2種不同的途徑-根據類比解決方案,直接推斷輸入問題的新解決方案;透過比較輸入問題的類比解決方案,推導出高級計劃或策略。
這樣一來,大模型就可以重複使用先前的經驗和啟發式方法,還可以將其初始推理與類比解決方案進行交叉檢查,以完善這些解決方案。
值得一提的是,「思維傳播」與模型無關,可以在任何提示方法的基礎上進行單一問題解決步驟。
此方法關鍵的新穎之處在於,激發LLM類比思維,以引導複雜的推理過程。
「思維傳播」究竟能讓LLM多像人類,還得實操結果來說話。
中國科學院和耶魯的研究人員在3個任務中進行了評估:
**- 最短路徑推理:**需要在圖中找到節點之間的最佳路徑需要全域規劃和搜尋。即使在簡單的圖上,標準技術也會失敗。
**- 創意寫作:**生成連貫、有創意的故事是一個開放式的挑戰。當給予高層次的大綱提示時,LLM通常會失去一致性或邏輯性。
- LLM智能體規劃:與文字環境互動的LLM智能體與長期策略面舉步維艱。它們的計劃經常會出現“漂移”或陷入循環。
最短路徑推理
最短路徑推理任務中,現有的方法推理遇到的問題無法解決。
雖然(a)中的圖非常簡單,但由於推理從0開始,這些方法只能讓LLM找到次優解(b,c),甚至重複存取中間節點(d)。
由於中間推理步驟的錯誤累積,ToT (b) 無法解決(a) 中的問題。基於類似問題的解決方案,TP © 完善了最初的次優解決方案,並最終找到了最優解決方案。
此外,由於OLR最低,與基準相比,TP產生的有效路徑最接近最優路徑。
在不同設定下,1層TP的token成本與ToT類似。但是,1層TP在尋找最優最短路徑方面,已經取得了非常有競爭力的效能。
此外,与0层TP(IO)相比,1层TP的性能增益也非常显著。图5 (a) 显示了2层TP的token成本增加。
創意寫作
下表2顯示了TP和基線在GPT-3.5和GPT-4中的表現。在一致性上,TP都超過了基線。另外,在使用者研究中,TP在創意寫作中人類偏好提高了13%。
LLM智能體規劃
在第三個任務評估中,研究人員使用ALFWorld遊戲套件,在134個環境中實例化LLM智能體規劃任務。
TP在LLM智能體規劃中任務完成率提高15%。這表明,在完成類似任務時,對成功規劃的反思TP具有優越性。
增強LLM推理的關鍵
「思維傳播」模型為複雜的LLM推理提供了一種全新的技術。
類比思維是人類解決問題能力的標誌,它可以帶來一系列系統性的優勢,例如更有效率的搜尋和錯誤修正。
類似的,LLM也能透過提示類比思維,更好地克服自身弱點,如缺乏可重複使用的知識和級聯的局部錯誤等。
然而,這些研究結果存在一些限制。
要有效地產生有用的類比問題並不容易,而且鍊式更長的類比推理路徑可能會變得臃腫不堪。同時,控制和協調多步驟推理鏈也依舊十分困難。
不過,「思維傳播」還是透過創造性地解決LLM的推理缺陷,為我們提供了一個有趣的方法。
隨著進一步的發展,類比思維可能會使LLM的推理變得更強大。而這也為在大語言模型中實現更像人類的推理指明了道路。
作者介紹
Ran He(赫然)
此前,他在大連理工大學獲得學士和碩士學位,並於2009年於中國科學院自動化研究所獲得博士學位。
他的研究方向是生物辨識演算法(人臉辨識與合成、虹膜辨識、人物再辨識)、表徵學習(使用弱/自監督或遷移學習預訓練網路)、生成學習(生成模型、影像生成、影像翻譯)。
他在國際期刊和會議上發表了200多篇論文,其中包括IEEE TPAMI、IEEE TIP、IEEE TIFS、IEEE TNN、IEEE TCSVT等著名國際期刊,以及CVPR、ICCV、ECCV、NeurIPS等頂尖國際會議。
他是IEEE TIP、IEEE TBIOM和Pattern Recognition編委會成員,並曾擔任CVPR、ECCV、NeurIPS、ICML、ICPR和IJCAI等國際會議的區域主席。
Junchi Yu(俞UN馳)
此前,他曾在騰訊人工智慧實驗室實習,並與Tingyang Xu博士、Yu Rong博士、Yatao Bian博士和Junzhou Huang教授共事。目前,他是耶魯大學電腦科學系的交流生,師從Rex Ying教授。
他的目標是開發具有良好可解釋性和可移植性的可信圖學習(TwGL)方法,並探索其在生物化學方面的應用。
參考資料: