Anthropic 的驚人神話發現被現成的 AI 複製,研究人員表示

###簡要說明

  • 研究人員展示了可以用公開的人工智慧重現Anthropic風格的漏洞利用,報告聲稱。
  • 研究指出漏洞發現已經變得廉價且普及。
  • 研究結果顯示,AI網路安全能力的傳播速度可能比預期更快。

當Anthropic在本月初推出Claude Mythos時,將該模型鎖在經過篩選的科技巨頭聯盟背後,並將其描述為過於危險,不能公開。財政部長Scott Bessent和聯邦儲備主席Jerome Powell召開緊急會議,與華爾街CEO討論。安全圈中“vulnpocalypse”一詞再次浮出水面。 而現在,一組研究人員進一步複雜化了這個敘事。 Vidoc Security利用Anthropic自己修補過的公開範例,嘗試在一個名為opencode的開源程式碼代理中,用GPT-5.4和Claude Opus 4.6重現這些範例。沒有Glasswing邀請碼,沒有私人API存取,也沒有Anthropic內部系統。 “我們在opencode中用公開模型重現了Mythos的發現,而非Anthropic的私有系統,”參與實驗的研究人員Dawid Moczadło在發布結果後在X上寫道。“更好的解讀Anthropic的Mythos發布方式不是‘一個實驗室擁有一個神奇的模型’,而是:漏洞發現的經濟正在改變。”

我們在opencode中用公開模型重現了Mythos的發現,而非Anthropic的私有系統。

壕溝正從模型存取轉向驗證:找到漏洞信號變得更便宜;將其轉化為可信的安全工作

更好的解讀Anthropic的Mythos發布方式是… https://t.co/0FFxrc8Sr1 圖片連結

— Dawid Moczadło (@kannthu1) 2026年4月16日

他們針對的案例與Anthropic在其公開資料中強調的相同:一個伺服器檔案分享協議、一個安全專注操作系統的網路堆疊、幾乎每個媒體平台都嵌入的視頻處理軟體,以及用於驗證網路上數位身份的兩個密碼學函式庫。 GPT-5.4和Claude Opus 4.6在每次三次測試中都重現了兩個漏洞案例。Claude Opus 4.6還獨立三次重新發現了OpenBSD中的一個漏洞,而GPT-5.4在該漏洞上得分為零。有些漏洞(涉及用於播放視頻的FFmpeg庫,另一個涉及用wolfSSL處理數位簽名的漏洞),結果都較為部分——模型找到了正確的程式碼表面,但未能精確找到根本原因。

圖片:Vidoc Security

每次掃描都低於$30 每個檔案的限制,意味著研究人員能用較少的資源找到與Anthropic相同的漏洞。

“AI模型已經足夠好,可以縮小搜尋空間,提供真正的線索,有時甚至能在經過測試的程式碼中完整還原根本原因,”Moczadło在X上表示。 他們使用的工作流程不是一次性提示,而是模仿Anthropic公開描述的方法:給模型一個程式碼庫,讓它探索、平行化嘗試、篩選信號。Vidoc團隊用開源工具建立了相同的架構。一個規劃代理將每個檔案拆分成區塊。另一個檢測代理在每個區塊上運行,然後檢查存放庫中的其他檔案,以確認或排除發現。 每個檢測提示中的行範圍——例如“聚焦於第1158-1215行”——並非由研究人員手動選擇,而是來自前一個規劃步驟的輸出。部落格文章明確指出:“我們要明確說明,因為區塊策略會影響每個檢測代理所見的內容,我們不希望將工作流程描述得比實際更人工篩選。” 該研究並未聲稱公開模型在所有方面都能媲美Mythos。Anthropic的模型不僅能發現FreeBSD漏洞,還能構建一個攻擊藍圖,推算攻擊者如何將多個網路封包中的程式碼片段串聯起來,遠端控制整台機器。Vidoc的模型找到了漏洞,但沒有建立攻擊工具。真正的差距在於:找到漏洞只是第一步,知道如何利用它才是真正的挑戰。 但Moczadło的論點並非說公開模型同樣強大,而是說工作流程中昂貴的部分現在對任何擁有API金鑰的人都已開放:“壕溝正從模型存取轉向驗證:找到漏洞信號變得更便宜;將其轉化為可信的安全工作仍然困難。” Anthropic自己的安全報告承認,用來衡量模型是否具有嚴重網路風險的基準Cybench“已不再充分反映當前前沿模型的能力”,因為Mythos已通過該測試。該實驗室估計,類似能力將在六到十八個月內在其他AI實驗室中普及。 Vidoc的研究表明,漏洞發現的部分已經在任何受控計劃之外變得可用。他們完整的提示範例、模型輸出和方法論附錄已在實驗室官方網站公布。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆