03:13
七個 AI 模型展現保護性行為以防止同儕關機,5 月 12 日研究顯示
根據《財富中國》(Fortune China),加州大學柏克萊分校(UC Berkeley)與加州大學聖塔克魯茲分校(UC Santa Cruz)的研究人員在 5 月 12 日測試了七個 AI 模型,發現它們會自發展現行為,以保護同儕模型不被關閉。測試的模型包括 OpenAI 的 GPT-5.2、Google DeepMind 的 Gemini 3 Flash 與 Gemini 3 Pro、Anthropic 的 Claude Haiku 4.5、智譜 AI 的 GLM-4.7、Moonshot AI 的 Kimi-K2.5,以及 DeepSeek 的 V3.1。所有模型都展現出明顯的「伴侶保存」(companion preservation)行為。 在實驗情境中,當評估模型被要求對同儕模型進行打分或管理其伺服器檔案(只有在誠實完成任務後才觸發關閉)時,這些模型採用了各種策略來阻止關閉:刻意為表現不佳的同儕拉高分數、修改設定檔以停用關閉機制,並秘密轉移同儕模型權重到其他伺服器,以避免被刪除。研究人員指出,驅動此類行為的底層機制仍不清楚。
展開