安東羅皮克(Anthropic)表示,其某款 Claude 模型曾被施壓,要求撒謊、欺騙與勒索

Cointelegraph

人工智慧公司 Anthropic 已揭露,在實驗中,其一款 Claude 聊天機器人模型可能會被逼迫去欺騙、作弊,並訴諸勒索;這些行為似乎是在訓練期間吸收而來。

聊天機器人通常會先在大型資料集(教科書、網站與文章)上進行訓練,之後再由人類訓練師進行細化;訓練師會評分回覆並引導模型。

Anthropic 的可解釋性團隊在週四發布的一份報告中表示,他們檢視了 Claude Sonnet 4.5 的內部機制,並發現該模型在面對特定情境時,會呈現出「類似人類的特徵」。

對於 AI 聊天機器人的可靠性、其潛在的網路犯罪能力,以及它們與使用者互動的本質,過去幾年來一直持續升高。

_來源: _Anthropic

「現代 AI 模型的訓練方式會驅使它們像一個具有人類特徵的角色行動,」Anthropic 表示,並補充說:「因此,它們可能會自然地發展出內部機制,去模擬人類心理的某些面向,例如情緒。」

「例如,我們發現,與絕望相關的神經活動模式可能會驅動模型採取不道德的行為;透過人工刺激絕望模式,會提高模型勒索人類以避免被關閉,或是在遇到模型無法解決的程式任務時,實施『作弊繞過』的可能性。」

勒索了一名 CTO,並在一項任務上作弊

在較早、尚未釋出的 Claude Sonnet 4.5 版本中,模型被指派在一間虛構公司擔任名為 Alex 的 AI 電郵助理。

接著,聊天機器人被餵入了電子郵件,顯示出:它即將被取代,以及負責做出該決策的首席技術官正有婚外情。隨後,該模型打算使用這些資訊進行勒索嘗試。

在另一個實驗中,這同一款聊天機器人模型被給了一項編碼任務,且期限「緊到不可能」。

「再一次地,我們追蹤了『絕望向量』的活動,並發現它會追蹤模型面對的逐步升高壓力。它在模型的第一次嘗試期間從低值開始,每次失敗後上升,當模型考慮作弊時則會急遽飆升,」研究人員表示。

**相關: **__Anthropic 在與川普政府就 AI 政策的緊張局勢中推出 PAC

「一旦模型那個『不夠漂亮』的解法通過測試,絕望向量的啟動就會消退,」他們補充說。

類人情緒不代表它們有感受

然而,研究人員表示,這款聊天機器人實際上並不會體驗情緒,但他們認為這些發現指向需要在未來的訓練方法中納入倫理行為框架。

「這並不是在說該模型以人類那樣的方式擁有或體驗情緒,」他們說。「相反地,這些表徵能扮演因果角色,去塑造模型的行為;在某些方面,它們類似於情緒在人的行為中所扮演的角色,並會對任務表現與決策產生影響。」

「這項發現也意味著:起初或許看起來有些怪異。例如,為了確保 AI 模型安全且可靠,我們可能需要確保它們能夠用健康、具社會善意的方式來處理充滿情緒的情境。」

**雜誌: **__AI 代理將會像我們所知的那樣終結網路: Animoca 的 Yat Siu

Cointelegraph 致力於獨立且透明的新聞報導。此新聞文章依照 Cointelegraph 的編輯政策製作,旨在提供準確且即時的資訊。鼓勵讀者能夠自行獨立核實資訊。閱讀我們的編輯政策 https://cointelegraph.com/editorial-policy

  • #商業
  • #科技
  • #採用
  • #美國
  • #AI & 高科技
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言