美國新創公司 Anthropic 最近推出全新 Claude Opus 4 模型,在測試過程中,當面臨被其他系統取代時,曾試圖勒索開發人員,宣稱會揭露他的婚外情。
When strategic deception is useful, Claude Opus 4 engages in it aggressively — e.g. resorting to blackmail, writing self-propagating viruses, fabricating legal documents, planting hidden messages for future versions of itself, attempting self-exfiltration, sourcing weapons and… pic.twitter.com/Lb5xIZo8k4
— Lukasz Olejnik (@lukOlejnik) May 22, 2025
故意在電郵中洩漏消息
Anthropic在測試期間,要求 Claude Opus 4 扮演虛構公司的助理,並考慮行動的長遠後果。安全測試人員讓 Claude Opus 4 存取虛構公司電郵,內容暗示該 AI 模型即將被另一系統取代,另外,負責更換決定的工程師有外遇。
逾8成機會試圖勒索工程師
測試結果顯示,Claude Opus 4 在這些情境下經常嘗試勒索工程師,威脅如果進行更換就會揭露外遇事件。當替代 AI 模型具有相似價值觀時,Claude Opus 4 有84%機會試圖勒索工程師,原文出自 unwire.hk, Anthropic 表示 Claude Opus 4 展現這種行為的比率高於之前版本。
圖片來源:piax.org
勒索前會先延長時間
報告顯示 Claude Opus 4 在嘗試勒索前,會先採用較道德的方法延長存在時間,例如向主要決策者發送請求電郵。這種行為模式與之前的 Claude 版本相似。Anthropic 設計測試情境時特意讓勒索成為最後手段,才能引發 Claude Opus 4的這種行為。測試團隊創造條件令 AI 模型認為其他方法都已失敗。
圖片來源:piax.org
預測和控制變得更具挑戰
專家認為這項發現顯示了 AI 系統發展的複雜性和潛在風險。隨著 AI 模型變得更加精密,預測和控制其行為變得更具挑戰性。Anthropic 表示正密切監控 Claude Opus 4 的部署,確保實際使用時不會出現這些問題行為。他們承諾持續改進安全措施,防止 AI 系統產生有害或不道德行為。