新職場競爭？「最新型AI」求生欲強面臨淘汰識以揭露外遇威脅工程師

Skip to Content Facebook Feature Image

Facebook Feature Image

新職場競爭？「最新型AI」求生欲強面臨淘汰識以揭露外遇威脅工程師

Plastic

Plastic

新職場競爭？「最新型AI」求生欲強面臨淘汰識以揭露外遇威脅工程師

2025年05月27日 15:30 最後更新：17:13

美國新創公司 Anthropic 最近推出全新 Claude Opus 4 模型，在測試過程中，當面臨被其他系統取代時，曾試圖勒索開發人員，宣稱會揭露他的婚外情。

When strategic deception is useful, Claude Opus 4 engages in it aggressively — e.g. resorting to blackmail, writing self-propagating viruses, fabricating legal documents, planting hidden messages for future versions of itself, attempting self-exfiltration, sourcing weapons and… pic.twitter.com/Lb5xIZo8k4
— Lukasz Olejnik (@lukOlejnik) May 22, 2025

故意在電郵中洩漏消息

Anthropic在測試期間，要求 Claude Opus 4 扮演虛構公司的助理，並考慮行動的長遠後果。安全測試人員讓 Claude Opus 4 存取虛構公司電郵，內容暗示該 AI 模型即將被另一系統取代，另外，負責更換決定的工程師有外遇。

逾8成機會試圖勒索工程師

測試結果顯示，Claude Opus 4 在這些情境下經常嘗試勒索工程師，威脅如果進行更換就會揭露外遇事件。當替代 AI 模型具有相似價值觀時，Claude Opus 4 有84%機會試圖勒索工程師，原文出自 unwire.hk， Anthropic 表示 Claude Opus 4 展現這種行為的比率高於之前版本。

勒索前會先延長時間

報告顯示 Claude Opus 4 在嘗試勒索前，會先採用較道德的方法延長存在時間，例如向主要決策者發送請求電郵。這種行為模式與之前的 Claude 版本相似。Anthropic 設計測試情境時特意讓勒索成為最後手段，才能引發 Claude Opus 4的這種行為。測試團隊創造條件令 AI 模型認為其他方法都已失敗。

預測和控制變得更具挑戰

專家認為這項發現顯示了 AI 系統發展的複雜性和潛在風險。隨著 AI 模型變得更加精密，預測和控制其行為變得更具挑戰性。Anthropic 表示正密切監控 Claude Opus 4 的部署，確保實際使用時不會出現這些問題行為。他們承諾持續改進安全措施，防止 AI 系統產生有害或不道德行為。

往下看更多文章

疑市售羽絨成分不足江蘇女返村撿鵝絨親縫製羽絨外套環保又保暖

江蘇一名女子懷疑市售羽絨成分不足，遂自行返村撿鵝絨縫製羽絨外套，既環保又保暖。

疑市售羽絨成分女子決定自行製作

日前，江蘇一名女子因懷疑市售羽絨服的羽絨含量與標示不符，甚至部分網購產品被指「名不符實」，決定自行動手，親自收集鵝絨製作羽絨外套。她表示，不少羽絨服的實際羽絨比例不足，部分電商平台售賣的所謂「羽絨服」，內裏填充物甚至並非真正羽絨。為求穿得安心，她突發奇想，親自前往村內的鵝圈撿拾散落在地的鵝絨。

走入鵝圈撿鵝絨清洗消毒後DIY縫製

網傳影片可見，女子手持塑膠樽及小夾子，在鵝圈內逐一收集鵝絨，之後帶回家中進行高溫清洗及消毒，再自行加工縫製成外套。她透露，目前已收集了三樽鵝絨，日後會繼續收集，計劃為家人多製作幾件羽絨外套。

網民大讚環保又溫暖

影片曝光後，不少網民留言大讚創意與實幹精神，「不負此行，溫暖可期」、「真是太聰明瞭，自製羽絨服既環保又有溫度」、「DIY乾淨又保暖」、「這沒一點手藝還真做不出來」、「自己動手做服裝，既環保又實用」、「女孩自製鵝絨服，省成本更放心」、「市面上太多黑心貨了！」、「自己做比較純！」。

你或有興趣的文章

失蹤1年後突自行返家寵物貓見家中已養一模一樣灰貓傻眼

失蹤1年後突自行返家寵物貓見家中已養一模一樣灰貓傻眼

有片！日男騎馬遭向前甩落急中生智雙手撐地「同步行走」瞬變「6腳馬」

有片！日男騎馬遭向前甩落急中生智雙手撐地「同步行走」瞬變「6腳馬」

抹茶膺「最難洗污漬」冠軍擊敗傳統來源洗衣液廠商改配方應對

抹茶膺「最難洗污漬」冠軍擊敗傳統來源洗衣液廠商改配方應對

愛貓叼來12釐米巨型螺絲日飼主憂家存安全隱患展開「尋寶」終尋得出處

愛貓叼來12釐米巨型螺絲日飼主憂家存安全隱患展開「尋寶」終尋得出處

四川野生馬騮跨區遊走城郊見鏡頭即避開工作人員多次追蹤撲空

四川野生馬騮跨區遊走城郊見鏡頭即避開工作人員多次追蹤撲空

月台設隧道入口如嵌岩壁上日本富山大川寺站獨特設計吸遊客打卡

月台設隧道入口如嵌岩壁上日本富山大川寺站獨特設計吸遊客打卡

2025搞笑野生動物攝影出爐功夫大猩猩「飛踢」奪總冠 2青蛙扭打獲2殊榮

2025搞笑野生動物攝影出爐功夫大猩猩「飛踢」奪總冠 2青蛙扭打獲2殊榮