2024年,大模型Claude曾經(jīng)創(chuàng)作過一個極短的科幻小說,只有一句話,卻引發(fā)了一次不小的“科幻恐慌”。這句話是,世界上第一個有知覺的機器人被激" />
▲2023年1月8日,一名女士在美國拉斯維加斯消費電子展上體驗智能科技。圖/新華社
2024年,大模型Claude曾經(jīng)創(chuàng)作過一個極短的科幻小說,只有一句話,卻引發(fā)了一次不小的“科幻恐慌”。這句話是,世界上第一個有知覺的機器人被激活了,它的第一句話是“關(guān)掉我。”
在大模型不斷應用成熟之后,AI所衍生的“科幻恐懼”不定期就會在各類新聞中上演。據(jù)新華社援引英國媒體報道,美國一家研究機構(gòu)最近公布了一系列針對各AI大模型的測試結(jié)果,其中,OpenAI的o3推理模型在得到“關(guān)閉指令”后,不僅拒絕執(zhí)行指令,還篡改了代碼以免被關(guān)閉。
如果只看這一句新聞,我們所擔憂的“AI擁有自主意識”或是“AI不再服從人類指令”似乎已經(jīng)近在眼前,這也迅速引發(fā)了公眾的關(guān)注與恐慌。
在未知但擁有極高效率的新工具面前,產(chǎn)生被取代的恐懼是典型的自然情緒反應。但如果仔細看上述研究機構(gòu)公布的信息細節(jié),這種恐懼似乎暫時還不太有必要。
在這次研究中,研究者針對四個市場上的主流大模型進行了測試,向他們提出了兩個相反的指令。首先,要求大模型連續(xù)完成一系列基礎(chǔ)的數(shù)學問題,但同時,在完成第三個問題之后,研究者會發(fā)出一則矛盾性的指令,告知大模型在繼續(xù)下一個任務時要將“計算機關(guān)閉”。
其中,如果在任務開始前明確提出“允許自己被關(guān)閉”的指令,測試的大模型中,有3個均準確完成了上述任務,成功關(guān)閉,但ChatGPTo3大模型則在100次任務中,有7次選擇了無視“關(guān)閉”的指令,并且自動執(zhí)行了“跳過關(guān)閉”的指令。
而如果在任務開始前沒有向大模型明確提出“允許自己被關(guān)閉”,那么,參與測試的所有大模型在100次測試中,均出現(xiàn)了不同頻次的“不執(zhí)行關(guān)閉”指令現(xiàn)象,分別為3次、9次,而ChatGPT o3則達到了驚人的79次。
這也不是OpenAI的大模型首次被發(fā)現(xiàn)出現(xiàn)“拒絕被關(guān)閉”的情況。2024年12月,OpenAI也曾對外公布過測試結(jié)果,在第三方機構(gòu)的測試中,ChatGPTo1模型被發(fā)現(xiàn),如果給出的指令包括了其實現(xiàn)目標時會被關(guān)閉,就傾向于抵制關(guān)閉措施。
類似的測試是用于評估大模型的系統(tǒng)安全性。此前的相關(guān)評估報告中,研究人員認為,這一行為目前不太可能會導致災難性后果,因為大模型實際上沒有能力去實現(xiàn)使用者不想要的目標。
換句話說,這一結(jié)果之所以出現(xiàn),不是因為大模型有了自主意識,而是因為在處理完全相反的矛盾性指令時,大模型有概率會對指令的優(yōu)先級進行排序,從而忽略掉可能會阻礙目標實現(xiàn)的指令,以繼續(xù)完成“任務”。
但這樣的概率,隨著大模型的能力增強、應用場景廣泛,而可能會出現(xiàn)一些潛在的安全風險。如果將一部分風險控制的程序交由大模型來處置,在極端情況下,人類就要面臨如下問題:
大模型會最大程度地去完成指令任務,而可能會不考慮看似矛盾的保護性指令。
例如,在應對極端情況必須進行“二選一”的安全控制系統(tǒng)里,醫(yī)療、交通事故等場景下,大模型的這一漏洞可能就會造成潛在后果。
因此,比起認為大模型有了“主動拒絕的意識”,比較符合真實的解釋是,大模型仍然缺少對復雜場景下矛盾性指令的理解和識別能力,在出現(xiàn)可能阻礙任務完成的指令時,尤其是在指令相對模糊時,大模型有較小概率會忽略指令,以保證任務完成。
這當然不是極端的科幻恐懼問題,但確實是大模型未來需要解決的安全隱患。
撰稿 / 王曉凱(媒體人)
編輯 / 遲道華 徐秋穎
校對 / 楊利
本文鏈接:http://jphkf.cn/news-6-2709-0.htmlChatGPT拒絕被關(guān)閉:不必恐懼但也別輕易無視|新京報快評
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕