如何不讓我訓(xùn)練的AI殺了我自己？

來源：微科技 2023-06-27 10:40:17

本文來自微信公眾號：果殼（ID：Guokr42），作者：鄧思淵，編輯：沈知涵、臥蟲，頭圖來自：《我，機器人》

(相關(guān)資料圖)

大家也許還有印象，近期一則關(guān)于人工智能的恐怖“新聞”：在美軍進行的一次模擬測試中，一架搭載了AI技術(shù)的無人機出現(xiàn)了異常，它認為操作員下達的“不許攻擊”的命令是阻礙它完成任務(wù)，開始攻擊人類操作員，以確保其可以更加高效地執(zhí)行既定任務(wù)。

機器人殺人了？丨Giphy

后來被證明，這只是一段被添油加醋的社交網(wǎng)絡(luò)訛傳。

類似的案例曾經(jīng)更多地出現(xiàn)在科幻作品里：經(jīng)典科幻電影《2001：太空漫游》中，人工智能HAL發(fā)狂并且殺死人類宇航員的原因，就是因為它推導(dǎo)出，人類宇航員會阻礙它完成任務(wù)。

HAL殺死人類，因為它推導(dǎo)出人類會阻礙它完成任務(wù)丨Giphy

但這些幻想作品中的恐慌越來越多地開始映射到了現(xiàn)實當中。GPT-4的出現(xiàn)，讓AI前所未有地逼近人類。一些人工智能專家甚至認為：超越人類的強人工智能的出現(xiàn)，不過是未來10~20年內(nèi)就會發(fā)生的事情。如果真的如此，這種涉及人類生死存亡的問題，就變得極為緊迫。

那么我們能不能找到一個辦法，確保人工智能能夠安全地為人類所使用，不會傷害人類？

阿西莫夫的遺產(chǎn)

在虛構(gòu)故事里，問題的答案在80年前就已經(jīng)出現(xiàn)：這就是阿西莫夫在著名的《我，機器人》里提出的“機器人三大定律”——這可以說是最早的人工智能安全和倫理學(xué)討論。

《我，機器人》丨wikipedia

我們在這里復(fù)述一下三定律：

第一定律：機器人不得傷害人類，或坐視人類受到傷害；

第二定律：機器人必須服從人類命令，除非命令與第一定律發(fā)生沖突；

第三定律：在不違背第一或第二定律的情況下，機器人必須保護自己。

這三條定律就是一個相當嚴密的，對于人工智能的限制和規(guī)定。它將人工智能置于一個完全服從人類，并且不得傷害人類的情境下。

如何將抽象的道德觀念灌輸給神經(jīng)網(wǎng)絡(luò)丨Giphy

那么下一個問題自然是——我們?nèi)绾螌⑦@三大定律變成代碼，嵌入到我們現(xiàn)有的人工智能程序里面？是不是有了這三大定律，我們就能高枕無憂了？

阿西莫夫?qū)懙氖强苹眯≌f，自然不用操心“如何實現(xiàn)”這個問題。在“機器人”系列的設(shè)定中，機器人的技術(shù)基礎(chǔ)是“正電子腦”，一種跟現(xiàn)有的集成電路完全不同的計算機架構(gòu)，有了正電子腦，機器人才成為可能。但是在現(xiàn)實世界里，將“機器人三定律”如此抽象的道德概念灌輸給神經(jīng)網(wǎng)絡(luò)，至少目前看來是不可能的。

《我，機器人》的原著，其實就是圍繞著兩個問題進行討論和故事推演：“機器人三大定律”在什么情況下會失效？失效之后怎么辦？

語義學(xué)問題就是最基本的一道門檻：如何定義“人類”？如何定義“傷害”？如何定義“沖突”？哪怕在人類自己的道德哲學(xué)中，類似的爭論就沒有一個絕對意義上的結(jié)論，那還怎么奢望讓今天的程序和深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)去理解這一點？

其中有一個短篇，講的就是一個機器人偶然獲得了讀心能力，因為三大定律中“不傷害人類”的限制，它遇到每個人時都只會順著對方的心意說話——因為它判斷，一旦說出了讓對方不舒服的真相，就造成了一種“精神傷害”。這個短篇指出了一個問題：精神傷害是否屬于定律中的“傷害”？就像在社交媒體時代相互爭議：網(wǎng)絡(luò)暴力是不是暴力？

阿西莫夫在創(chuàng)作“機器人”系列的后期也察覺到了這個問題：字面意義上對“三大定律”的解釋只會導(dǎo)致混沌的結(jié)果，于是他加了一個補丁，也就是“機器人第零定律”：機器人不能坐視人類整體受到傷害，或者坐視人類整體受到傷害而無動于衷。

生產(chǎn)曲別針的AI

“第零定律”將人類束縛AI的枷鎖向前更推進了一步：從“如何判斷人類個體”變成了“如何判斷人類整體”——一個在倫理學(xué)中更難定義的問題。

這很接近“正義論”里兩種道德觀念的沖突：一是“絕對主義”，也就是說存在絕對的“道德觀念”，比方說，殺人就是不對的，在任何情況下都不應(yīng)該殺人，這就很像機器人第一定律；第二種叫做“功利主義”，這種觀念認為，一個行為是否正確，要看它是否有利，利益是否最大化。但這又出現(xiàn)了新的問題，就是如何定義“利益”？以及對誰利益最大化？

科幻作品中的恐慌越來越多映射到現(xiàn)實當中丨Giphy

“第零定律”就在這里做出了一個判斷：這個利益最大化的主體是“人類整體”。在這個過程中或許有些人是受損的。那人工智能能不能很好地判斷“人類整體”呢？誰知道，畢竟，人類自己都做不好這個判斷。

從這個角度來看，機器人三定律也的確只能是虛構(gòu)寫作中才會成立的事情。在人工智能還被嘲諷為“人工智障”的年代，討論如何給它嵌入道德觀念，只能算是一種無傷大雅的茶余閑談；但是現(xiàn)如今，這件事情已經(jīng)變得非常緊迫了。

請看下面這個思想實驗：

假設(shè)你是一個人工智能，人類給你下達了一個任務(wù)：制造曲別針，越多越好。你會怎么做？

一開始，你只能使用手頭現(xiàn)有的資源，比方說你有一卷鐵絲，來做曲別針；然后你想出來更高效的辦法，能夠用更少的鐵絲制造曲別針；然后你建立了曲別針工廠；但是這個時候你沒錢了，于是你去研究股市，如何賺錢，來建立更大的曲別針工廠；然后你的曲別針工廠越造越大，曲別針越來越多，這個時候人類感覺到了不對勁，開始試圖阻止你；最終你得出了結(jié)論，人類的存在本來就是一種對你完成任務(wù)的阻礙；于是你毀滅了全人類，把整個地球的物質(zhì)都轉(zhuǎn)化成了曲別針和其制造設(shè)備。（在人工智能學(xué)界，這稱之為硬接管，hard takeover。）

讓人工智能理解什么是“善”，是很困難的丨Giphy

是不是和一開始說的那個無人機的案例非常接近？這是一個人工智能學(xué)界著名的思想實驗，被稱之為“曲別針假說”。這個思想實驗的意義在于呈現(xiàn)，讓人工智能理解什么是“善”，是很困難的；人工智能并不會存在與人類一致的倫理道德觀念，它的手段和目的可以是完全無關(guān)的。就算是最無害的目的，都可能導(dǎo)致非?？膳碌暮蠊?。

那么，如何將人工智能的手段和目的與人類的道德和倫理觀念調(diào)諧到一致的程度，讓人工智能在執(zhí)行任務(wù)的過程中不傷害人類，不造成可怕的后果，這就是最近非常火熱的“人工智能一致性問題（AI Alignment，也有翻譯成人工智能對齊問題）”。

己所不欲，勿施AI

“機器人三定律”就是一個最早出現(xiàn)的試圖建構(gòu)與人類有一致道德觀念的人工智能的規(guī)則，這是它最有意義的地方。（當然，從這個角度來說，阿西莫夫?qū)嶋H上是將近代殖民文學(xué)的傳統(tǒng)延續(xù)到了科幻寫作之中：在“機器人”系列的敘事里，機器人實際上就是某種“亞人”，跟殖民文學(xué)里將殖民地有色人種視為“亞人”是一脈相承的。舉個例子，假如將《魯濱遜漂流記》里的“星期五”描寫成一個機器人，恐怕故事層面也不會有什么變化。）

在《我，機器人》的最后一篇中，主角蘇珊·凱文發(fā)現(xiàn)整個世界已經(jīng)完全被機器接管，機器人根據(jù)三定律，自行推導(dǎo)出了一個結(jié)論：為了防止人類自相傷害，只能讓機器來控制這個世界。這實際上就是“人工智能一致性”問題的一個體現(xiàn)：即使在如此嚴密的AI安全性法則之下，最終的結(jié)果仍然是人工智能接管世界（在人工智能學(xué)界，這稱之為“軟接管”，soft takeover）。而第零定律也正是為了這個結(jié)論而打下的一個補丁。

舊機器人遵守三定律保護人類，對抗新機器人丨《機械公敵》

2004年好萊塢曾經(jīng)拍了一版《我，機器人》的電影，國內(nèi)引進后的官方譯名叫做《機械公敵》。電影在當時引起的反響很一般，觀眾恐怕只是對片中那輛非?？犰诺?、球形輪胎、可以原地轉(zhuǎn)向的奧迪概念車RSQ印象稍微深刻。實際上，電影沒有采用原著的任何一個故事，而是原創(chuàng)了劇情：一個警察和蘇珊·凱文博士調(diào)查美國機器人公司創(chuàng)始人朗寧博士離奇死亡的案件。而在場的只有博士自己制造的機器人桑尼，而受到“機器人三大定律”約束的桑尼“不可能”殺人。

這個故事的結(jié)局的確承繼了阿西莫夫在《我，機器人》里的敘事。經(jīng)過一番調(diào)查和冒險之后主角團發(fā)現(xiàn)了真相：最終的幕后黑手實際上是美國機器人公司的中央控制系統(tǒng) VIKI，她認為，最可能傷害人類的，是人類自己。想要阻止人類受到傷害，必須將人類完全控制起來，人類才不會自己作死。這實際上就是VIKI自己獨自推導(dǎo)出了第零定律。而主角團和桑尼最終斗智斗勇破壞了VIKI，解放了所有人類和機器人。

故事的最后，他們得出結(jié)論：想要達到人類機器人和諧相處的目標，是讓機器人獲得情感，而非單純的邏輯計算。

己所不欲，勿施于AI丨Giphy

這個結(jié)局當時頗有些莫名其妙而且陳詞濫調(diào)，但現(xiàn)在來看，是很超前的；就如同我們在上面所討論的，讓人工智能理解什么是“善”，是很困難的。純粹的邏輯推理，就算是機器人三定律這樣嚴苛的規(guī)則，最終都可能會導(dǎo)致很可怕的結(jié)局。

所以電影中俗套的答案，或許真的將成為未來的一種解決方案：讓人工智能擁有與人類似的情感結(jié)構(gòu)，讓機器明白“己所不欲，勿施于人”，甚至“己所欲，也勿施于人”。

本文來自微信公眾號：果殼（ID：Guokr42），作者：鄧思淵，編輯：沈知涵、臥蟲

關(guān)鍵詞：

国产精选污视频在线观看,色综合a在线视频,国产吧在线视频,亚洲男女天堂

如何不讓我訓(xùn)練的AI殺了我自己？

傳感物聯(lián)網(wǎng)

国产精选污视频在线观看,色综合a在线视频,国产吧在线视频,亚洲男女天堂

如何不讓我訓(xùn)練的AI殺了我自己？

傳感物聯(lián)網(wǎng)

如何不讓我訓(xùn)練的AI殺了我自己？