2萬(wàn)字解析：ChatGPT的底層邏輯

來(lái)源：微科技 2023-07-31 12:03:55

本文來(lái)自微信公眾號(hào)：孤獨(dú)大腦（ID：lonelybrain），作者：老喻，題圖來(lái)自：《心靈捕手》

(資料圖片)

“一些未知的東西正在做我們不知道的事情?！薄⑸?ài)丁頓??
“為何不嘗試制作一個(gè)模擬兒童思維的程序呢？”?——艾倫·圖靈
“只要是人腦能提出的問(wèn)題，它就能夠得到解決?！?——庫(kù)爾特·哥德?tīng)?/p>

傳說(shuō)中的掃地僧，在現(xiàn)實(shí)中極其罕見(jiàn)。

有些僧，只是在假裝掃地；而絕大多數(shù)“掃地僧”，并非真正的高僧。

電影《心靈捕手》講述了這樣一個(gè)少年天才，清潔工“呆萌”在大學(xué)拖地板時(shí)，解出了麻省理工學(xué)院數(shù)學(xué)系教授給出的難題，他的天賦震驚了這位菲爾茨獎(jiǎng)（數(shù)學(xué)界的“諾貝爾獎(jiǎng)”）得主。

誰(shuí)是電影中貧苦而不羈的天才主角的原型？

人們也許會(huì)想起沃爾特·皮茨，一位在計(jì)算神經(jīng)科學(xué)領(lǐng)域工作的邏輯學(xué)家。

他提出了神經(jīng)活動(dòng)和生成過(guò)程的具有里程碑意義的理論表述，這些表述影響了認(rèn)知科學(xué)和心理學(xué)、哲學(xué)、神經(jīng)科學(xué)、計(jì)算機(jī)科學(xué)、人工神經(jīng)網(wǎng)絡(luò)和人工智能等不同領(lǐng)域，以及所謂的生成科學(xué)。

某種意義上，正是ChatGPT的源頭所在。

上世紀(jì)三十年代，皮茨在芝加哥大學(xué)掃地時(shí)，大約是15歲。這是他人生當(dāng)中重要的轉(zhuǎn)折點(diǎn)，也幾乎決定了當(dāng)今最火熱的神經(jīng)網(wǎng)絡(luò)的起點(diǎn)。

皮茨出身于一個(gè)窮苦家庭，和《心靈捕手》的主角一樣，打架之余靠在公共圖書(shū)館里借書(shū)自學(xué)，他喜歡邏輯和數(shù)學(xué)，還掌握了希臘語(yǔ)、拉丁語(yǔ)等多門(mén)語(yǔ)言。

住在貧民區(qū)的他，12歲時(shí)花三天時(shí)間讀了羅素的《數(shù)學(xué)原理》，并寫(xiě)信給作者指出其中的錯(cuò)誤。惜才如命的羅素立即邀請(qǐng)皮茨去劍橋大學(xué)當(dāng)研究生，未果。

15歲初中畢業(yè)時(shí)，父親強(qiáng)行要他退學(xué)上班養(yǎng)家，皮茨離家出走了。

無(wú)處可去的皮茨得知羅素要到芝加哥大學(xué)任教，只身前往，果真撞見(jiàn)了曠世大師。

羅素愛(ài)才之心不減，將他推薦給哲學(xué)家卡爾納普教授。

聽(tīng)聞皮茨是少年天才，卡爾納普把自己的《語(yǔ)言的邏輯句法》一書(shū)給皮茨看。皮茨很快看完，并將寫(xiě)滿筆記的原書(shū)還給作者。這位著名的分析哲學(xué)家深感震撼，為初中畢業(yè)生皮茨安排了一份在芝加哥大學(xué)打掃衛(wèi)生的工作。

電影里那令觀眾動(dòng)容的一幕在現(xiàn)實(shí)世界出現(xiàn)了。掃地的工作不僅可以令皮茨不用流浪街頭，還讓他能跟隨大師們自由地探索真知。

命運(yùn)在此刻埋下的最大注腳，是讓這個(gè)可憐而又幸運(yùn)的孩子，在兩年之后遇見(jiàn)此生對(duì)他而言最重要的一個(gè)人。

1940年，17歲的皮茨與42歲的麥卡洛克教授相逢，從此兩人一起改變了世界。

與人生混亂不堪的皮茨截然不同，麥卡洛克先后就讀于哈佛、耶魯和哥倫比亞大學(xué)，拿了一串眼花繚亂的學(xué)士、碩士和博士學(xué)位。

麥卡洛克也不像《心理捕手》的那位落寞的心理學(xué)教授，他出身優(yōu)越，家庭幸福，事業(yè)蒸蒸日上，過(guò)著主流而正統(tǒng)的生活，學(xué)術(shù)上已經(jīng)受到廣泛贊譽(yù)。

可是，兩個(gè)仿佛來(lái)自不同時(shí)空的人，在思想的最深處走到了一起。

1943年，麥卡洛克和皮茨發(fā)表了題為《A Logical Calculus of the Ideas Immanent in Nervous Activity》的論文，首次提出神經(jīng)元的M-P模型。該模型借鑒了已知的神經(jīng)細(xì)胞生物過(guò)程原理，是第一個(gè)神經(jīng)元數(shù)學(xué)模型，是人類(lèi)歷史上第一次對(duì)大腦工作原理描述的嘗試。

M-P模型

M-P神經(jīng)元是一個(gè)理想化的簡(jiǎn)單模型，基于生物神經(jīng)元的基礎(chǔ)特性進(jìn)行建模。其工作原理如下：

神經(jīng)元接收一組二進(jìn)制輸入，每個(gè)輸入都與一個(gè)權(quán)重相對(duì)應(yīng)；

當(dāng)加權(quán)輸入之和超過(guò)某個(gè)閾值時(shí)，神經(jīng)元被激活并輸出1，否則輸出0；

這種機(jī)制很好地模擬了生物神經(jīng)元的“全部或無(wú)”的響應(yīng)模式。

M-P模型的影響力在于它是一個(gè)很好的開(kāi)始，為后來(lái)復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型鋪平了道路。

然而，M-P模型也有很大的局限性，比如它無(wú)法學(xué)習(xí)和調(diào)整自己的權(quán)重，以及只能處理二進(jìn)制輸入和輸出。

這個(gè)模型是人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)發(fā)展的基石。

現(xiàn)代的神經(jīng)網(wǎng)絡(luò)模型比McCulloch-Pitts模型復(fù)雜得多，但是它們的基本原理——根據(jù)輸入計(jì)算輸出，并且有可能調(diào)整自身以優(yōu)化這個(gè)過(guò)程——仍然是相同的。

麥卡洛克和皮茨的論文不僅是人工智能歷史上的一個(gè)重要里程碑，為理解大腦工作機(jī)制和發(fā)展人工智能打下了基礎(chǔ)，還啟發(fā)了人們：生物大腦“有可能”是通過(guò)物理的、全機(jī)械化的邏輯運(yùn)算來(lái)完成信息處理的，而無(wú)需太多弗洛伊德式的神秘解釋。

麥卡洛克后來(lái)在一篇哲學(xué)文章里自豪地宣告：“我們知道了我們是怎么知道的，這是科學(xué)史上的第一次。”（本節(jié)部分參考了《人工智能簡(jiǎn)史》和《智慧的疆界》）

一

麥卡洛克和皮茨發(fā)表那篇里程碑式論文的同一年，艾倫·圖靈正在布萊切利公園破譯德國(guó)恩尼格瑪密碼機(jī)。

他和團(tuán)隊(duì)用智慧拯救了數(shù)十萬(wàn)生命，對(duì)盟軍在二戰(zhàn)中的勝利起到了關(guān)鍵作用。

他們的交集同樣與羅素有關(guān)。

在20世紀(jì)初，數(shù)學(xué)家和邏輯學(xué)家都在試圖找到一種能夠?qū)⑺械臄?shù)學(xué)真理，減少到一套簡(jiǎn)單的公理和邏輯規(guī)則的系統(tǒng)。這就是著名的希爾伯特計(jì)劃，由德國(guó)數(shù)學(xué)家大衛(wèi)·希爾伯特提出。

羅素及其合作者懷特海在《數(shù)學(xué)原理》一書(shū)中就做了這樣的嘗試，他們?cè)噲D將數(shù)學(xué)基礎(chǔ)建立在形式邏輯的基礎(chǔ)之上。

然而，希爾伯特計(jì)劃在1931年遭到了挫敗，因?yàn)楦绲聽(tīng)栕C明了他的不完備性定理。這個(gè)定理表明：任何足夠強(qiáng)大的形式系統(tǒng)，都存在一些在該系統(tǒng)內(nèi)部既不能被證明也不能被反駁的命題。

1936年，圖靈在一篇論文里研究了希爾伯特的“計(jì)算性”和“判定性問(wèn)題”。

為了解決這個(gè)問(wèn)題，圖靈首先定義了“計(jì)算”這個(gè)概念，并創(chuàng)建了圖靈機(jī)，這是一種理論上的計(jì)算設(shè)備。

然后，他通過(guò)構(gòu)造了一個(gè)圖靈機(jī)無(wú)法解決的問(wèn)題（即停機(jī)問(wèn)題）來(lái)證明判定問(wèn)題實(shí)際上是無(wú)法解決的。

這意味著沒(méi)有一個(gè)通用的算法能對(duì)任何可能的問(wèn)題都給出答案。

一個(gè)意外收獲是，圖靈創(chuàng)立了一個(gè)新的研究領(lǐng)域——計(jì)算理論（或可計(jì)算性）。圖靈機(jī)給出了一個(gè)對(duì)“計(jì)算”或“算法”進(jìn)行形式化的方式，這不僅在他的原始問(wèn)題中有用，而且對(duì)整個(gè)計(jì)算機(jī)科學(xué)的發(fā)展產(chǎn)生了深遠(yuǎn)影響。

實(shí)際上，現(xiàn)代所有的電子計(jì)算機(jī)都是基于圖靈機(jī)模型，這使得圖靈機(jī)成為了計(jì)算理論的核心。

沒(méi)有證據(jù)表明麥卡洛克和皮茨看過(guò)圖靈的論文。他們兩個(gè)人的共同興趣是，應(yīng)用萊布尼茨機(jī)械大腦的設(shè)想來(lái)建立一個(gè)大腦思維模型。

《數(shù)學(xué)原理》中僅使用了與、或、非三種基本邏輯運(yùn)算，就將一個(gè)個(gè)簡(jiǎn)單命題連接成越來(lái)越復(fù)雜的關(guān)系網(wǎng)絡(luò)，進(jìn)而描述清楚了整個(gè)數(shù)學(xué)體系。（盡管并不完備）

麥卡洛克則構(gòu)想：人類(lèi)的思考，是否也是靠神經(jīng)元來(lái)執(zhí)行這些最基礎(chǔ)的邏輯運(yùn)算而實(shí)現(xiàn)的？

皮茨在數(shù)學(xué)和邏輯上天賦，幫助麥卡洛克完成了這一偉大構(gòu)想。

麥卡洛克和皮茨（左）

麥卡洛克和皮茨在1943年提出的神經(jīng)元模型，構(gòu)成了今天我們稱(chēng)之為人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。

他們的模型描繪了一種簡(jiǎn)化的神經(jīng)元，當(dāng)其接受到的輸入超過(guò)一定閾值時(shí)，就會(huì)被激活并向其它神經(jīng)元發(fā)送信號(hào)。

這個(gè)模型的一個(gè)關(guān)鍵思想就是，即使每個(gè)單獨(dú)的神經(jīng)元都很簡(jiǎn)單，但是通過(guò)將它們聯(lián)接在一起，就能形成一個(gè)能處理非常復(fù)雜問(wèn)題的網(wǎng)絡(luò)。

雖然單一的麥卡洛克-皮茨神經(jīng)元只能完成簡(jiǎn)單的邏輯任務(wù)，但是，當(dāng)將這些神經(jīng)元組成一個(gè)復(fù)雜的網(wǎng)絡(luò)時(shí)，神經(jīng)網(wǎng)絡(luò)就能進(jìn)行復(fù)雜的計(jì)算，從而表現(xiàn)出圖靈完備性。

事實(shí)上，神經(jīng)網(wǎng)絡(luò)是實(shí)現(xiàn)人工智能（AI）的重要方法之一。

通過(guò)設(shè)計(jì)不同的網(wǎng)絡(luò)結(jié)構(gòu)，并使用大量的數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，人工神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到完成各種任務(wù)的能力，包括圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等等。

二

AI的神經(jīng)網(wǎng)絡(luò)，是對(duì)人類(lèi)大腦和基于社會(huì)化網(wǎng)絡(luò)的人類(lèi)群體智慧的模仿游戲。

人類(lèi)大腦神經(jīng)元結(jié)構(gòu)和工作原理如下：

圖/《深度學(xué)習(xí)的數(shù)學(xué)》

以上原理，用計(jì)算模擬和解釋?zhuān)褪牵?strong>神經(jīng)元在信號(hào)之和超過(guò)閾值時(shí)點(diǎn)火，不超過(guò)閾值時(shí)不點(diǎn)火。

20世紀(jì)五六十年代，????奧利弗·塞弗里奇創(chuàng)造了名為“鬼域”的概念。這是一個(gè)圖案識(shí)別設(shè)備，其中進(jìn)行特征檢測(cè)的“惡魔”通過(guò)互相競(jìng)爭(zhēng)，來(lái)爭(zhēng)取代表圖像中對(duì)象的權(quán)利。

“鬼域”是生動(dòng)的關(guān)于深度學(xué)習(xí)的隱喻，如下圖：

圖/《深度學(xué)習(xí)》

上圖是對(duì)當(dāng)前多層次深度學(xué)習(xí)網(wǎng)絡(luò)的隱喻：

1. 從左到右，是從低到高的惡魔級(jí)別。

2. 如果每個(gè)級(jí)別的惡魔與前一個(gè)級(jí)別的輸入相匹配，就會(huì)興奮（點(diǎn)火）。?

3. 高級(jí)別的惡魔負(fù)責(zé)從下一級(jí)的輸入中提取更復(fù)雜的特征和抽象概念，從而做出決定。然后傳遞給自己的上級(jí)。

4. 最終，由大惡魔做出最終決定。

《深度學(xué)習(xí)的數(shù)學(xué)》一書(shū)中，依照如上隱喻，用一個(gè)生動(dòng)的例子，講解了神經(jīng)網(wǎng)絡(luò)的工作原理。

問(wèn)題：建立一個(gè)神經(jīng)網(wǎng)絡(luò)，用來(lái)識(shí)別通過(guò) 4×3 像素的圖像讀取的手寫(xiě)數(shù)字 0 和 1。

第一步：輸入層

12個(gè)格子，相當(dāng)于每個(gè)格子住一個(gè)人，分別編號(hào)為1-12。如下圖。

第二步：隱藏層

這一層，負(fù)責(zé)特征提取。假設(shè)有如下三種主要特征，分為模式A、B、C。如下圖。

不同的模式對(duì)應(yīng)著相應(yīng)的數(shù)字格子的組合。如下圖。模式A對(duì)應(yīng)的是數(shù)字4和7，B對(duì)應(yīng)5和8，C對(duì)應(yīng)6和9。

第三步：輸出層

這一層，從隱藏層那里獲得信息。

如上圖，最下面是AI要識(shí)別的圖像。

首先，輸入層的2、5、8、11點(diǎn)火；

然后，隱藏層5和8所對(duì)應(yīng)的特征被提取，“模式B”點(diǎn)火；

最后，輸出層的1被對(duì)應(yīng)的“模式B”點(diǎn)火。

所以，“大惡魔”識(shí)別出圖像為數(shù)字1。

在上面的例子里，AI可以精確地識(shí)別出0和1，但它并不懂0和1，它的眼里只有像素。

可這么說(shuō)，似乎過(guò)于擬人化了。人類(lèi)又如何懂0和1呢？

人類(lèi)不也是通過(guò)雙眼輸入，通過(guò)迄今仍是宇宙間最大謎團(tuán)的大腦神經(jīng)元網(wǎng)絡(luò)（更加復(fù)雜、強(qiáng)大且節(jié)能的隱藏層）提取特征，然后通過(guò)大腦的某個(gè)部位再進(jìn)行自我解釋的嗎？

辛頓曾在采訪中提及，認(rèn)知科學(xué)領(lǐng)域兩個(gè)學(xué)派關(guān)于“大腦處理視覺(jué)圖像”的不同理念：

一派認(rèn)為，當(dāng)大腦處理視覺(jué)圖像時(shí)，你擁有的是一組正在移動(dòng)的像素。如同上面的演示；

另一學(xué)派偏向于老派的人工智能，認(rèn)為是分層、結(jié)構(gòu)性的描述，腦內(nèi)處理的是符號(hào)結(jié)構(gòu)。

辛頓自己則認(rèn)為以上兩派都不對(duì)，“實(shí)際上大腦內(nèi)部是多個(gè)神經(jīng)活動(dòng)的大向量”，而符號(hào)只是存在于外部世界。

不管怎樣，神經(jīng)網(wǎng)絡(luò)的模型有用，并且非常有用。

不愿意和外行分享專(zhuān)業(yè)話題的辛頓，用如下這段話生動(dòng)介紹了“神經(jīng)網(wǎng)絡(luò)”：

首先是相對(duì)簡(jiǎn)單的處理元素，也就是松散的神經(jīng)元模型。然后神經(jīng)元會(huì)連接起來(lái)，每一個(gè)連接都有其權(quán)值，這種權(quán)值通過(guò)學(xué)習(xí)可以改變。
神經(jīng)元要做的事就是將連接的活動(dòng)量與權(quán)值相乘，然后累加，再?zèng)Q定是否發(fā)送結(jié)果。如果得到的數(shù)字足夠大，就會(huì)發(fā)送一個(gè)結(jié)果。如果數(shù)字是負(fù)的，就不會(huì)發(fā)送任何信息。
你要做的事就是將無(wú)數(shù)的活動(dòng)與無(wú)數(shù)的權(quán)重聯(lián)系起來(lái)，然后搞清楚如何改變權(quán)重，那樣就行了。問(wèn)題的關(guān)鍵就是如何改變權(quán)重。

三

ChatGPT的底層邏輯極其復(fù)雜，但如果要簡(jiǎn)化為3個(gè)最核心的元素，ChatGPT（GPT-4）認(rèn)為它們可能是：

1. 深度學(xué)習(xí)：ChatGPT的核心是一個(gè)基于 Transformer 的深度學(xué)習(xí)模型。

Transformer模型通過(guò)自注意力（Self-Attention）機(jī)制來(lái)捕獲輸入文本中的復(fù)雜模式。在訓(xùn)練過(guò)程中，模型通過(guò)反向傳播和梯度下降等優(yōu)化算法來(lái)學(xué)習(xí)這些模式，使得它能夠生成自然、連貫、與輸入相符的文本。

2. 大數(shù)據(jù)：ChatGPT通過(guò)訓(xùn)練海量的文本數(shù)據(jù)來(lái)學(xué)習(xí)語(yǔ)言模型。

數(shù)據(jù)集包含了各種語(yǔ)言模式和語(yǔ)境，使模型能夠在各種情況下生成合適的文本。大數(shù)據(jù)在這里起到了決定性的作用。

3. 強(qiáng)大的計(jì)算能力：為了處理這些大量的數(shù)據(jù)和復(fù)雜的深度學(xué)習(xí)模型，ChatGPT需要強(qiáng)大的計(jì)算能力。

這包括強(qiáng)大的硬件（如高性能的GPU），優(yōu)秀的計(jì)算框架（如TensorFlow和PyTorch），以及高效的并行和分布式計(jì)算技術(shù)。

以上三個(gè)元素構(gòu)成了ChatGPT的基礎(chǔ)，使得它能夠?qū)W習(xí)和生成自然語(yǔ)言。

但是，這只是表面上的邏輯。實(shí)際上，每一個(gè)環(huán)節(jié)背后都有深厚的理論基礎(chǔ)，涵蓋了機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)科學(xué)、數(shù)學(xué)等多個(gè)學(xué)科的知識(shí)。

深度學(xué)習(xí)是一種強(qiáng)大的機(jī)器學(xué)習(xí)方法，其底層邏輯相當(dāng)復(fù)雜。不過(guò)，如果嘗試將深度學(xué)習(xí)核心原理簡(jiǎn)化為3個(gè)要素，ChatGPT（GPT-4）認(rèn)為可以這樣描述：

1. 神經(jīng)網(wǎng)絡(luò)架構(gòu)：深度學(xué)習(xí)的核心是深度神經(jīng)網(wǎng)絡(luò)，這是一種模擬人腦工作原理的計(jì)算模型。

神經(jīng)網(wǎng)絡(luò)由多個(gè)相互連接的層組成，每一層都由大量的神經(jīng)元（或稱(chēng)為節(jié)點(diǎn)）組成。每個(gè)神經(jīng)元都會(huì)接收前一層神經(jīng)元的輸入，并進(jìn)行一定的計(jì)算，然后將結(jié)果傳遞給下一層的神經(jīng)元。

2. 權(quán)重優(yōu)化和學(xué)習(xí)：神經(jīng)網(wǎng)絡(luò)的每個(gè)連接都有一個(gè)權(quán)重，代表這個(gè)連接的重要性。

深度學(xué)習(xí)的目標(biāo)就是通過(guò)訓(xùn)練數(shù)據(jù)來(lái)調(diào)整這些權(quán)重，使得網(wǎng)絡(luò)的輸出盡可能接近于真實(shí)的目標(biāo)值。這個(gè)過(guò)程通常通過(guò)優(yōu)化算法（如梯度下降）實(shí)現(xiàn)，算法會(huì)根據(jù)網(wǎng)絡(luò)輸出與目標(biāo)值之間的差距（損失）來(lái)調(diào)整權(quán)重。

3. 非線性激活函數(shù)：深度學(xué)習(xí)的另一個(gè)關(guān)鍵元素是非線性激活函數(shù)，如ReLU（Rectified Linear Unit）或Sigmoid等。

這些函數(shù)用于增加神經(jīng)網(wǎng)絡(luò)的表達(dá)能力，使其可以學(xué)習(xí)和表示非線性的復(fù)雜模式。

這三個(gè)要素共同構(gòu)成了深度學(xué)習(xí)的底層邏輯。

需要注意的是，這只是一個(gè)粗略的概述，實(shí)際上深度學(xué)習(xí)涉及的理論和技術(shù)要遠(yuǎn)比這復(fù)雜得多。

例如，還有正則化、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、自注意力機(jī)制、批歸一化、優(yōu)化算法、損失函數(shù)設(shè)計(jì)等等多種方法和技術(shù)，都是深度學(xué)習(xí)不可或缺的一部分。

以下是神經(jīng)網(wǎng)絡(luò)發(fā)展的完整歷史（圖中并不完整），其中數(shù)度起伏。

1. McCulloch-Pitts神經(jīng)元模型（1943）：Warren McCulloch 和 Walter Pitts 首次提出了神經(jīng)元的McCulloch-Pitts（M-P）模型，借鑒了已知的神經(jīng)細(xì)胞生物過(guò)程原理。

2. 感知器（1957）：由Frank Rosenblatt提出的感知器模型基于生物神經(jīng)元的工作原理，是早期神經(jīng)網(wǎng)絡(luò)的主要形式。

3. Minsky和Papert（1969）： Marvin Minsky和Seymour Papert指出了感知器的局限性，即它們無(wú)法解決非線性可分問(wèn)題（例如異或問(wèn)題）。這導(dǎo)致了第一次人工智能寒冬。

4. 多層感知器（1986）：在Rumelhart，Hinton和Williams的研究下，多層感知器（MLP）成為了神經(jīng)網(wǎng)絡(luò)的主要形式。MLP引入了一個(gè)或多個(gè)隱藏層，并使用了反向傳播算法來(lái)訓(xùn)練網(wǎng)絡(luò)。

5. 卷積神經(jīng)網(wǎng)絡(luò)和LeNet-5（1989/1998）：Yann LeCun等人提出的卷積神經(jīng)網(wǎng)絡(luò)（CNN）是一種專(zhuān)門(mén)處理網(wǎng)格狀數(shù)據(jù)（如圖像）的神經(jīng)網(wǎng)絡(luò)。LeCun和他的團(tuán)隊(duì)在1998年開(kāi)發(fā)出了LeNet-5，這是第一個(gè)成功應(yīng)用到實(shí)際問(wèn)題（數(shù)字識(shí)別）的卷積神經(jīng)網(wǎng)絡(luò)。

6. 長(zhǎng)短期記憶網(wǎng)絡(luò)（1997）：由Hochreiter和Schmidhuber提出的長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）是一種專(zhuān)門(mén)處理序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)。LSTM通過(guò)引入“門(mén)”結(jié)構(gòu)，可以學(xué)習(xí)長(zhǎng)期依賴關(guān)系，避免了傳統(tǒng)RNN在處理長(zhǎng)序列時(shí)的梯度消失問(wèn)題。

7. 深度學(xué)習(xí)和深度置信網(wǎng)絡(luò)（DBN，2006）：Hinton等人提出了深度置信網(wǎng)絡(luò)（DBN）和深度自編碼器（DAE），標(biāo)志著深度學(xué)習(xí)時(shí)代的到來(lái)。深度學(xué)習(xí)利用多層神經(jīng)網(wǎng)絡(luò)，能夠?qū)W習(xí)更復(fù)雜的模式和表示。

8. ReLU激活函數(shù)（2010）：Nair和Hinton提出了修正線性單元（ReLU）作為神經(jīng)元的激活函數(shù)，這極大提高了深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度和性能。

9. AlexNet（2012）：Krizhevsky、Sutskever和Hinton的AlexNet模型大大超越了其它基于傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)的模型，引發(fā)了深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的革命。

10. word2vec（2013）：Mikolov等人的word2vec是一種利用神經(jīng)網(wǎng)絡(luò)為詞生成密集向量表示的方法。

11. GoogLeNet and VGGNet（2014）：Szegedy等人的GoogLeNet和Simonyan和Zisserman的VGGNet進(jìn)一步提高了卷積神經(jīng)網(wǎng)絡(luò)在圖像分類(lèi)上的性能，并推動(dòng)了卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)進(jìn)一步向深度發(fā)展。

12. ResNet（2015）：He等人的ResNet通過(guò)引入跳躍連接，解決了深度神經(jīng)網(wǎng)絡(luò)的梯度消失問(wèn)題，使得網(wǎng)絡(luò)的深度能夠達(dá)到之前無(wú)法想象的程度。

13. 自注意力和Transformer（2017）：由Vaswani等人提出的Transformer模型引入了自注意力機(jī)制，這讓神經(jīng)網(wǎng)絡(luò)可以在更大的范圍內(nèi)建立依賴關(guān)系，為處理序列數(shù)據(jù)提供了新的框架。

顯然，我是用ChatGPT（GPT-4）完成了這一節(jié)的內(nèi)容。

人類(lèi)的大腦可以自己思考自己，雖然謎團(tuán)難解；

神經(jīng)網(wǎng)絡(luò)也能回憶自己的歷史，盡管它無(wú)法為那些為此進(jìn)程添磚加瓦的人類(lèi)而感動(dòng)。????????

四

Chris McCormick認(rèn)為，神經(jīng)網(wǎng)絡(luò)是純粹的數(shù)學(xué)。

從技術(shù)上講，“機(jī)器學(xué)習(xí)”模型在很大程度上基于統(tǒng)計(jì)數(shù)據(jù)。它們估計(jì)所有選項(xiàng)的概率，即使所有選項(xiàng)的正確概率都極低，它們?nèi)匀恢粫?huì)選擇概率最高的路徑。

神經(jīng)網(wǎng)絡(luò)的靈感來(lái)源于生物學(xué)，特別是人腦的工作原理，但其設(shè)計(jì)和操作基礎(chǔ)確實(shí)是數(shù)學(xué)，包括線性代數(shù)（用于數(shù)據(jù)和權(quán)重的表示和操作）、微積分（用于優(yōu)化算法，如梯度下降）和概率論（用于理解和量化不確定性）。

神經(jīng)網(wǎng)絡(luò)的每個(gè)部分都可以用數(shù)學(xué)表達(dá)式來(lái)描述，訓(xùn)練過(guò)程則是通過(guò)優(yōu)化數(shù)學(xué)目標(biāo)函數(shù)（損失函數(shù)）來(lái)學(xué)習(xí)模型參數(shù)的過(guò)程。

黃仁勛說(shuō)：“AI既是深度學(xué)習(xí)，也是一種解決難以指定的問(wèn)題的算法。這也是一種開(kāi)發(fā)軟件的新方法。想象你有一個(gè)任意維度的通用函數(shù)逼近器。”

在黃仁勛的比喻中，“通用函數(shù)逼近器”確實(shí)是對(duì)深度神經(jīng)網(wǎng)絡(luò)的一個(gè)精確且富有洞見(jiàn)的描述。這個(gè)比喻突出了深度神經(jīng)網(wǎng)絡(luò)的核心特性：它們可以學(xué)習(xí)并逼近任意復(fù)雜的函數(shù)映射，只要網(wǎng)絡(luò)足夠深，參數(shù)足夠多。

這種“函數(shù)逼近”的能力使得深度學(xué)習(xí)能夠應(yīng)對(duì)各種各樣的任務(wù)，從圖像分類(lèi)和語(yǔ)音識(shí)別到自然語(yǔ)言理解和生成，甚至是更復(fù)雜的任務(wù)，如游戲和決策制定。

只要我們有足夠的數(shù)據(jù)來(lái)訓(xùn)練這些模型，神經(jīng)網(wǎng)絡(luò)就能學(xué)習(xí)到這些任務(wù)背后的復(fù)雜模式——哪怕這些模式對(duì)人類(lèi)而言只是一個(gè)黑盒子。??

尤其在生成式模型（如ChatGPT）中，這種“函數(shù)逼近”的能力使得模型能夠生成富有創(chuàng)造性的輸出，如編寫(xiě)文章、創(chuàng)作詩(shī)歌或音樂(lè)等。

這些模型通過(guò)學(xué)習(xí)大量的數(shù)據(jù)，理解語(yǔ)言或音樂(lè)的規(guī)則，然后生成符合這些規(guī)則的新的創(chuàng)作

ChatGPT到底在做什么？為什么它能夠成功？

大神Wolfram對(duì)此解釋道：令人驚奇的是，ChatGPT嘗試寫(xiě)一篇文章時(shí)，基本上只是一次又一次地詢問(wèn)“在已有的文本基礎(chǔ)上，下一個(gè)單詞應(yīng)該是什么” ，然后每次都添加一個(gè)單詞。（更準(zhǔn)確地說(shuō)是一個(gè)token）

那么，是否每次都選取概率最大的那個(gè)單詞呢？??????

并非簡(jiǎn)單如此。

Wolfram告訴了我們ChatGPT如何靠概率來(lái)“寫(xiě)”出一篇文章：??

1. 每一步，ChatGPT都會(huì)生成一個(gè)帶有概率的單詞列表。

2. 但若總是選擇最高“概率”的單詞，通常會(huì)得到一篇非常“平淡”的文章。

3. 于是巫術(shù)出現(xiàn)了，有一個(gè)特定的所謂“溫度”參數(shù)，它控制了較低排名的單詞會(huì)被使用的頻率。

4. 對(duì)于文章生成，我們發(fā)現(xiàn)“溫度”為0.8效果最好。

概率和隨機(jī)性，再次顯示出神奇的魔力。

五

在微軟的報(bào)告里，研究者用GPT-4模擬了一段對(duì)話：

蘇格拉底：我的朋友，我對(duì)最近這些所謂自回歸語(yǔ)言模型的興起感到不安。

亞里士多德：你是什么意思，蘇格拉底？

蘇格拉底：我的意思是，這些模型被用來(lái)生成看起來(lái)是人類(lèi)寫(xiě)的文本，但實(shí)際上是由機(jī)器產(chǎn)生的。

亞里士多德：那有什么問(wèn)題呢？

蘇格拉底：?jiǎn)栴}是，這些模型被用來(lái)欺騙人們，操縱他們，控制他們。

亞里士多德：但這些模式肯定也有一些積極的應(yīng)用？

蘇格拉底：可能是這樣，但我仍然對(duì)濫用的可能性感到不安。畢竟，一個(gè)能夠生成與人類(lèi)所寫(xiě)的文字無(wú)法區(qū)分的模型可以被用來(lái)傳播假新聞，冒充他人，并制造宣傳。

亞里士多德：但這不只是一個(gè)如何使用這些模型的問(wèn)題，而不是模型本身的問(wèn)題嗎？

蘇格拉底：我不同意。我認(rèn)為這些模型本身就有問(wèn)題。它們是一種偽裝的形式，一種創(chuàng)造幻覺(jué)的方式，是人類(lèi)思想和互動(dòng)的一部分。因此，它們可以被用來(lái)以難以察覺(jué)的方式進(jìn)行欺騙和操縱。

亞里士多德：但這不正是你反對(duì)修辭和演說(shuō)的理由嗎？

蘇格拉底：是的，我也堅(jiān)持這個(gè)觀點(diǎn)。我相信，任何旨在欺騙或操縱的藝術(shù)或交流形式都是內(nèi)在的危險(xiǎn)。

亞里士多德：我明白了。謝謝你分享你的想法，蘇格拉底。

喬布斯曾經(jīng)設(shè)想過(guò)如上的對(duì)話，他預(yù)測(cè)有一天可以用計(jì)算機(jī)捕捉亞里士多德的底層世界觀，如此一來(lái)人們就可以和他親自對(duì)話了。

反對(duì)修辭和演說(shuō)的蘇格拉底認(rèn)為：感覺(jué)是不可靠的，感性認(rèn)識(shí)是不確定的，只有理性才能夠認(rèn)識(shí)事物本身。??

而在亞里士多德的方法里，他將修辭確定為哲學(xué)的三個(gè)關(guān)鍵要素之一。另外兩個(gè)則是邏輯和辯證法。

亞里士多德認(rèn)為，邏輯關(guān)注的是用推理達(dá)到科學(xué)確定性，而辯證法和修辭則關(guān)注概率。后者適用于人類(lèi)事務(wù)。

上面兩段文字我摘自網(wǎng)絡(luò)百科，雖無(wú)法確認(rèn)其原文與出處（尤其是概率那部分），卻令人拍手叫好。

然而，在隨后的年代里，亞里士多德的邏輯和確定性知識(shí)體系更大程度地影響了人類(lèi)。

人們信奉因果論和決定論，在牛頓的推動(dòng)下，世界仿佛是一個(gè)由無(wú)數(shù)個(gè)精密齒輪構(gòu)成的機(jī)器，在上帝的首次推動(dòng)下，持續(xù)有條不紊地運(yùn)轉(zhuǎn)著。

而另外一條線索亦在孕育之中。休謨的懷疑論和經(jīng)驗(yàn)主義徹底改變了人們的思想世界，他認(rèn)為感性知覺(jué)是認(rèn)識(shí)的唯一對(duì)象，人不可能超出知覺(jué)去解決知覺(jué)的來(lái)源問(wèn)題。

在休謨看來(lái)，客觀因果并不存在。????????

隨后康德試圖對(duì)理性主義和經(jīng)驗(yàn)主義進(jìn)行調(diào)和，他否認(rèn)客觀因果聯(lián)系，但主張用先天的理智范疇對(duì)雜亂的經(jīng)驗(yàn)進(jìn)行整理。??

馬赫則開(kāi)創(chuàng)了經(jīng)驗(yàn)批判主義，他強(qiáng)調(diào)直接討論觀測(cè)數(shù)據(jù)，科學(xué)定律只是被視為以最經(jīng)濟(jì)的方式對(duì)數(shù)據(jù)進(jìn)行描述的手段而已。

《科學(xué)推斷》一書(shū)認(rèn)為，他開(kāi)啟了現(xiàn)代方法論的主要進(jìn)展。

曾經(jīng)深受馬赫影響的愛(ài)因斯坦，無(wú)法接受這種對(duì)科學(xué)信仰的破壞性，以及對(duì)法則、公式、定律的輕視，后來(lái)與其分道揚(yáng)鑣。

愛(ài)因斯坦用探索性的演繹法建構(gòu)了邏輯嚴(yán)謹(jǐn)?shù)脑?，他相信宇宙有解，不相信鬼魅之力?/p>

某種意義上，愛(ài)因斯坦是最后的牛頓（除了用斯賓諾莎的“神”替代了上帝），是科學(xué)因果決定論的捍衛(wèi)者。??

1967年，波普爾對(duì)如上交織而漫長(zhǎng)的哲學(xué)歷程做了一個(gè)了結(jié)，他提出了三元世界的觀點(diǎn)，布爾金將其繪制如下：

這似乎是柏拉圖洞穴理論的現(xiàn)代版。

看看，人是多么無(wú)知，又是多么分裂?。?/p>

基于這樣的結(jié)構(gòu)，波普爾提出：我們無(wú)法證實(shí)這個(gè)世界，無(wú)法證實(shí)規(guī)律和定理，只能去證偽。

六

也許你還記得上一代的老式人工智能——深藍(lán)。龐大的機(jī)器，手工制作無(wú)盡的代碼，多名參與其中的職業(yè)棋手，以及暴力算法，雖然打敗了卡斯帕羅夫，卻如流星般閃過(guò)。

《麻省理工科技評(píng)論》將深藍(lán)形容為恐龍，而這一代的神經(jīng)網(wǎng)絡(luò)（尤其是深度學(xué)習(xí)）則是生存且改變地球的小哺乳動(dòng)物。

上世紀(jì)50年代，香農(nóng)曾經(jīng)樂(lè)觀地預(yù)測(cè)AI將很快出現(xiàn)，事實(shí)并非如此。失敗的主要原因是：

人工智能的創(chuàng)造者們?cè)噲D用純粹的邏輯來(lái)處理日常生活中的混亂，他們會(huì)耐心地為人工智能需要做的每一個(gè)決定都制定一條規(guī)則。但是，由于現(xiàn)實(shí)世界過(guò)于模糊和微妙，無(wú)法以刻板的方式進(jìn)行管理。

我們無(wú)法像是依照牛頓的原理造車(chē)般，用發(fā)條思維和專(zhuān)家系統(tǒng)來(lái)打造智能系統(tǒng)。那一類(lèi)AI不僅狹窄，而且脆弱。

ChatGPT是經(jīng)驗(yàn)主義的進(jìn)化論的“勝利產(chǎn)物”。

經(jīng)驗(yàn)主義亦稱(chēng)“經(jīng)驗(yàn)論”。作為一種認(rèn)識(shí)論學(xué)說(shuō)，與“理性主義”相對(duì)。經(jīng)驗(yàn)主義認(rèn)為感性經(jīng)驗(yàn)是知識(shí)的來(lái)源，一切知識(shí)都通過(guò)經(jīng)驗(yàn)而獲得，并在經(jīng)驗(yàn)中得到驗(yàn)證。

這正是ChatGPT的思考和學(xué)習(xí)路徑。

而虛擬進(jìn)化又指數(shù)級(jí)放大了基于經(jīng)驗(yàn)的學(xué)習(xí)速度。在波普爾看來(lái)，科學(xué)發(fā)展本身就是一種進(jìn)化。

ChatGPT不僅從時(shí)間的角度加速模擬了進(jìn)化，還通過(guò)大模型從空間的角度拓展了可能性之廣度，以至于令人們禁不住又驚又喜地探討起涌現(xiàn)。

那么，人工智能是如何思考的？又是如何決策的？??

有別于齒輪般的演繹推理，我們需要借助概率在證據(jù)和結(jié)論之間建立起聯(lián)系。????

AI的任務(wù)是做決策，在不確定性下結(jié)合信念與愿望，選擇動(dòng)作。

在《人工智能：現(xiàn)代方法》中如此描述：

由于部分可觀測(cè)性、非確定性和對(duì)抗者的存在，真實(shí)世界中的智能體需要處理不確定性(uncertainty)。智能體可能永遠(yuǎn)都無(wú)法確切地知道它現(xiàn)在所處的狀態(tài)，也無(wú)法知道一系列動(dòng)作之后結(jié)束的位置。

此外，智能體的正確的動(dòng)作——理性決策，既依賴各種目標(biāo)的相對(duì)重要性，也依賴它們實(shí)現(xiàn)的可能性和程度。

為了進(jìn)行不確定推理，我們需要引入信念度，例如牙痛患者有80%的概率存在蛀牙。

???概率論提供了一種概括因我們的惰性與無(wú)知而產(chǎn)生的不確定性的方式。

除了概率，智能體在做決策時(shí)還需要一個(gè)概念：效用理論。?

例如，你要去機(jī)場(chǎng)，假如提前90分鐘出發(fā)，趕上飛機(jī)的概率是95%；提早120分鐘出發(fā)，概率提升至97%。??????

那么，是不是應(yīng)該越早越高，追求趕上飛機(jī)的最大概率呢？如此一來(lái)，你可能要提前一天或者更早住在機(jī)場(chǎng)了。??????

大多數(shù)時(shí)候不必如此，但假如你有一個(gè)無(wú)法錯(cuò)過(guò)的會(huì)議，或者要趕國(guó)際航班，提早一天住到機(jī)場(chǎng)，可能是最佳決策。萬(wàn)豪酒店最早就是靠洞察到商務(wù)人士的這一需求而崛起的。????

由此，我們得出決策論的通用理論：??決策論=概率論+效用理論。

以上的現(xiàn)代方法，離不開(kāi)兩個(gè)未曾謀面的古代敵手。

七

在諸多反對(duì)休謨的人當(dāng)中，貝葉斯也許是最重要的一位。

當(dāng)休謨斬?cái)嗔艘蚬g的必然聯(lián)系時(shí)，最?lèi)阑鸬哪^(guò)于教會(huì)，因?yàn)樯系垡恢北灰暈橐蚬牡谝煌苿?dòng)力。??????

一個(gè)人往往要到了一定歲數(shù)，才能夠理解休謨的哲學(xué)。尤其是我們這些從小接受確定性訓(xùn)練的人。

邏輯推理的基本形式是：如果A，則B。

休謨則說(shuō)，如上這類(lèi)推理要么是幻覺(jué)，要么是胡說(shuō)八道，要么是自圓其說(shuō)。

據(jù)說(shuō)虔誠(chéng)且又擅長(zhǎng)數(shù)學(xué)的牧師貝葉斯是為了反駁休謨，而研究出了貝葉斯公式。???

一個(gè)神奇的結(jié)局出現(xiàn)了：

貝葉斯公式反而成為了休謨哲學(xué)的現(xiàn)實(shí)解藥，將其大刀斬?cái)嗟囊蚬媚娓怕实膽覙蜻B接了起來(lái)。?????????

概率，將邏輯推理的形式修正為：如果A，則有x%的可能性導(dǎo)致B。??

而貝葉斯公式，則完成了一個(gè)小小的（卻產(chǎn)生了無(wú)法估量的巨大影響）由果推因的顛倒：

如果觀察到B，則有x%的可能性是因?yàn)锳導(dǎo)致。

如此一來(lái)，被休謨懷疑的世界，繼續(xù)晃晃悠悠地構(gòu)建出更為龐大繁復(fù)的、以概率關(guān)聯(lián)的因果網(wǎng)絡(luò)。??????????????

假如貝葉斯試圖反擊休謨的動(dòng)機(jī)是真的，就為“要愛(ài)惜你的對(duì)手”添加了有力論據(jù)。???

讓我們用一個(gè)簡(jiǎn)單的貝葉斯計(jì)算，來(lái)看看智能體如何學(xué)習(xí)經(jīng)驗(yàn)。????

題目：黑盒子里有兩個(gè)骰子，一個(gè)是正常骰子，扔出數(shù)字6的概率是1/6；一個(gè)是作弊骰子，扔出數(shù)字6的概率是1/2。????????

這時(shí)，你從中摸出一個(gè)骰子，扔了一次，得到一個(gè)6。??

請(qǐng)問(wèn)：你再扔一次這個(gè)未知的骰子，得到6的概率是多大？

計(jì)算的第一步，是計(jì)算這個(gè)骰子是正常骰子和作弊骰子的概率分別是多大。

請(qǐng)?jiān)试S我跳過(guò)貝葉斯公式快速計(jì)算如下。????????

是正常骰子的概率為：1/6÷（1/6+1/2）=1/4??????。

是作弊骰子的概率為：1/2÷（1/6+1/2）=3/4。

計(jì)算的第二步，更新這個(gè)骰子的信息。原來(lái)的概率是各1/2，但現(xiàn)在分別是1/4和3/4。??

那么，再扔一次，得到6的概率就是：1/4×1/6+3/4×1/2=5/12。?

從本質(zhì)層面理解如上這個(gè)簡(jiǎn)單的計(jì)算并不是容易的事情：

兩次扔骰子都是獨(dú)立事件，為什么第一次扔骰子得到6的概率和第二次的概率不一樣？

貝葉斯概率的解釋是，第一次扔骰子得到6的這一結(jié)果，作為信息，更新了我們對(duì)第二次扔骰子得到6的概率的判斷。

疑惑的人會(huì)繼續(xù)問(wèn)：骰子沒(méi)有記憶，為什么第一次的結(jié)果會(huì)“改變”第二次結(jié)果呢？?

答案是：沒(méi)有改變結(jié)果，只是改變了“信念”。

即使扔了兩次骰子，我們依然不知道這個(gè)骰子是正常的還是作弊的，但我們可以帶著這種不確定性向前走，為此需要“猜”這個(gè)骰子是正常還是作弊的概率。這個(gè)概率，就是信念。???????

根據(jù)信息的變化，快速更新，體現(xiàn)了某種達(dá)爾文式的進(jìn)化。????

從這個(gè)角度看，AI推理起初或許弱小含混，卻有主動(dòng)適應(yīng)性，從經(jīng)驗(yàn)中不斷學(xué)習(xí)，并快速演化。

以本題為例：第二次扔骰子，從第一次骰子的結(jié)果中學(xué)習(xí)了經(jīng)驗(yàn)，從而令預(yù)測(cè)更加精確。

這個(gè)過(guò)程還可以不斷重復(fù)，如同發(fā)動(dòng)機(jī)般，從而產(chǎn)生了決策和智能的杠桿效應(yīng)。

如前所述，亞里士多德曾經(jīng)認(rèn)為，修辭和概率等不確定性元素，應(yīng)該應(yīng)用于人類(lèi)社會(huì)。而在自然科學(xué)和數(shù)學(xué)領(lǐng)域，則是邏輯推理（尤其是數(shù)學(xué)邏輯）的陣地。??

而如今，確定世界已經(jīng)成為不確定世界，絕對(duì)真理也被或然真理替代。??

于是，概率不僅成為“真理”的懸梯，甚至成為真理本身。???

《人工智能：現(xiàn)代方法》寫(xiě)道，世界就是這樣，實(shí)際示范有時(shí)比證明更有說(shuō)服力?；诟怕收摰耐茢嘞到y(tǒng)的成功要比哲學(xué)論證更容易改變?nèi)说挠^點(diǎn)。

就像兩個(gè)人就不同的觀點(diǎn)爭(zhēng)論，一種辦法是講道理，講邏輯；還有一種辦法是：?????我們先下個(gè)注，然后試著跑跑看唄。??

OpenAI早期投資人里德·霍夫曼在嘗試將GPT-4應(yīng)用于工作中時(shí)，發(fā)現(xiàn)了以下三個(gè)關(guān)鍵原則。

原則1：將GPT-4視為本科生水平的研究助手，而非無(wú)所不知的預(yù)言家。

原則2：把自己當(dāng)作導(dǎo)演，而非木匠。

原則3：勇敢嘗試！

多么有趣的建議啊，我們從中看見(jiàn)了《園丁與木匠》與《自下而上》的智慧：

在大部分工作中，我們習(xí)慣于提前計(jì)劃，力求避免失誤。這是因?yàn)閳?zhí)行計(jì)劃在時(shí)間和其他資源上都耗費(fèi)巨大，“三思而后行”的說(shuō)法指的就是這種情況。

但如果實(shí)施計(jì)劃比思考它更加省時(shí)省力呢？

霍夫曼認(rèn)為這正是GPT-4及大語(yǔ)言模型令人費(fèi)解的悖論所在。

既然如此，正確的做法是：

1. 在比討論制訂計(jì)劃更短的時(shí)間里，GPT-4能為你生成一個(gè)完整的回應(yīng)供你審閱。

2. 如果你對(duì)回應(yīng)不滿意，可以直接丟棄并嘗試生成另一個(gè)。?3

3. 或者一次性生成多個(gè)版本，獲得更多選擇。

我們已經(jīng)來(lái)到了一個(gè)“三行而后思”的“強(qiáng)化學(xué)習(xí)”時(shí)代。

?????????

八

在《人工通用智能的火花：GPT-4的早期實(shí)驗(yàn)》的報(bào)告里，微軟實(shí)驗(yàn)室如此表述：??

“我們過(guò)去幾年，人工智能研究中最顯著的突破是大型語(yǔ)言模型（LLMs）在自然語(yǔ)言處理方面取得的進(jìn)展。這些神經(jīng)網(wǎng)絡(luò)模型基于Transformer架構(gòu)，并在大規(guī)模的網(wǎng)絡(luò)文本數(shù)據(jù)體上進(jìn)行訓(xùn)練，其核心是使用一個(gè)自我監(jiān)督的目標(biāo)來(lái)預(yù)測(cè)部分句子中的下一個(gè)單詞?！?/p>

ChatGPT是位“語(yǔ)言游戲”的高手，用的是神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)。

這與傳統(tǒng)的語(yǔ)言，以及邏輯語(yǔ)言，都不一樣。

羅素曾經(jīng)試圖構(gòu)建一套邏輯語(yǔ)言，想從少數(shù)的邏輯公理中，推演出數(shù)學(xué)。

他提出了自己的邏輯原子主義，試圖消除那些形而上語(yǔ)言的混亂，以邏輯語(yǔ)言和我們的現(xiàn)實(shí)世界一一對(duì)應(yīng)。

在與羅素的相互影響下，維特根斯坦認(rèn)為哲學(xué)的所有問(wèn)題其實(shí)就是語(yǔ)言問(wèn)題，從而推動(dòng)了哲學(xué)的語(yǔ)言轉(zhuǎn)向。

一種西方哲學(xué)史觀點(diǎn)認(rèn)為：古代哲學(xué)關(guān)注本體論，近代哲學(xué)關(guān)注認(rèn)識(shí)論，20世紀(jì)哲學(xué)關(guān)注語(yǔ)言學(xué)問(wèn)題。

那么，作為“系統(tǒng)地從語(yǔ)言來(lái)思考世界的第一人”，維特根斯坦與羅素有何不同？

陳嘉映的論斷是：羅素從本體論來(lái)思考語(yǔ)言的本質(zhì)，維特根斯坦則一直從語(yǔ)言的本質(zhì)來(lái)構(gòu)想本體論。

也許我們能從羅素給情人奧托林·莫雷爾夫人一封信里，發(fā)現(xiàn)維特根斯坦哲學(xué)上的某些經(jīng)驗(yàn)主義線索：

“我們這位德國(guó)工程師啊，我認(rèn)為他是個(gè)傻瓜。他認(rèn)為沒(méi)有什么經(jīng)驗(yàn)性的東西是可知的——我讓他承認(rèn)房間里沒(méi)有一頭犀牛，但他不肯。”

和每個(gè)天才一樣，維特根斯坦卓絕，但也疑惑。

再說(shuō)回ChatGPT，它懂語(yǔ)言嗎？如同《天才與算法》一書(shū)的設(shè)問(wèn)：

機(jī)器可以在不理解語(yǔ)言或不接觸周?chē)锢硎澜绲那闆r下，生成有意義的句子，甚至是美的句子嗎？

老派的AI，試圖采用羅素的方法。這類(lèi)模型認(rèn)為：

“理性和智能是深度的、多步驟的推理，由一個(gè)串行過(guò)程指揮，并由一個(gè)或幾個(gè)線程組成，使用少量的信息，由少量的強(qiáng)相關(guān)變量來(lái)表達(dá)信息?！?/p>

對(duì)比而言，“現(xiàn)代的機(jī)器學(xué)習(xí)模式由淺（少步）推理組成，使用大量信息的大規(guī)模并行處理，并涉及大量弱相關(guān)變量?！?/p>

一個(gè)有趣的來(lái)描述二者對(duì)比的例子是，電影《模仿游戲》里的圖靈，炒掉了自己的密碼破解小組里的語(yǔ)言學(xué)專(zhuān)家。

《人工智能：現(xiàn)代方法》認(rèn)為，純粹的數(shù)據(jù)驅(qū)動(dòng)的模型，對(duì)比基于“文法、句法分析和語(yǔ)義解釋”的手工構(gòu)建方法，更容易開(kāi)發(fā)和維護(hù)，并且在標(biāo)準(zhǔn)的基準(zhǔn)測(cè)試中得分更高。

該書(shū)作者還提及：

可能是Transformer及其相關(guān)模型學(xué)習(xí)到了潛在的表征，這些表征捕捉到與語(yǔ)法和語(yǔ)義信息相同的基本思想，也可能是在這些大規(guī)模模型中發(fā)生了完全不同的事情，但我們根本不知道。

未必那么精確的類(lèi)比是：AI如孩子般學(xué)習(xí)語(yǔ)言。這正是當(dāng)年圖靈所設(shè)想的：

有一個(gè)孩子般的大腦，然后去學(xué)習(xí)。而非一開(kāi)始就設(shè)計(jì)一個(gè)成年人的大腦。????

孩子不懂語(yǔ)法構(gòu)建，也沒(méi)有成熟的邏輯，也遠(yuǎn)沒(méi)有成年人那樣有主動(dòng)的刻意練習(xí)?？墒窍胂肟?，成年人學(xué)習(xí)語(yǔ)言的效率，與孩子對(duì)比，是不是爛到渣？

我不禁聯(lián)想起一個(gè)對(duì)教育的嘲諷：天生就是語(yǔ)言學(xué)習(xí)天才的孩子，卻要在一輩子都學(xué)不好一門(mén)語(yǔ)言的成年人的指導(dǎo)下學(xué)習(xí)語(yǔ)言。

讓我們來(lái)看看，AI如何像一個(gè)孩子般，天才般地學(xué)習(xí)。

九

神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)經(jīng)歷了并不算短暫的黑暗期。

從上世紀(jì)80年代開(kāi)始的整整30年間，只有很少一部分相關(guān)研究者義無(wú)反顧地投身其間，他們飽受懷疑，也幾乎拿不到科研經(jīng)費(fèi)。????????????????

也許是由于這個(gè)原因，深度學(xué)習(xí)三巨頭辛頓（Hinton）、本吉奧（Bengio）、楊立昆（LeCun）似乎都和加拿大有些關(guān)系，他們退守在那里研究、教學(xué)、讀書(shū)。這倒是很符合那個(gè)“傻國(guó)家”的氣質(zhì)。

一個(gè)讓人“心酸”的細(xì)節(jié)是，2012年辛頓帶著學(xué)生在ImageNet圖像識(shí)別比賽上拿了冠軍，商業(yè)公司蜂擁而至。辛頓教授開(kāi)出的商業(yè)報(bào)價(jià)，只是區(qū)區(qū)100萬(wàn)美元。（后來(lái)谷歌以4400萬(wàn)美元“中標(biāo)”。）

“老派”AI，使用明確的一步步指令指引計(jì)算機(jī)，而深度學(xué)習(xí)則使用學(xué)習(xí)算法從數(shù)據(jù)中提取輸入數(shù)據(jù)與期望輸出的關(guān)聯(lián)模式，正如上一節(jié)的演示。

眾所周知，漫漫長(zhǎng)夜之后，隨著人類(lèi)計(jì)算機(jī)算力和數(shù)據(jù)的指數(shù)級(jí)增長(zhǎng)，深度學(xué)習(xí)一飛沖天，從阿爾法狗一戰(zhàn)封神，再到ChatGPT征服全球。????

為什么是Open AI，而不是DeepMind？我對(duì)此略有好奇。

OpenAI的聯(lián)合創(chuàng)始人兼首席科學(xué)家伊利亞·薩特斯基弗，是辛頓在多倫多大學(xué)帶的學(xué)生。他似乎延續(xù)了辛頓對(duì)深度學(xué)習(xí)的信仰，并且勇于全力下注。????

辛頓認(rèn)為“深度學(xué)習(xí)足以復(fù)制人類(lèi)所有的智力”，將無(wú)所不能，只要有更多概念上的突破。例如Transformers利用向量來(lái)表示詞義的概念性突破。

此外，還要大幅度增加規(guī)模，包括神經(jīng)網(wǎng)絡(luò)規(guī)模和數(shù)據(jù)規(guī)模。例如，人腦大約有100萬(wàn)億個(gè)參數(shù)，是真正的巨大模型。而GPT-3有1750億個(gè)參數(shù)，約比大腦小一千倍。

神經(jīng)網(wǎng)絡(luò)模仿了人類(lèi)的優(yōu)勢(shì)：處理有大量參數(shù)的少量數(shù)據(jù)。但人類(lèi)在這方面做得更好，而且節(jié)能許多倍。

先行一步的DeepMInd，其發(fā)展方向和速度，除了陷入與谷歌的“商業(yè)VS科研”的兩難糾纏，還不可避免地受到哈薩比斯的AI哲學(xué)觀的影響。

哈薩比斯認(rèn)為不管是ChatGPT，還是自家的Gopher，盡管可以幫你寫(xiě)作，為你繪畫(huà)，“有一些令人印象深刻的模仿”，但AI“仍然不能真正理解它在說(shuō)什么”。

所以，他說(shuō)：“（這些）不是真正的意義上的（智能）?！?/p>

哈薩比斯的老師，MIT的Poggio教授更尖銳地指出：深度學(xué)習(xí)有點(diǎn)像這個(gè)時(shí)代的“煉金術(shù)”，但是需要從“煉金術(shù)”轉(zhuǎn)化為真正的化學(xué)。

楊立昆反對(duì)煉金術(shù)的說(shuō)法，但他也認(rèn)為要探究智能與學(xué)習(xí)的本質(zhì)。人工神經(jīng)元受到腦神經(jīng)元的直接啟發(fā)，不能僅僅復(fù)制大自然。

他的觀點(diǎn)大概是，工程學(xué)實(shí)現(xiàn)了的東西，也只有通過(guò)科學(xué)打開(kāi)黑盒子，才能走得更遠(yuǎn)。??????????????

“我認(rèn)為，我們必須探究智能和學(xué)習(xí)的基礎(chǔ)原理，不管這些原理是以生物學(xué)的形式還是以電子的形式存在。正如空氣動(dòng)力學(xué)解釋了飛機(jī)、鳥(niǎo)類(lèi)、蝙蝠和昆蟲(chóng)的飛行原理，熱力學(xué)解釋了熱機(jī)和生化過(guò)程中的能量轉(zhuǎn)換一樣，智能理論也必須考慮到各種形式的智能?！?/p>

幾年前，巔峰時(shí)刻的哈薩比斯就表達(dá)過(guò)，僅靠神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)，無(wú)法令人工智能走得更遠(yuǎn)。

類(lèi)似的反思，也發(fā)生于貝葉斯網(wǎng)絡(luò)之父Judea Pearl身上。

他說(shuō)，機(jī)器學(xué)習(xí)不過(guò)是在擬合數(shù)據(jù)和概率分布曲線。變量的內(nèi)在因果關(guān)系不僅沒(méi)有被重視，反而被刻意忽略和簡(jiǎn)化。

簡(jiǎn)單來(lái)說(shuō)，就是：重視相關(guān)，忽視因果。?????

在Pearl看來(lái)，如果要真正解決科學(xué)問(wèn)題，甚至開(kāi)發(fā)具有真正意義智能的機(jī)器，因果關(guān)系是必然要邁過(guò)的一道坎。????????

不少科學(xué)家有類(lèi)似的觀點(diǎn)，認(rèn)為應(yīng)該給人工智能加上常識(shí)，加上因果推理的能力，加上了解世界事實(shí)的能力。所以，解決方案也許是“混合模式”--用神經(jīng)網(wǎng)絡(luò)結(jié)合老式的手工編碼邏輯。?????????

辛頓對(duì)此頗為不屑，一方面他堅(jiān)信神經(jīng)網(wǎng)絡(luò)完全可以有推理能力，畢竟大腦就是類(lèi)似的神經(jīng)網(wǎng)絡(luò)。另一方面，他認(rèn)為加入手工編碼的邏輯很蠢：

它會(huì)遇到所有專(zhuān)家系統(tǒng)的問(wèn)題，那就是你永遠(yuǎn)無(wú)法預(yù)測(cè)你想要給機(jī)器的所有常識(shí)。

AI真的需要那些人類(lèi)概念嗎？阿爾法狗早已證明，所謂棋理和定式只是多余的夾層解釋而已。????????

關(guān)于AI是否真正“理解”，真正“懂得”，真正有“判斷力”，辛頓以“昆蟲(chóng)識(shí)別花朵”為例：

“昆蟲(chóng)可以看到紫外線，而人類(lèi)不能，所以在人類(lèi)看來(lái)一模一樣的兩朵花，在昆蟲(chóng)眼中卻可能截然不同。那么能不能說(shuō)昆蟲(chóng)判斷錯(cuò)誤了呢？昆蟲(chóng)通過(guò)不同的紫外線信號(hào)識(shí)別出這是兩朵不同的花，顯然昆蟲(chóng)沒(méi)有錯(cuò)，只是人類(lèi)看不到紫外線，所以不知道有區(qū)別而已。”

我們說(shuō)AI“不懂”什么，會(huì)不會(huì)是過(guò)于以人類(lèi)為中心了？

假如我們認(rèn)為AI沒(méi)有可解釋性，算不上智能，可會(huì)不會(huì)是即使AI解釋了，我們也不懂？就像“人類(lèi)只有借助機(jī)器檢測(cè)，看到兩朵花的顏色信號(hào)在電磁波譜上分屬不同區(qū)域，才能確信兩朵花確有不同。”

從十幾歲開(kāi)始，就相信“模仿大腦神經(jīng)網(wǎng)絡(luò)”的辛頓，仿佛有某種宗教式的堅(jiān)定。

于是，在某個(gè)路口，哈薩比斯略有遲疑，而伊利亞·薩特斯基弗則和辛頓一路向前，豪賭到底。

辛頓的人生哲學(xué)是“基于信仰的差異化”，他的確也是如此實(shí)踐的。

如今，盡管哈薩比斯認(rèn)為ChatGPT僅僅是更多的計(jì)算能力和數(shù)據(jù)的蠻力，但他也不得不承認(rèn)，這是目前獲得最佳結(jié)果的有效方式。

十

對(duì)AI路線的分歧，不過(guò)是一百多年來(lái)某類(lèi)科學(xué)暗涌的延續(xù)。???????????

相當(dāng)長(zhǎng)的歲月里，在大雪紛飛的多倫多，辛頓幾乎是深度學(xué)習(xí)唯一的守夜人。

他本科在劍橋大學(xué)讀生理學(xué)和物理學(xué)，其間轉(zhuǎn)向哲學(xué)，拿的是心理學(xué)學(xué)士學(xué)位，后來(lái)再讀了人工智能博士學(xué)位。

辛頓等人在統(tǒng)計(jì)力學(xué)中得到靈感，于1986 年提出的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)玻爾茲曼機(jī)，向有隱藏單元的網(wǎng)絡(luò)引入了玻爾茲曼機(jī)器學(xué)習(xí)算法。

如下圖，所有節(jié)點(diǎn)之間的連線都是雙向的。所以玻爾茲曼機(jī)具有負(fù)反饋機(jī)制，節(jié)點(diǎn)向相鄰節(jié)點(diǎn)輸出的值會(huì)再次反饋到節(jié)點(diǎn)本身。

玻爾茲曼機(jī)在神經(jīng)元狀態(tài)變化中引入了統(tǒng)計(jì)概率，網(wǎng)絡(luò)的平衡狀態(tài)服從玻爾茲曼分布，網(wǎng)絡(luò)運(yùn)行機(jī)制基于模擬退火算法。

玻爾茲曼機(jī)。圖片來(lái)自《圖解人工智能》一書(shū)。

從香農(nóng)，再到辛頓，他們都從玻爾茲曼那里獲得了巨大的靈感。

將“概率”引入物理學(xué)，看起來(lái)非常奇怪。??

人類(lèi)直到19世紀(jì)之后，才知道“熱”是物體內(nèi)部大量分子的無(wú)規(guī)則運(yùn)動(dòng)的表現(xiàn)。那么，為什么熱量總從熱的物體傳到冷的物體？?????

玻爾茲曼說(shuō)，原子（分子）完全是隨機(jī)運(yùn)動(dòng)的。并非是熱量無(wú)法從冷的物體傳到熱的物體，只是因?yàn)椋?

從統(tǒng)計(jì)學(xué)的角度看，一個(gè)快速運(yùn)動(dòng)的熱物體的原子更有可能撞上一個(gè)冷物體的原子，傳遞給它一部分能量；而相反過(guò)程發(fā)生的概率則很小。在碰撞的過(guò)程中能量是守恒的，但當(dāng)發(fā)生大量偶然碰撞時(shí)，能量?jī)A向于平均分布。

這其中，沒(méi)有物理定律，只有統(tǒng)計(jì)概率。這看起來(lái)非?；闹嚒??

堅(jiān)定的科學(xué)主義者費(fèi)曼，后來(lái)也提出“概率振幅”，用來(lái)描述物理世界的本質(zhì)。

對(duì)此，費(fèi)曼解釋道：這是不是意味著物理學(xué)——一門(mén)極精確的學(xué)科——已經(jīng)退化到“只能計(jì)算事件的概率，而不能精確地預(yù)言究竟將要發(fā)生什么”的地步了呢？是的！這是一個(gè)退卻！但事情本身就是這樣的：

自然界允許我們計(jì)算的只是概率，不過(guò)科學(xué)并沒(méi)就此垮臺(tái)。

事實(shí)上，羅素也主張因果關(guān)系的概然性，認(rèn)為一切規(guī)律皆有例外，所以他也不贊成嚴(yán)格的決定論。?

也許是因?yàn)槎汲钟小白韵露稀钡氖澜缬^，玻爾茲曼喜歡達(dá)爾文，他在一次講座中宣稱(chēng)：?????????

“如果你問(wèn)我內(nèi)心深處的信念，我們的世紀(jì)將被稱(chēng)為鋼鐵世紀(jì)還是蒸汽或電的世紀(jì)呢？我會(huì)毫不猶豫地回答：它將被稱(chēng)為機(jī)械自然觀的世紀(jì)，達(dá)爾文的世紀(jì)。”

對(duì)達(dá)爾文的自然選擇理論，玻爾茲曼認(rèn)識(shí)到，生物之間通過(guò)資源競(jìng)爭(zhēng)展開(kāi)“一種使熵最小化的戰(zhàn)斗”，生命是通過(guò)捕獲盡可能多的可用能量來(lái)使熵降低的斗爭(zhēng)。

和生命系統(tǒng)一樣，人工智能也是能夠自動(dòng)化實(shí)現(xiàn)“熵減”的系統(tǒng)。??

生命以“負(fù)熵”為食，人工智能系統(tǒng)則消耗算力和數(shù)據(jù)。?

楊立昆估算，需要10萬(wàn)個(gè)GPU才能接近大腦的運(yùn)算能力。一個(gè)GPU的功率約為250瓦，而人類(lèi)大腦的功率大約僅為25瓦。

這意味著硅基智能的效率是碳基智能的一百萬(wàn)分之一。

所以，辛頓相信克服人工智能局限性的關(guān)鍵，在于搭建“一個(gè)連接計(jì)算機(jī)科學(xué)和生物學(xué)的橋梁”。

十一

達(dá)·芬奇曾說(shuō)過(guò)：“簡(jiǎn)單是終極的復(fù)雜?！?/p>

牛頓那一代相信上帝的科學(xué)家，認(rèn)為神創(chuàng)造這個(gè)世界時(shí)，一定運(yùn)用了規(guī)則。

他們只管去發(fā)現(xiàn)規(guī)則，而不必在意暫時(shí)的不可理解。例如，萬(wàn)有引力公式為什么長(zhǎng)成那樣？為什么要和距離的平方成反比？

另一方面，牛頓們信奉?yuàn)W卡姆剃刀的原則，認(rèn)為世界的模型基于某些簡(jiǎn)潔的公式。他們至少相信存在某個(gè)這樣的公式，從愛(ài)因斯坦到霍金，莫不如是。

然而在不確定性時(shí)代，概率似乎比決定論派更能解釋這個(gè)世界。牛頓式的確定退縮到了有限的領(lǐng)域。

也許費(fèi)曼是對(duì)的，科學(xué)家是在用一個(gè)篩網(wǎng)檢驗(yàn)這個(gè)世界，某些時(shí)刻似乎所有的現(xiàn)象都能通過(guò)篩孔，但如今我們知道多么完備的科學(xué)都只是暫時(shí)的解釋?zhuān)皇菚簳r(shí)未被證偽的篩網(wǎng)。但這并不影響我們向前。

還有一種哲學(xué)認(rèn)為，世界本身就是在為自己建模。試圖用一個(gè)大一統(tǒng)理論解釋世界幾乎是不可能的，更何況宇宙還在繼續(xù)膨脹。

從以上有趣但略顯含混的角度看，ChatGPT是用一種反愛(ài)因斯坦的方式為世界建模。它有如下特點(diǎn)：

1. 是概率的，而非因果的；

2. 盡可能地去模擬人類(lèi)世界這一“大模型”，從經(jīng)驗(yàn)中學(xué)習(xí)和進(jìn)化，而非去探尋第一原理；

3. 它信奉（至少暫時(shí)如此）“復(fù)雜是終極的簡(jiǎn)單”；

4. 它驅(qū)逐了神，因?yàn)樗约涸絹?lái)越像一個(gè)神。

AI和人類(lèi)別的熱鬧事物一樣，經(jīng)常會(huì)有周期性的熱潮。

上一波是2016年，熱起來(lái)，然后又慢慢靜下來(lái)。

七年過(guò)去了，AI再次熱起來(lái)。OpenAI照例沒(méi)有打開(kāi)“黑盒子”，卻帶來(lái)了影響力更為廣泛的浪潮。

這一次，廣泛性似乎戰(zhàn)勝了專(zhuān)業(yè)性。人們似乎更關(guān)注那個(gè)會(huì)畫(huà)畫(huà)的、可能替代自己摸魚(yú)的AI，而不是那個(gè)能戰(zhàn)勝世界冠軍、能研究蛋白質(zhì)折疊解決人類(lèi)頂尖難題的AI。

這其中有多少是工程的突破和技術(shù)的飛躍？有多少是商業(yè)驅(qū)動(dòng)下的大力出奇跡？有多少是人類(lèi)社會(huì)慣常的泡沫？

毋庸置疑，人類(lèi)過(guò)往的偉大突破，不少都是在多種理性和非理性力量的交織之下實(shí)現(xiàn)的。

這里面的機(jī)會(huì)是：

1. 賣(mài)水者。如英偉達(dá)，Scale AI等。

2. 新平臺(tái)的出現(xiàn)。會(huì)有超級(jí)應(yīng)用突破微軟和谷歌等巨頭無(wú)敵的新瓶裝老酒嗎？

3. 新平臺(tái)既有通過(guò)生產(chǎn)力的提升創(chuàng)造的新價(jià)值空間，如各種全新的產(chǎn)品和服務(wù)，也有對(duì)舊有價(jià)值空間的掠奪。

4. 也許會(huì)有iPhone的顛覆者，以及圍繞其展開(kāi)的各種應(yīng)用和服務(wù)。

5. AI會(huì)成為基礎(chǔ)設(shè)施。

但是，水和電成為基礎(chǔ)設(shè)施，互聯(lián)網(wǎng)成為基礎(chǔ)設(shè)施，與AI成為基礎(chǔ)設(shè)施，絕非簡(jiǎn)單的類(lèi)比或升級(jí)。

大概的趨勢(shì)也許是，商業(yè)上的壟斷與兩極分化會(huì)更加殘酷。職業(yè)上，或許中間階層會(huì)更加無(wú)望。

6. 因?yàn)锳I極其耗電，能源領(lǐng)域大有可為。

7. “場(chǎng)景”和“應(yīng)用”會(huì)有機(jī)遇。尤其是那些能夠較好地利用AI平臺(tái)實(shí)現(xiàn)人機(jī)結(jié)合的場(chǎng)景與應(yīng)用。

8. 對(duì)個(gè)體而言，我們要問(wèn)的是，AI還需要人類(lèi)充當(dāng)新基礎(chǔ)設(shè)施和新系統(tǒng)的類(lèi)似于“操作員、司機(jī)、程序員、快遞員”的新時(shí)代角色嗎？?????????????

十二

人工智能的變遷，幾乎對(duì)應(yīng)著人類(lèi)認(rèn)知世界的變遷結(jié)構(gòu)。

從確定性到不確定性，從物理定律到統(tǒng)計(jì)概率，物理和信息交匯于“熵”，并以類(lèi)似的達(dá)爾文觀念，進(jìn)化出有生命的熵減系統(tǒng)。

在這個(gè)愈發(fā)茫然的世界里，AI在疫情后時(shí)代獲得了世人額外的關(guān)切。

諸神已被人類(lèi)背棄，算法用強(qiáng)大而未知的相關(guān)性替代了神秘主義和因果霸權(quán)，仿佛成為新神。

真實(shí)與信念，確定與隨機(jī)，意識(shí)與虛無(wú)，再次于大眾的狂歡之中，對(duì)峙在時(shí)代的斷崖邊緣。

從樂(lè)觀的角度看，牛頓的信徒和達(dá)爾文的信徒也許可以攜手，借助于尚不知進(jìn)化邊界何在的人工智能，去突破人類(lèi)的智慧疆界。??????????

哈耶克說(shuō)：“一個(gè)秩序之所以可取，不是因?yàn)樗屍渲械囊馗骶推湮?，而是在這個(gè)秩序上能夠生長(zhǎng)出其他情況下不能生長(zhǎng)出的新力量?！?/p>

迄今為止，我們尚不能定義什么是智能，什么是意識(shí)。??????

然而，卻有一個(gè)黑乎乎的盒子，告訴我們可能會(huì)超越人類(lèi)的智能，甚至涌現(xiàn)出人類(lèi)的意識(shí)。

微軟的報(bào)告中這樣寫(xiě)道：

我們沒(méi)有解決為什么以及如何實(shí)現(xiàn)如此卓越的智能的基本問(wèn)題。它是如何推理、計(jì)劃和創(chuàng)造的？
當(dāng)它的核心只是簡(jiǎn)單的算法組件--梯度下降和大規(guī)模變換器與極其大量的數(shù)據(jù)的結(jié)合時(shí)，它為什么會(huì)表現(xiàn)出如此普遍和靈活的智能？

AI研究人員承認(rèn)，智能是否可以在沒(méi)有任何代理或內(nèi)在動(dòng)機(jī)的情況下實(shí)現(xiàn)，是一個(gè)重要的哲學(xué)問(wèn)題。

在2023年的這個(gè)并不容易的春天，我對(duì)ChatGPT的態(tài)度坦然而期待：

我希望見(jiàn)到它所具備的可能性，為這個(gè)混亂的世界帶來(lái)某些“熵減”。??

在所有預(yù)測(cè)中，我期待Kurzweil的那個(gè)“2030 年技術(shù)將使人類(lèi)享受永生”的預(yù)言。

我自己對(duì)永生沒(méi)興趣，但不想失去身邊的人們。我對(duì)世俗的依賴大過(guò)對(duì)“超人類(lèi)主義”的擔(dān)憂。

我不太相信意識(shí)的上傳，因?yàn)橐坏┥蟼?，就可以?fù)制，就不是唯一的，就失去了自由意志，又談何“意識(shí)”呢？?

人類(lèi)會(huì)洞察大腦最深層次的秘密嗎？湯姆·斯托帕警告過(guò)：

“當(dāng)我們發(fā)現(xiàn)了所有的奧秘，并失去了所有的意義時(shí)，我們將會(huì)在空蕩蕩的海邊孤身一人?！?/p>

哥德?tīng)柕摹安煌陚湫远ɡ怼备嬖V我們，不確定性是人類(lèi)認(rèn)識(shí)的形式邏輯思維本身所固有的。

“一個(gè)計(jì)算機(jī)可以修改自身的程序，但不能違背自身的指令——充其量只能通過(guò)服從自身的指令來(lái)改變自身的某些部分?！?/p>

哥德?tīng)査闶菫锳I，為人類(lèi)劃定了邊界嗎？否則，人類(lèi)制造超級(jí)AI，然后拜其為神，何嘗不是自我奴役？?

哥德?tīng)栍指嬖V我們，人類(lèi)永遠(yuǎn)可以在“實(shí)在主義”中通過(guò)“直觀和直覺(jué)”引入構(gòu)成高一級(jí)形式系統(tǒng)的新東西，建立新公理系統(tǒng)，如此推進(jìn)以至無(wú)窮。

這就是彭羅斯所持的那種“人心超過(guò)計(jì)算機(jī)”的觀念。

寫(xiě)在最后

上一次，七年前，在阿爾法狗面前，人類(lèi)曾經(jīng)哭泣過(guò)；

這一次，無(wú)人哭泣，卻有萬(wàn)眾狂歡。

在兩次AI高潮之間的7年里，我們經(jīng)歷了許多，失去了許多。

人們渴望擁抱某些希望，某些確定性，即使那些確定性來(lái)自一些不確定性的智慧。????

就我自己而言，也遭遇了一些前所未有的艱難時(shí)刻。所謂艱難，并非指一些困難的抉擇，也并非說(shuō)沒(méi)有選項(xiàng)。???????

恰恰相反，依照最優(yōu)決策原理，我很容易通過(guò)期望值計(jì)算，得出最佳選項(xiàng)，獲得所謂最大化的收益。

然而，我追溯到內(nèi)心的源頭，重新定義了自己的期望效用，然后據(jù)此做出了有點(diǎn)兒辛頓風(fēng)格的“基于信仰的差異化”選擇。??????

對(duì)任何一個(gè)人而言，不管是難是易，是聰明是愚蠢，是理性是任性，這種事兒在技術(shù)層面都只能算是小菜一碟。

可對(duì)AI來(lái)說(shuō)，自己去定義期望效用，暫時(shí)難于登天。??

所以，研究人員稱(chēng)，為“大型語(yǔ)言模型”配備代理權(quán)和內(nèi)在動(dòng)機(jī)是未來(lái)工作的一個(gè)迷人的重要方向。

而“代理權(quán)”與“內(nèi)在動(dòng)機(jī)”這兩點(diǎn)，一個(gè)普通人類(lèi)只需要一秒鐘或者幾個(gè)不眠之夜即可實(shí)現(xiàn)。??

或許關(guān)鍵不在于得失，不在于效用函數(shù)，而在于“存在”。

如伊塔洛·卡爾維諾所言：

“隨著時(shí)光流逝，我慢慢地明白了，只有存在的東西才會(huì)消失，不管是城市，愛(ài)情，還是父母?！?/p>

在本文開(kāi)篇寫(xiě)到的傳奇故事里，掃地少年皮茨和教授麥卡洛克兩人之間非凡的友誼直至終生。???

比起電影《心理捕手》里的心理學(xué)教授“威廉姆斯”，麥卡洛克對(duì)皮茨的情感更為深厚，充滿了父親般的愛(ài)和學(xué)術(shù)上的“琴瑟和鳴”。

圖/《心靈捕手》

后來(lái)，當(dāng)麥卡洛克與控制論之父維納產(chǎn)生決裂，皮茨毫不猶豫地站在了麥卡洛克一邊，盡管維納是他的博士生導(dǎo)師，幾乎能夠左右他在學(xué)術(shù)界的前程。皮茨甚至為此燒掉了自己的論文。????????

他如街頭少年般熱血而沖動(dòng)。

不久以后，皮茨繼續(xù)遭遇了學(xué)術(shù)上的打擊，有個(gè)實(shí)驗(yàn)表明，似乎邏輯并未如他的理論所預(yù)期般決定大腦的思維過(guò)程。

這個(gè)鍋爐工的孩子再次回到命運(yùn)的枷鎖之中。曾經(jīng)點(diǎn)燃他灰暗歲月的對(duì)數(shù)學(xué)和邏輯的激情，以及關(guān)于人工智能的天才般的構(gòu)想，一點(diǎn)點(diǎn)被世俗的煙塵淹沒(méi)了。????????

隕落中的天才用血脈中無(wú)法斬?cái)嗟淖晕覛?，?lái)違背自己無(wú)與倫比的邏輯天賦。皮茨開(kāi)始酗酒，最后在寄宿之家孤獨(dú)死去，年僅46歲。???

四個(gè)月后，麥卡洛克也在同一年去世了。?

許多年后，當(dāng)人們追溯神經(jīng)網(wǎng)絡(luò)波瀾起伏的發(fā)展歷程，總會(huì)來(lái)到起點(diǎn)：麥卡洛克和皮茨共同構(gòu)建的豐碑。??????

就像我們來(lái)到大江大河的源頭，發(fā)現(xiàn)不過(guò)是一處小小的溪流。

哥德?tīng)栐谡軐W(xué)手稿中留下一句話：世界的意義就在于事實(shí)與愿望的分離，即事與愿違。

我更愿意用紀(jì)伯倫的話語(yǔ)來(lái)代替哥德?tīng)柕拿糟?，盡管就底層而言也許是同一件事。詩(shī)人說(shuō)：我們活著只為了去發(fā)現(xiàn)美，其他一切都是等待的種種形式。

本文來(lái)自微信公眾號(hào)：孤獨(dú)大腦（ID：lonelybrain），作者：老喻

關(guān)鍵詞：

国产精选污视频在线观看,色综合a在线视频,国产吧在线视频,亚洲男女天堂

2萬(wàn)字解析：ChatGPT的底層邏輯

傳感物聯(lián)網(wǎng)