鄧志東：生成式人工智能正從數(shù)字領(lǐng)域邁向真實物理世界

來源：今日熱點網(wǎng) 2024-11-15 12:18:02

11月12日，由成都市經(jīng)信局市新經(jīng)濟(jì)委主辦，雨前顧問承辦的2024人工智能產(chǎn)業(yè)CEO大會暨人工智能賦能新型工業(yè)化供需對接活動在成都舉行。

大會上，清華大學(xué)教授、人工智能研究院視覺智能研究中心主任鄧志東以“AI源動力·解析產(chǎn)業(yè)發(fā)展新趨勢”為題進(jìn)行了精彩的演講，其中特別對如何聚焦大模型應(yīng)用、發(fā)展具身智能面臨的挑戰(zhàn)以及L4自動駕駛與通用人形機(jī)器人的協(xié)同演進(jìn)等，闡述了自己的思考。

鄧志東強(qiáng)調(diào)，大模型的價值在于其實際應(yīng)用。大模型只有在多樣化的實際應(yīng)用場景中賦能智能經(jīng)濟(jì)與智能社會的發(fā)展，才能找到真正的產(chǎn)業(yè)價值，也才能成就大模型自身性能的迭代演進(jìn)。在大模型與智能體的應(yīng)用及落地過程中，我國在應(yīng)用場景多樣性、應(yīng)用落地速度、數(shù)據(jù)的豐富程度以及商業(yè)模式構(gòu)建上的優(yōu)勢，才會充分體現(xiàn)出來，形成可持續(xù)發(fā)展的大模型新應(yīng)用、新業(yè)態(tài)、新模式，以此重建我們在AI大模型時代下的新優(yōu)勢。

鄧志東還認(rèn)為，生成式人工智能正從數(shù)字領(lǐng)域拓展至真實物理世界，賦能智能制造、自動駕駛、人形機(jī)器人、智能座艙、無人機(jī)、個人電腦及手機(jī)等物理系統(tǒng)，強(qiáng)力推動制造業(yè)與實體經(jīng)濟(jì)的發(fā)展。

以下為鄧志東演講精華版：

一、聚焦大模型應(yīng)用，形成中國人工智能發(fā)展新優(yōu)勢

人工智能的發(fā)展路徑經(jīng)歷了從單模態(tài)的文本大型語言模型，迭代到如今快速發(fā)展的多模態(tài)大型語言模型，再到多模態(tài)的具身智能，這里的具身是指增加了移動與操作等動作能力。最后會進(jìn)一步發(fā)展到交互式的通用人工智能，增加與世界的交互。在這個發(fā)展路徑中，最重要的問題是要通過大模型的實際應(yīng)用來發(fā)展。

大模型的價值在于其實際應(yīng)用。只有通過多樣化的應(yīng)用場景，賦能智能經(jīng)濟(jì)與智能社會的發(fā)展，才能找到大模型真正的產(chǎn)業(yè)價值，同時也才能成就大模型自身的迭代演進(jìn)。生成式人工智能目前正在從數(shù)字空間或互聯(lián)網(wǎng)空間走向真實的物理世界，賦能包括智能制造、自動駕駛、人形機(jī)器人、智能座艙、無人機(jī)、個人電腦、手機(jī)等在內(nèi)的真實物理系統(tǒng)，從聊天問答等互聯(lián)網(wǎng)空間的任務(wù)走到真實的世界里，可以助力制造業(yè)與實體經(jīng)濟(jì)的發(fā)展。

大模型應(yīng)用有三條較為現(xiàn)實的實現(xiàn)路徑。一是大模型的應(yīng)用需要不斷提升基座大型語言模型，特別是多模態(tài)通用大語言模型的能力上限，同時聚焦行業(yè)原生多模態(tài)大模型的發(fā)展，實現(xiàn)原始創(chuàng)新。但這需要巨頭企業(yè)的長期持續(xù)投入，原因是基礎(chǔ)與通用大模型需要超大規(guī)模的數(shù)據(jù)和算力支撐。

二是大模型的應(yīng)用需要特別關(guān)注利用現(xiàn)有的高性能多模態(tài)通用大型語言模型進(jìn)行微調(diào)。通過不斷的微調(diào)和產(chǎn)業(yè)部署，用較小的AI算力，構(gòu)建針對特定任務(wù)的專用模型，從而解決成千上萬種不同類型的任務(wù)。人工智能的核心在于完成一個個從簡單到復(fù)雜的具體任務(wù)。因此，我們需要選擇合適的高性能多模態(tài)通用大型語言模型，并掌握各種高效的微調(diào)方法。具體而言，微調(diào)方法包括監(jiān)督微調(diào)（SFT）、人類反饋強(qiáng)化學(xué)習(xí)（RLHF）和AI反饋強(qiáng)化學(xué)習(xí)（RLAI）等，也根據(jù)范式的不同，一般分為提示微調(diào)和參數(shù)微調(diào)兩大類。我們需要根據(jù)不同的任務(wù)挑戰(zhàn)性，選擇合適的高效微調(diào)方法。

三是大模型的應(yīng)用需要聚焦智能體新技術(shù)新范式新導(dǎo)向的發(fā)展。例如，通過積極的創(chuàng)新實踐和產(chǎn)業(yè)落地，利用性能先進(jìn)的原生多模態(tài)通用大模型，探索智能體一體化端到端的新范式，比如自動駕駛、通用人形機(jī)器人，就在不斷創(chuàng)新實踐這些新范式，也必將進(jìn)一步增強(qiáng)制造業(yè)的競爭能力。

通過這些路徑，推動人工智能賦能新型工業(yè)化，形成新應(yīng)用、新業(yè)態(tài)、新優(yōu)勢。大模型應(yīng)用既需要頭部企業(yè)直接發(fā)展行業(yè)原生多模態(tài)大語言模型，形成基礎(chǔ)能力，同時更需要眾多制造企業(yè)或中小型創(chuàng)新企業(yè)，面向垂域或特定任務(wù)，基于現(xiàn)有的多模態(tài)通用大模型微調(diào)訓(xùn)練出專用模型，大力推動千行百業(yè)垂域?qū)Ｓ媚Ｐ偷漠a(chǎn)業(yè)落地，從而通過場景應(yīng)用創(chuàng)新與產(chǎn)品研發(fā)，打造國際一流的大模型應(yīng)用生態(tài)，賦能智能制造與新型工業(yè)化的發(fā)展。

在大模型的應(yīng)用落地過程中，我國在應(yīng)用場景多樣性、應(yīng)用落地速度、數(shù)據(jù)的豐富程度以及商業(yè)模式構(gòu)建上的優(yōu)勢，才會充分體現(xiàn)出來，形成可持續(xù)發(fā)展的大模型新應(yīng)用、新業(yè)態(tài)、新模式，以此重建我們在AI大模型時代下的新優(yōu)勢。

從更大尺度上看，人工智能可分成弱人工智能-通用人工智能-強(qiáng)人工智能-超級人工智能等不同的演化階段，目前我們正處于通用人工智能的早期階段，全球范圍的大模型應(yīng)用，一切才剛剛開始！

二、挑戰(zhàn)與機(jī)遇：賦能智能制造的具身智能體

聚焦具身智能發(fā)展面臨的挑戰(zhàn)，尤其是如何通過具身智能賦能智能制造，我想在這里分享一下我的看法。

首先是實現(xiàn)路徑的選擇。具身智能的實現(xiàn)路徑已經(jīng)從單純的感知空間或觀察空間，進(jìn)一步延伸到了動作空間，尤其是感知空間與動作空間之間的相互關(guān)系和相互作用。這就涉及到從感知空間到動作空間的決策推理能力，涉及到所謂的單段式一體化具身智能體研發(fā)范式。

具體來說，通過對兩大空間、三大任務(wù)的模型微調(diào)，可賦予具身智能體聽、說等感知與理解能力，決策推理能力以及移動與操作能力。換句話說，首先要進(jìn)行具身的理解，然后進(jìn)行具身的推理，最后進(jìn)行具身的動作生成。有了這三大微調(diào)模型，可以進(jìn)一步生成更多的下游微調(diào)模型。顯然這里的核心能力是決策或邏輯推理能力。微調(diào)的訓(xùn)練方法需要選擇合適的技術(shù)路線，主要包括監(jiān)督微調(diào)（SFT）、人類反饋強(qiáng)化學(xué)習(xí)（RLHF）和人工智能大模型反饋學(xué)習(xí)（RLAI）。此外，根據(jù)不同的范式，高效微調(diào)方法一般分為提示微調(diào)和參數(shù)微調(diào)兩大類。提示微調(diào)既有以自然語言方式進(jìn)行的，如思維鏈（CoT），也有在連續(xù)隱含空間基于學(xué)習(xí)方式進(jìn)行的，而參數(shù)微調(diào)則對模型的全部或部分參數(shù)進(jìn)行微小調(diào)整，目前研究更多更深入。

其次是物理AI面臨的技術(shù)挑戰(zhàn)。大模型在實際應(yīng)用中可能會遇到一些技術(shù)難題。具身智能在完成任務(wù)時，不僅有成功率的問題，還會出現(xiàn)幻覺現(xiàn)象。這包括事實性幻覺和上下文不一致幻覺。事實性幻覺?是指大模型生成的內(nèi)容不符合常識，甚至捏造信息；上下文不一致幻覺是指大模型生成的回復(fù)或下文與用戶上文的指令不一致，也就是答非所問。

對于具身智能而言，這些幻覺可能會導(dǎo)致時空錯亂，特別是在自動駕駛和人形機(jī)器人等實際應(yīng)用場景中，可能會給用戶帶來安全風(fēng)險。目前這一領(lǐng)域正迎來新的發(fā)展，各種方法層出不窮。但大模型的幻覺或許只能緩解，不能說已經(jīng)完全消滅了。

為了緩解幻覺問題，可以采取以下三種措施：一是提高訓(xùn)練數(shù)據(jù)的質(zhì)量?。在預(yù)訓(xùn)練和微調(diào)階段通過數(shù)據(jù)清洗和篩選，確保數(shù)據(jù)的準(zhǔn)確性和一致性，但制造業(yè)中高質(zhì)量訓(xùn)練數(shù)據(jù)的采集效率，是一個較大的技術(shù)挑戰(zhàn)。二是引入糾錯機(jī)制?。在大模型的生成過程中需要加入糾錯機(jī)制，以防止錯誤信息的傳播與積累。三是優(yōu)化模型結(jié)構(gòu)?。通過不斷改進(jìn)模型結(jié)構(gòu)，使其能夠更好地處理各種復(fù)雜任務(wù)和多種輸入類型?。

最后是改變研發(fā)范式的新機(jī)遇。我們看到了具身智能體在新范式和新導(dǎo)向方面的一些重要機(jī)遇。第一個機(jī)遇是從視覺-（文本）語言模型（VLM）發(fā)展到視覺-語言-動作模型（VLA）。傳統(tǒng)的VLM主要依賴視覺和文本語言，而現(xiàn)在的VLA不僅增添了深度視覺和語音能力，還增加了動作能力，也就是從感知空間或觀察空間延伸到了動作空間。這種擴(kuò)展使模型能夠真正基于高級的決策推理，從而更好地賦能落地應(yīng)用與產(chǎn)業(yè)發(fā)展。具體來說，智能體的輸入端包括一幀一幀的圖像和（文本）任務(wù)要求；輸出端則是各種動作。例如在自動駕駛中，輸入是圖像幀與本體感知，而大模型與智能體可以直接生成方向盤的轉(zhuǎn)角、油門的開度和剎車的制動量。這些都特別像人類的大腦跟小腦的關(guān)系，所以也稱之為大腦模型與小腦模型。這里大腦皮層模型負(fù)責(zé)視覺與體感處理，擁有類似人類的視覺通路和本體感知。本體感知是指智能體對自己狀態(tài)的感知，包括導(dǎo)航信息等。通過視覺與本體感知獲取多模態(tài)信息后，智能體會在前額葉進(jìn)行決策推理，然后將決策結(jié)果輸入到運動皮層，運動皮層再將信號傳遞給小腦模型。小腦模型負(fù)責(zé)維持具身智能體的精細(xì)平衡和協(xié)調(diào)，對應(yīng)于我們這里的動作空間。

第二個機(jī)遇是從多段式方法向單段式方法的轉(zhuǎn)變。傳統(tǒng)的多段式方法將感知、預(yù)測、決策、規(guī)劃和控制人為地分段處理，以此構(gòu)成多個閉環(huán)。然而，最新的發(fā)展范式不再采用人為分段的方式，而是采用單段式方法，就像人的大腦一樣，一個大腦可以解決所有問題，最多與小腦合體，成為一個一體化的單一模型。這種最新的智能體范式被稱為自動駕駛2.0，其特點是引入了基于學(xué)習(xí)的決策與規(guī)劃。

三、產(chǎn)業(yè)發(fā)展新趨勢：L4自動駕駛與通用人形機(jī)器人的協(xié)同演進(jìn)

人工智能產(chǎn)業(yè)的發(fā)展新趨勢在于通用與泛化，這是所有具身智能體追求的最高目標(biāo)?！巴ㄓ谩币馕吨軌驊?yīng)對各種環(huán)境與任務(wù)的變化，而不是局限于固定的操作對象與某一特定任務(wù)。人是這方面的最高標(biāo)桿。泛化則指跨場景、跨領(lǐng)域的廣泛應(yīng)用，能夠在任何環(huán)境中適應(yīng)和可靠運作。本質(zhì)上這是一個什么問題呢？其實就是一個環(huán)境的適應(yīng)性和自主性問題，也就是什么樣的環(huán)境都可以自主適應(yīng)。時空大變化之后，如何提高智能體的復(fù)雜邏輯推理能力是當(dāng)前研究的重點。這里需要研究各種增強(qiáng)技術(shù)，如提示增強(qiáng)、檢索增強(qiáng)（RAG）、知識增強(qiáng)和邏輯增強(qiáng)技術(shù)等，以提升多模態(tài)大模型與智能體的性能。

通用人形機(jī)器人與L4自動駕駛是典型的具身智能代表，二者可以相互協(xié)同演進(jìn)。我們看到像Cybercab（特斯拉無人駕駛出租車）與Optimus（特斯拉人形機(jī)器人）的問世，至少表明了目前最新發(fā)展的這種單段式的或者叫單模型的端到端的自動駕駛技術(shù)在真實世界的成功實踐，證明了這條路徑是可以走得通的。未來能夠完全進(jìn)行大規(guī)模產(chǎn)業(yè)落地，我相信只是一個時間的問題。

首先是高級別的自動駕駛的規(guī)?；涞貞?yīng)用，即大模型+自動駕駛。采用徹底的端到端解決方案，基于視覺大模型VLA，通過少量編程，實現(xiàn)類似人類的駕駛技巧學(xué)習(xí)。其次是高級別自動駕駛的降維應(yīng)用，也就是大模型+通用機(jī)器人。把大語言模型帶入通用人形機(jī)器人，必將加速通用人形機(jī)器人的大發(fā)展，后者的產(chǎn)業(yè)化應(yīng)用，也會反過來助推L4自動駕駛的技術(shù)進(jìn)步。更多的人形機(jī)器人會首先走向制造業(yè)的生產(chǎn)線，實現(xiàn)無人化的自動化車間與工廠，即所謂的“黑燈工廠”，也就是可實現(xiàn)完全無人化生產(chǎn)的工廠。另外自動駕駛的大規(guī)模商業(yè)化落地，可望推動人形機(jī)器人的加速發(fā)展，催生人類-機(jī)器人共融社會的形成與演進(jìn)，為未來智能生產(chǎn)與智能生活的發(fā)展，構(gòu)建出新的無限可能。

總之，應(yīng)該說我們現(xiàn)在的大模型應(yīng)用其實做的事情就是在模仿學(xué)習(xí)。模仿人類，把人類所有寫的小說、產(chǎn)生的圖像都作為一個標(biāo)桿來模仿，模仿以后進(jìn)行所謂的強(qiáng)化學(xué)習(xí)。長上眼睛了，長上耳朵了，有了手，有了腳，就可以進(jìn)入到生產(chǎn)與生活的實踐角色之中。進(jìn)入這些社會角色后，通過與環(huán)境、與其他智能體和與人類進(jìn)行交互式學(xué)習(xí)，就可以催生出超強(qiáng)的交互式多模態(tài)智能體，就可能產(chǎn)生出“青出于藍(lán)而勝于藍(lán)”這么一個效果?；旧衔覀儸F(xiàn)在看人工智能的發(fā)展，這個路徑就是在模仿學(xué)習(xí)的基礎(chǔ)之上，利用深度強(qiáng)化學(xué)習(xí)等交互式學(xué)習(xí)方法，在虛實平行世界中實現(xiàn)更高效率的自主探索學(xué)習(xí)，獲得接近或?qū)R人類智能的能力，從而實現(xiàn)人-機(jī)共融，賦能智能經(jīng)濟(jì)與智能社會的大發(fā)展。

關(guān)鍵詞：

傳感物聯(lián)網(wǎng)

国产精选污视频在线观看,色综合a在线视频,国产吧在线视频,亚洲男女天堂

鄧志東：生成式人工智能正從數(shù)字領(lǐng)域邁向真實物理世界