毫末智行&清華AIR自動駕駛精品公開課：DriveGPT開啟自動駕駛大模型落地新范式

來源：快科技 2023-07-05 14:46:14

作為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量，以GPT為代表的大模型技術(shù)正在引領(lǐng)新一輪全球人工智能創(chuàng)新熱潮，為經(jīng)濟社會發(fā)展持續(xù)注入新動能。6月30日，毫末智行聯(lián)合清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)舉辦了今年第二場自動駕駛精品公開課，深入分享了大數(shù)據(jù)、大算力、大模型驅(qū)動下的自動駕駛發(fā)展趨勢和技術(shù)原理。

本期課程是自動駕駛系列公開課程的第二期，在此前第一期聚焦自動駕駛AI技術(shù)原理的基礎(chǔ)上，更進一步介紹了大模型之于自動駕駛背后的技術(shù)邏輯。現(xiàn)場，毫末智行數(shù)據(jù)智能科學(xué)家賀翔以《大數(shù)據(jù)、大算力、大模型驅(qū)動下的自動駕駛》為主題，從AI大模型的內(nèi)核講起，結(jié)合毫末發(fā)布的業(yè)內(nèi)首個自動駕駛生成式大模型DriveGPT雪湖·海若，通過毫末在自動駕駛行業(yè)里用大模型思路實踐經(jīng)驗，為大家全面分享了大模型技術(shù)落地自動駕駛的新范式。

(資料圖)

回顧自動駕駛行業(yè)過去這些年的發(fā)展，賀翔將技術(shù)演進分為了3個階段，即以硬件驅(qū)動為主的1.0時代、以軟件驅(qū)動為主的2.0時代，以及正在進入的、以數(shù)據(jù)驅(qū)動為主要特征的自動駕駛3.0時代?！白詣玉{駛3.0時代的特點，是Transformer這樣千億級別的大模型，模型參數(shù)很大，一定是大參數(shù)、大模型、大數(shù)據(jù)。而大模型的必要條件是有大的算力?！?/p>

毫末智行從創(chuàng)立之初，就定下以數(shù)據(jù)驅(qū)動自動駕駛技術(shù)升級的公司技術(shù)戰(zhàn)略，以領(lǐng)先的人工智能技術(shù)和智能駕駛規(guī)模量產(chǎn)作為自身優(yōu)勢，在2021年底，率先發(fā)布國內(nèi)首個全棧自研的自動駕駛數(shù)據(jù)智能體系MANA（雪湖），又在一年后的2022年底，建成國內(nèi)自動駕駛行業(yè)最大的智算中心MANA OASIS（雪湖·綠洲），每秒浮點運算達到67億億次。

賀翔認為，自動駕駛當前的技術(shù)范式與十幾年前的自然語言處理技術(shù)非常相近，即小數(shù)據(jù)、小模型，通過采集各種各樣的交通數(shù)據(jù)、進行人工標注、再用這些數(shù)據(jù)訓(xùn)練出小模型，然后再把模型部署到車上，結(jié)合業(yè)務(wù)規(guī)則，去控制車。這種模式的弊端十分明顯——一旦量產(chǎn)上車，當數(shù)十萬輛車在全國各地跑起來，就會出現(xiàn)各種各樣的路況、場景，如果還按照之前的思路去做人工標注，一方面，需要消耗大量的人力成本和時間，另一方面，則永遠不可能標注完所有場景，就像運載著各種貨物的掛車這類交叉組合的特殊場景需要做出不同種類的標注，而這種組合幾乎是無窮的。

過去幾年，自然語言處理領(lǐng)域，大模型技術(shù)取得了技術(shù)突破，尤其是GPT這樣的大模型出現(xiàn)以后，大模型具備很強的泛化能力，通過一個大模型就能解決各類問題。

基于這樣的行業(yè)困境、借鑒自然語言處理領(lǐng)域的經(jīng)驗，毫末相信大數(shù)據(jù)、大模型會成為自動駕駛領(lǐng)域一種新的解題思路。在技術(shù)路線上，毫末早在2021年初就開始探索將Transformer大模型技術(shù)落地應(yīng)用到自動駕駛產(chǎn)品當中，同時也成為國內(nèi)首家研發(fā)落地BEV感知技術(shù)的自動駕駛公司，并在2022年4月，率先在國內(nèi)發(fā)布以“重感知”方式實現(xiàn)的城市NOH導(dǎo)航輔助駕駛產(chǎn)品。2023年4月，基于GPT大模型所具有的生成式、預(yù)訓(xùn)練、人類反饋強化學(xué)習等技術(shù)優(yōu)勢，毫末將視覺自監(jiān)督大模型、3D重建大模型、多模態(tài)互監(jiān)督大模型、動態(tài)環(huán)境大模型、人駕自監(jiān)督認知大模型等五大模型進行統(tǒng)一升級，發(fā)布了行業(yè)首個自動駕駛生成式大模型DriveGPT雪湖·海若。

DriveGPT的底層模型與ChatGPT一樣，都采用了生成式預(yù)訓(xùn)練模型架構(gòu)，使用了大規(guī)模無監(jiān)督的數(shù)據(jù)進行初始模型的生成，也都采用了Prompt微調(diào)方式和RLHF人類反饋強化學(xué)習的方式進行模型效果的優(yōu)化；二者的不同之處在于，ChatGPT輸入輸出的自然語言的文本，而DriveGPT輸入輸出分別是歷史場景序列和生成的未來場景序列，ChatGPT主要用于自然語言處理領(lǐng)域，而DriveGPT主要用于自動駕駛領(lǐng)域。

據(jù)賀翔介紹，DriveGPT大模型現(xiàn)在分成兩個階段，一個階段是更通用、更基礎(chǔ)的能力，即空間計算能力。另一個階段是做駕駛決策，即要知道怎么開車。也就是在空間計算能力之上，再去疊加認知決策的能力?！榜{駛決策，這其實還是一項特殊的技能，需要我們所有人學(xué)開車時候都要去駕校學(xué)一遍，大模型就相當于做（駕駛技能教學(xué)）這個事情。駕駛的技能都需要依賴對周圍空間的三維感知，這種空間感知能力也是一種通用能力，我們希望這種通用感知能力，能對接不同的決策模型，完成不同的任務(wù)。例如對接自動駕駛決策模型就可以實現(xiàn)自動駕駛、對接機器人決策模型就可以實現(xiàn)具身機器人等等。”

賀翔表示，DriveGPT目前仍然以云端訓(xùn)練和推理的方式為主，但它已可以通過多種方式來賦能車端智駕能力。首先，可以通過多模態(tài)大模型的場景理解能力，進行高效數(shù)據(jù)篩選，為車端小模型訓(xùn)練提供所需要的海量極端、困難場景數(shù)據(jù)?！拔覀兊拇竽Ｐ湍茉趲酌腌娭畠?nèi)從百億數(shù)據(jù)里面，通過任意輸入一段自然語言文本，類似人與人之間的自然對話，把圖片找出來。”

同時，DriveGPT也具備很強的駕駛場景識別能力，可以使用這個能力來進行自動標注。基于毫末DriveGPT所建立的4D Clips駕駛場景自動標注方案，可以使得單張圖片的標注成本降到0.5元，相較目前行業(yè)平均成本的1/10。毫末目前正在會將圖像幀及4D Clips自動駕駛場景識別服務(wù)向行業(yè)開放使用，這將大幅降低行業(yè)使用數(shù)據(jù)的成本，提高數(shù)據(jù)質(zhì)量。

在駕駛場景通用感知能力上，DriveGPT對視覺感知任務(wù)做了全面升級，以恢復(fù)真實世界的三維結(jié)構(gòu)和紋理分布為目標，通過構(gòu)建統(tǒng)一的空間計算Backbone實現(xiàn)通用視覺感知能力，在一個大模型中同時完成圖片紋理、三維結(jié)構(gòu)深度信息、實體語義信息、實體跟蹤的學(xué)習，試圖與人腦對物理世界的感知一樣實現(xiàn)通用的視覺感知能力。目前，毫末視覺感知訓(xùn)練數(shù)據(jù)集達到400萬Clips，感知性能提升20%。DriveGPT可以支持單趟或多趟的純視覺NeRF三維重建以及數(shù)據(jù)生成，從而可以構(gòu)造大量自動駕駛的corner cases，為行業(yè)提供更低成本、更大規(guī)模的自動駕駛能力測試的仿真環(huán)境，幫助行業(yè)伙伴快速提升自動駕駛技術(shù)能力。

除了感知層面，賀翔還分享了在DriveGPT認知決策層面的應(yīng)用，當前的認知決策是把BEV感知結(jié)果作為輸入進行駕駛決策訓(xùn)練。但是BEV感知結(jié)果會丟失很多信息，限制了駕駛決策的上限。DriveGPT則直接將空間計算Backbone對接駕駛決策，采用更豐富、更全面的感知信息來訓(xùn)練駕駛決策模型，結(jié)合海量的真實駕駛數(shù)據(jù)訓(xùn)練，最終實現(xiàn)端到端自動駕駛甚至達到無人駕駛。

賀翔表示，當前，毫末DriveGPT實現(xiàn)了模型架構(gòu)與參數(shù)規(guī)模的升級，參數(shù)規(guī)模達到1200億，預(yù)訓(xùn)練階段引入5500多萬公里量產(chǎn)車駕駛數(shù)據(jù)，RLHF階段引入5萬段人工精選的困難場景接管 Clips。同時，毫末正在將感知能力融入到DriveGPT大模型訓(xùn)練當中，形成一整套的端到端的自動駕駛能力模型。DriveGPT也將具備自動駕駛的場景理解、場景識別、場景重建、場景生成能力，以及駕駛能力測評等能力。

DriveGPT的出現(xiàn)，從底層技術(shù)上顛覆了以往自動駕駛認知決策過程采用人工規(guī)則、小模型的實現(xiàn)方式，首次探索以數(shù)據(jù)驅(qū)動的大模型方式實現(xiàn)自動駕駛的數(shù)據(jù)篩選、自動標注、駕駛決策，最終為實現(xiàn)端到端自動駕駛提供可能。

在現(xiàn)場問答環(huán)節(jié)，面對網(wǎng)友“大模型到底能給自動駕駛帶來什么樣飛躍”的提問，賀翔解釋說：“我們希望通過大模型非常強大的泛化能力，能夠大規(guī)模提升自動駕駛對于corner case的處理能力，有了這種能力之后，自動駕駛可以去任何地方，任何路況，自動駕駛的范圍能處理的場景可能比現(xiàn)在大得多?！?/p>

而當談到自動駕駛的“ChatGPT時刻”會在什么時候到來時，賀翔也給出了自己的看法。在他看來，ChatGPT之所以給了大家如此大的震撼，在于它天然是多面手。但是，一方面，在自動駕駛領(lǐng)域里面，不同于ChatGPT只處理文本信號，自動駕駛還要處理圖片、點云、交通法規(guī)、地圖、駕駛行為等一系列信息，自動駕駛要處理的數(shù)據(jù)模態(tài)更復(fù)雜；另一方面，自動駕駛對模型的輸出精度要求更高、可解釋性要求也更強。面對這種特別復(fù)雜的模態(tài)、特別高的輸出要求，實現(xiàn)自動駕駛大模型道阻且長，但行則將至。

毫末智行聯(lián)合清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)舉辦的自動駕駛精品公開課共分4期，本期課程是第二期。在今年3月舉辦的第一期課程里，來自清華AIR和毫末智行的講師已經(jīng)為近百名業(yè)內(nèi)媒體人介紹了單車智能自動駕駛、車路協(xié)同自動駕駛和高等級智能道路建設(shè)等自動駕駛技術(shù)發(fā)展，并向大家講解了自動駕駛AI技術(shù)基礎(chǔ)原理，以及當前大模型在自動駕駛的應(yīng)用趨勢。通過本期自動駕駛精品公開課，毫末與清華AIR一同為自動駕駛行業(yè)奉獻了一場端到端自動駕駛前沿技術(shù)盛筵。未來，還將有清華AIR和毫末智行的老師為大家?guī)碜钋把氐臉I(yè)內(nèi)技術(shù)分享。

如今，國內(nèi)外大模型科研保持著高速迭代的態(tài)勢，各類大模型層出不窮，模型性能不斷提升，創(chuàng)新創(chuàng)業(yè)蓬勃興起，展現(xiàn)了驚人的演進速度。相信未來，毫末也將繼續(xù)用技術(shù)賦能自動駕駛發(fā)展，攜手更多伙伴，推動行業(yè)發(fā)展，一同加速自動駕駛的“ChatGPT”時刻早日到來。

關(guān)鍵詞：

国产精选污视频在线观看,色综合a在线视频,国产吧在线视频,亚洲男女天堂

毫末智行&清華AIR自動駕駛精品公開課：DriveGPT開啟自動駕駛大模型落地新范式

傳感物聯(lián)網(wǎng)