国产旡码专区亚洲,国产乱人伦偷精品视频免观看,丁香婷婷久久大综合

中國版Wayve決戰(zhàn)端到端，等待數(shù)據的大力出奇跡

2024-06-07 16:24

XEV研究所

關注

作者 |王博

編輯 |德新

「人工智能的定律只有一個，就是規(guī)模定律（Scaling Law），大力出奇跡。端到端是描述方式，更應該去考慮如何去生產更多的自動駕駛合適的數(shù)據，來喂養(yǎng)更大更合適的模型，取得更好效果。」

這段話，出自毫末智行CEO顧維灝。

近日，顧在2024未來汽車先行者大會上，提到了他認為的端到端競爭的關鍵點。

端到端的出現(xiàn)，讓自動駕駛今年再獲資本熱捧。

不久前，自動駕駛圈剛曝出一輪10.5億美金的融資消息，軟銀領投，英偉達、微軟跟投，獲投方是一家名為Wayve的英國自動駕駛公司。

這是軟銀在自動駕駛領域的最新一筆投資，之前其已在Cruise、Stack AV等公司身上花掉數(shù)十億美金。

Wayve自2017年成立至今，推出的核心產品是GAIA-1、LINGO-2兩個自動駕駛大模型，主打端到端大模型。

這一點，和毫末在端到端的布局頗為相像。

毫末已搭建自監(jiān)督感知大模型、自監(jiān)督認知大模型，并開始進行端到端訓練等，雖然命名方式不同，但與Wayve的思考路徑相似。

自動駕駛將大模型引入后，解題思路完全改變。

從以自動駕駛工程師手寫規(guī)則，指導車輛如何駕駛為主，切換到以AI來答卷，讓神經網絡大模型決定如何開車，程序員終于可以「少掉頭發(fā)」。

10億美金融資，讓外人見識到自動駕駛大模型的受關注程度。而其實，在智駕標桿特斯拉和自動駕駛的熱土中國公司毫末這里，大模型上車已經初試牛刀，勝出希望寄托在數(shù)據的大力出奇跡。

一、換種思路，解決頭疼問題

大模型概念興起于NLP領域，直到ChatGPT出現(xiàn)后，GPT這一全新的訓練范式迅速被自動駕駛從業(yè)者認同，行業(yè)上下如獲至寶。

在GPT被引入之前，2004年美國DARPA那場自動駕駛比賽之后的十多年里，研發(fā)模式仍與當年的DAPRA如出一轍。

以識別車道線為例，傳統(tǒng)操作步驟是，先采集車道線數(shù)據，然后進行人工標注，再把標注完的數(shù)據訓練成一個模型，最后把模型部署上車，再使用規(guī)則控制車輛做出決策。

這可以稱之為小模型加手工規(guī)則。

GPT被引入自動駕駛后，研發(fā)模式煥然一新。

在大模型領域一早布局的Wayve，成立于2017年，直接跳過了傳統(tǒng)的自動駕駛研發(fā)模式，瞄準大模型發(fā)力。

只不過，業(yè)內最先看到的是特斯拉。

在去年6月舉行的CVPR 2023上，特斯拉Autopilot軟件總監(jiān)Ashok Elluswamy透露，團隊正在訓練一個更通用的世界模型。

特斯拉引入大模型，一部分原因在于，傳統(tǒng)的自動駕駛研發(fā)模式，在城市場景中遇到了困難。

仍以車道線場景為例，實時預測車道線一度是自動駕駛頭疼的問題。“車道是三維數(shù)據，會分叉、合并，很難建模。”Ashok Elluswamy解釋道。

特斯拉的做法是，基于生成式大模型，采用自回歸Transformer，將車道令牌化，一次一個令牌地對車道進行預測，對分叉點、合并點進行預測。

其實，早于Ashok Elluswamy演講前一天，Wayve已在自家官方博客上發(fā)布GAIA-1，一個用于自動駕駛的生成式大模型。

幾個月后，這一模型擴展至90億參數(shù)，Wayve開始能夠生成逼真的駕駛場景視頻，展示自動駕駛“在各種情境的反應”，且可以更好地預測未來事件。

今年4月，在NVDIA GTC的舞臺上，Wayve CEO Alex Kendall演講時表示，「自動駕駛行業(yè)花費了太多時間聚焦在復雜解法上，比如手動編碼規(guī)則和高精地圖�！�

他列出幾個自動駕駛誤區(qū)，第一個便是，以為解決感知問題就搞定了自動駕駛。

“要想創(chuàng)造一種讓人們感到高興并信任的體驗，關鍵不僅僅是能夠看到世界。真正的問題在于決策，多智能體復雜推理，才是自動駕駛問題的核心。”他說。

軟銀領投的那筆10.5億美金，也在不久后被官宣，Wayve開始被更多自動駕駛領域的從業(yè)者認識和關注。

二、中國版Wayve，入局端到端

將大模型引入自動駕駛，Wayve同行者不止有特斯拉，還有中國的自動駕駛公司。

在國內，大家較早聽聞大模型消息的玩家中，其中一家是開頭提到的毫末。

毫末發(fā)布的DriveGPT這一生成式大模型，可用于自動駕駛的感知、決策任務。

開啟GPT時刻之前，毫末最初采用的是encoder+dedocer模型，輸入一串圖片，模型會輸出一串自動駕駛決策動作。

后來，這家公司還采用基于encoder自編碼的訓練方式，輸入感知結果，mask司機的駕駛行為，讓系統(tǒng)猜司機的駕駛行為。

ChatGPT出現(xiàn)后，毫末很快發(fā)現(xiàn)GPT的高效能力，就此入局。

生成式大模型有一大任務，可以歸納為：“建立了一個神經網絡，以過去或其他輸入為條件，預測未來。”

不同的是，Wayve和特斯拉輸入的是視頻序列，也就是一段過去的視頻，神經網絡會預測未來可能發(fā)生的事情，生成一段預測的視頻序列。

毫末生成的是BEV序列，向大模型輸入一段過去10秒的感知場景，大模型會生成一段未來2 - 3秒的場景。

無論各家輸入的是視頻還是BEV序列，邏輯是相同的。

這一方式，與人類司機駕駛根據道路狀況做出駕駛決的做法頗為相似。它一改傳統(tǒng)的手寫規(guī)則，轉而讓神經網絡決定如何開車，相當于借助大模型短暫預測了未來。

生成式大模型可以用于自動駕駛認知決策，這是一個很好的開始。

同時，毫末也在訓練基于自監(jiān)督的通用感知大模型，并最終希望將感知大模型、認知大模型打通，并引入大語言模型LLM來獲得世界知識，實現(xiàn)端到端訓練。

發(fā)布GAIA-1幾個月后，2023年9月，Wayve又在自家官方博客上發(fā)文，介紹了LINGO-1，一款開環(huán)的Driving Commentator C（自動駕駛評論員），這是一個基于視覺、語言、動作的自動駕駛交互模型，可以用于解釋自動駕駛系統(tǒng)的行為邏輯。

今年4月， Wayve推出的LINGO-2，為自動駕駛體驗開辟全新的控制和定制維度，也是一個在公共道路上進行測試的視覺語言動作模型（VLAM）。這一多模態(tài)大模型被用于增加決策的可解釋性。

在Wayve的官方視頻中，用戶可以和車輛進行對話，對行駛路線等問題進行提問，LINGO-2會給出回應，并能實時解釋每一項決策背后的過程。

毫末的做法與之相似。

他們意識到，在構建對真實物理世界的4D感知基礎上，通過多模態(tài)大模型，實現(xiàn)文、圖、視頻多模態(tài)信息的整合，從而完成4D向量空間到語義空間的對齊，實現(xiàn)跟人類一樣的“識別萬物”的能力。

與Wavye類似，毫末也嘗試引入大語言模型LLM，并利用自動駕駛領域數(shù)據finetune后，使得LLM成為一個老司機，通過與LLM交互，能夠獲取豐富的世界知識，甚至能提出決策規(guī)劃建議。

三、奔赴端到端，解決后續(xù)上車問題

大模型時代，人們見證了初出茅廬ChatGPT 3.0，很快又見識到更強的文生視頻Sora，再到最近炸場的GPT-4o。

這些產品所采用的新技術，為自動駕駛持續(xù)輸送思想的養(yǎng)料。

從Wayve和毫末等公司的實踐看，大家都在遵循著大模型的思路，但仍會分階段地推進，比如會推出解決某個模塊任務大模型。

在探索自動駕駛最為積極的中國，玩家們會單獨布局面向感知的大模型，然后布局用于駕駛決策的規(guī)控大模型。雖然這一過程中，某些地方還會用到CNN卷積神經網絡，但整體會以Transformer為主。

所以，Wayve推出GAIA-1也好，LINGO-2也好，這些大模型也會進行統(tǒng)一，成為端到端大模型。

而毫末發(fā)布的DriveGPT，同樣是將自動駕駛生成式大模型、多模態(tài)大模型、LLM等統(tǒng)一起來后的產物。

之后，就是自動駕駛大模型上車，將大模型從云端搬到車端的過程。

鑒于人工智能大模型的競賽，是涉及算法、數(shù)據、算力的挑戰(zhàn)，自動駕駛的競爭也會圍繞這些維度展開。

進入端到端的大門，僅僅是第一步，緊接著就是數(shù)據的比拼。

正如顧維灝所說，自動駕駛經歷了硬件驅動、軟件驅動，現(xiàn)在正進入數(shù)據驅動時代。“數(shù)據驅動有一個很典型的特征就是它是大模型的，更多通過模型來實現(xiàn)整個的過程。“

更多的數(shù)據，會讓自動駕駛玩家們開始比拼算力，囤積成千上萬塊GPU，從而在云端完成自動駕駛大模型的訓練。還要不斷進行訓練投入，傳聞ChatGPT訓練一次，需要花費1200萬美金。自動駕駛的訓練費用自然也不會少。

接下來就是大模型上車。

按照毫末的說法，動輒千億級參數(shù)的大模型，要在保持效果接近的前提下，縮小到億級才可能上車。

從量產層面看，目前僅有行業(yè)標桿特斯拉推出FSD V12，宣布將城市街道駕駛堆棧升級為端到端神經網絡，經過數(shù)百萬個視頻訓練，取代了30多萬行代碼，可以視為端到端落地的最新動向。

從一些國內自動駕駛公司的計劃看，預計在今年下半年，更多的端到端自動駕駛方案也將量產上車。

資本正在為自動駕駛大模型定價，相信Wayve融資僅是一個開始。在國內，毫末等Wayve的同行者，也許很快會獲得資本的押注。畢竟端到端大模型這條路，現(xiàn)在看是最有希望抵達自動駕駛彼岸的方向。

參考文獻：

Wayve CEO干貨分享：自動駕駛已浪費太多時間

VLAM會是自動駕駛的黑盒解藥嗎？

Wayve：從源頭講起，如何實現(xiàn)以對象為中心的自監(jiān)督感知方法？

特斯拉自動駕駛的“通用世界模型”和視頻生成技術｜Ashok23年CVPR主題演講

Scaling GAIA-1: 9-billion parameter generative world model for autonomous driving

Wayve - NeRF 為自動駕駛構建城市規(guī)模的神經輻射場

“大模型本質就是兩個文件！”特斯拉前AI總監(jiān)爆火LLM科普

毫末智行自動駕駛公開課（第二期）：數(shù)據、大算力、大模型驅動下的自動駕駛

原文標題 : 中國版Wayve決戰(zhàn)端到端，等待數(shù)據的大力出奇跡

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務

用戶名/郵箱/手機：
密碼：
忘記密碼？
用其他賬號登錄： QQ | 微信 | 新浪微博

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

行業(yè)報告

2023年激光雷達應用市場調研及前景預測報告
2023年中國光電傳感器市場發(fā)展現(xiàn)狀及投資前景分析
2023年中國汽車電子行業(yè)市場發(fā)展現(xiàn)狀及投資前景分析
2022年新能源汽車充電樁市場分析報告