国产福利网站,亚洲综合一区二区三区不卡

端到端大模型席卷廣州車展，智駕行業(yè)的一次技術(shù)大躍遷

2024-11-22 08:51

XEV研究所

關(guān)注

作者 |德新苗嶺

編輯 |德新

作為歲末壓軸的一場大型車展，沒有其他展會比廣州車展更能揭示未來一年汽車行業(yè)的趨勢。

除了新能源車滲透率繼續(xù)如火如荼地攀升之外，「端到端城區(qū)智駕」成為這屆車展上的核心主題。

如果說半年前的北京車展，端到端還只是頭部車企對新技術(shù)的探索，那到了廣州車展，包括外資與合資車企在內(nèi)幾乎所有廠商都在擁抱這一技術(shù)路線。

汽車行業(yè)正迎來一次智駕技術(shù)的升級躍遷。

端到端大模型的本質(zhì)是以參數(shù)規(guī)模更大的模型，取代過去「感知以小模型為主 + 決策規(guī)劃以規(guī)則代碼為主」的技術(shù)架構(gòu)。它減少了小模型之間信息傳遞的損失，從而使系統(tǒng)能夠獲取更加豐富的動靜態(tài)目標信息，并且直接從駕駛數(shù)據(jù)中學習到合理的開車方法。

行業(yè)推動城市NOA量產(chǎn)已有兩三年時間。但衡量城市NOA的關(guān)鍵指標——MPI（平均接管里程），在今年上半年大概也只有10公里以內(nèi)，也就是每行駛10公里至少需要用戶接管1次。用戶體驗不佳是城市NOA還沒有開始大規(guī)模普及的主要原因。

基于端到端與大模型的技術(shù)，成為過去一年提升智駕MPI的關(guān)鍵利器。

特斯拉在去年的FSD V12.3版本中首先引入了這一技術(shù)。國內(nèi)汽車行業(yè)也很快展開探索，理想、小鵬等車企，以及博世、華為、地平線、Momenta、元戎、卓馭等廠商目前都在研發(fā)端到端智駕版本。

許多行業(yè)大咖如英偉達CEO黃仁勛、小鵬汽車CEO何小鵬、長城汽車CTO吳會肖、騰訊智慧出行副總裁劉澍泉、元戎啟行CEO周光等人在這年陸續(xù)體驗了特斯拉的V12版本，對FSD給出了高度評價。

理想、小鵬在近期的端到端版本上，也取得突飛猛進的進展。據(jù)理想官方數(shù)據(jù)，其從7月初到11月的「端到端智+VLM」智駕版本， MPI約有3.5倍提升；而小鵬也稱其智駕系統(tǒng)上了端到端不到半年，擬人程度提升4倍以上。

在國內(nèi)大舉投入高階智駕開發(fā)的博世，也將在今年底推出無圖城市NOA，并在明年上馬一段式端到端方案。

這家國際Tier 1巨頭剛剛在最近與騰訊簽署了深化合作，加速下一階段端到端大模型以及世界模型的開發(fā)。

眼下的時點，可以說國內(nèi)外的頭部廠商都成功驗證了端到端大模型是提升城區(qū)智駕表現(xiàn)的正確路徑，并且行業(yè)還遠遠沒有觸及到「Scaling Law」——數(shù)據(jù)規(guī)模增長帶來性能提升——的上限。

一、冰山之下，汽車行業(yè)的研發(fā)挑戰(zhàn)

端到端大模型帶來的城市NOA體驗以及MPI的提升是顯性的。而新一代智駕的研發(fā)本身也發(fā)生了巨大的變化，并且95%以上是「隱藏在水面之下的冰山」。因此不少廠商今年在圍繞AI與大模型進行組織架構(gòu)變革。

首先，從驅(qū)動數(shù)據(jù)迭代的「燃料」——數(shù)據(jù)開始。

博世智能駕控事業(yè)部中國區(qū)總裁吳永橋認為，「從前融合、BEV + Transformer，到端到端，每一代技術(shù)對數(shù)據(jù)的需求都呈指數(shù)級增長。」

目前國內(nèi)頭部公司的端到端智駕版本，大約使用了數(shù)百萬條級別的短視頻進行訓練，并向千萬級的短視頻推進。這些短視頻時長在幾十秒 - 幾分鐘不等，往往包含了多個連續(xù)的場景和駕駛行為。

在開發(fā)城區(qū)智駕的3年中，博世在數(shù)據(jù)端「付出了巨大的代價」。

「包括自建采集車隊，包含司機與合規(guī)員。通過仿真生成的數(shù)據(jù)大部分只能用于一般性的測試場景。但真正有價值的、對用戶體驗有關(guān)鍵提升的數(shù)據(jù)數(shù)據(jù)，往往來自采集�！箙怯罉蛘f。

這些數(shù)據(jù)如何采集、存儲、篩選、標注，尤其智駕相關(guān)的數(shù)據(jù)還涉及地理信息安全和個人隱私。

作為一家國際Tier 1，博世還需要考慮采集、存儲、訓練、仿真等數(shù)據(jù)鏈路全流程的合規(guī)，并且在滿足合規(guī)的情況下盡可能提高研發(fā)效率。

從2020年開始，博世就決定與騰訊深度合作，將數(shù)據(jù)和工具鏈部署在騰訊云的汽車云專區(qū)上。汽車專有云是一個既能保障嚴苛的數(shù)據(jù)合規(guī)要求，同時滿足數(shù)據(jù)訓練高效存取需求的方案。

劉澍泉說，騰訊是第一家在國內(nèi)建設(shè)自動駕駛專有云的企業(yè)，機房與網(wǎng)絡(luò)獨立于公有云，但沿襲了公有云同樣的技術(shù)路線和架構(gòu)，比公有云有更好的安全性，比私有云有更好的靈活性。同時，有著圖商資質(zhì)的兜底，能夠保障數(shù)據(jù)全流程滿足最新的監(jiān)管要求。

博世是騰訊第一個自動駕駛專有云的客戶。因為與騰訊專有云的合作，博世才能在極其嚴苛的合規(guī)條件下，18個月就干成了城市NOA的交付，吳永橋說。

二、端到端是算力軍備賽，也是人才競賽

海量的數(shù)據(jù)隨后將投入到類似「煉金」的流程——訓練。

端到端基于模型訓練（而不是基于工程師代碼）的開發(fā)方式，決定了它可以進行大量并行的版本測試；加上模型訓練本身的數(shù)據(jù)量驚人，所以這種開發(fā)方式是「算力吞金獸」。

各個頭部廠商的云端算力都在快速增長：

華為ADS云端算力數(shù)據(jù)是7.5 EFLOPS（截止9月智界R7上市發(fā)布會）；

理想當前的云端算力是6.83 EFLOPS，并計劃年底拉到10 EFLOPS（截止11月廣州車展）；

小鵬規(guī)劃明年的云端算力是10 EFLOPS（截止11月小鵬P7+上市發(fā)布會）；

小米智駕能從集團申請到的算力上限是8.1 EFLOPS（截止11月廣州車展）；

百度智駕能從集團調(diào)度的算力規(guī)模是5 EFLOPS（截止8月成都車展）；

騰訊云能提供的云端算力規(guī)模為16 EFLOPS（截止9月騰訊全球數(shù)字生態(tài)大會）。

此外，長安的自研團隊也儲備了數(shù)千張GPU卡（截止10月啟源E07上市），并計劃明年提升到萬卡規(guī)模；極氪今年也投入了大量資金采購訓練算力。

至于特斯拉的算力規(guī)劃，則是在100 EFLOPS級別。

今年幾家頭部公司的共識是，「在未來幾年內(nèi)，用于智駕云端算力的年度算力支出，將達到10億美元級。」

相比于云端算力，只要投入足夠多的資金就可以實現(xiàn)比較快速的擴張，車端的算力可以說是「捉襟見肘」。

當前行業(yè)中的高配算力方案——單片的OrinX，能夠運行的最大模型規(guī)模在20 - 30億參數(shù)。但如果考慮智駕需求的實時性，其運行幀率要達到10 - 20Hz，那它能運行的模型規(guī)模大概只有在10億參數(shù)以內(nèi)。

因此尤其從車端算力制約的角度，并非完全是訓練的數(shù)據(jù)規(guī)模越大、云端算力越大，效果就越好。

騰訊智慧出行副總裁劉澍泉有一個比較代表性的觀點：「長期來看云端的算力需求始終會處于較大的缺口，但你是不是真的把每張卡都充分地利用起來了？以及真的要把所有的數(shù)據(jù)都投入到訓練中嗎，如何才能發(fā)揮數(shù)據(jù)真正的價值�！�

當前，使用云端大模型來做模型蒸餾部署到車端，已經(jīng)接近成為行業(yè)共識。

而云端的模型架構(gòu)、車端的模型架構(gòu)如何設(shè)計，如何打造一條圍繞數(shù)據(jù)閉環(huán)的高效工具鏈，對全行業(yè)來說都是新課題。

「端到端本質(zhì)上是，資本、人才、工程化能力的集合體�！跪v訊智慧出行副總裁劉澍泉說。

對主機廠來說，在端到端時代，是否要像過去一樣全棧自研，從零再搭地基？

劉澍泉的看法是，「大家越來越回歸理性，各自做各自擅長的事情，做增量性的創(chuàng)新�！�

三、解決端到端的安全底線：智駕地圖與視覺語言模型

過去半年內(nèi)，HiEV體驗了幾乎市面上所有廠商的端到端智駕版本，智駕系統(tǒng)隨著數(shù)據(jù)量的增長，體驗提升是肉眼可見的。

但端到端也引入了新的問題——「上限很高，沒有下限」，一位智駕行業(yè)的研發(fā)朋友如此調(diào)侃。

目前行業(yè)的普遍做法是由模型來輸出軌跡規(guī)劃，而由基于規(guī)則的控制算法來輸出具體的油門開度、剎車力度以及方向盤轉(zhuǎn)角，由此來約束車輛不會出現(xiàn)極端的安全問題。

復雜路口的道路認知也是當前也是端到端智駕方案的「重災(zāi)區(qū)」，目前HiEV體驗的多個車型智駕版本都非常容易出現(xiàn)選錯道或者壓實線的情況。

吳永橋認為，「這確是無圖方案普遍的難題。

第一，強大的感知是解決的基礎(chǔ)；

第二，全國一些特別復雜的路口，可能需要地圖做一些輕度掛接的元素，是非常有必要，而且極大改善用戶的體驗；

第三，真正做到大模型之后，需要大量的數(shù)據(jù)訓練，如果未來這個路口是不是能收集10萬個老司機開過的視頻，再以后可能就不需要了，它到了這個地方可能就知道怎么看，可能需要更長時間才能實現(xiàn)�！�

「今天來看，在純無圖完全只用SD和使用HD之間，還是有一個中間狀態(tài)，要通過輕地圖進行過渡。」劉澍泉認為，「為了增加安全冗余，城市路口的輕地圖可能會是中期來看更穩(wěn)健的方案�！�

圖商開始提供更加開放的地圖數(shù)據(jù)服務(wù)，來滿足輕圖、無圖方案的需求。比如騰訊的智駕云圖，將地圖數(shù)據(jù)以云服務(wù)的形式提供給車企，來保障更高效、靈活的地圖更新。

探尋更高的上限和更高的下限，在2024年下半年，行業(yè)也逐漸形成共識，其中一種路徑是世界模型，另一種方式則是運行車端的雙系統(tǒng)，比如視覺語言模型（VLM）或者視覺語言動作模型（VLA）。

吳永橋透露，博世將在明年推出一段式端到端的智駕方案，到2026年推出基于世界模型的版本。

「現(xiàn)在整個智駕行業(yè)路線已經(jīng)很明確，需要更大的算力，一部分算力跑端到端，另一部分算力跑視覺語言模型，這肯定是必然的方向。

智駕就是算力、算法和數(shù)據(jù)。

算力我們和騰訊合作，同時博世在全球布局了很多的算力集群。算法，結(jié)合開源的論文和廣大的中國人才，可以學得很快。數(shù)據(jù)在端到端之后大模型是最復雜的，最難獲取高質(zhì)量的數(shù)據(jù)，我們和大客戶合作，可以獲得高質(zhì)量的數(shù)據(jù)。

因為很多企業(yè)都不一定有資金有雄厚的資本。博世沒有資本的裹脅，可以長期堅持自己的戰(zhàn)略定力。我認為未來最核心的比拼是高質(zhì)量的數(shù)據(jù)，是端到端大模型能夠走得多遠多快最核心的因素�！�

原文標題 : 端到端大模型席卷廣州車展，智駕行業(yè)的一次技術(shù)大躍遷

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機：
密碼：
忘記密碼？
用其他賬號登錄： QQ | 微信 | 新浪微博

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

行業(yè)報告

2023年激光雷達應(yīng)用市場調(diào)研及前景預測報告
2023年中國光電傳感器市場發(fā)展現(xiàn)狀及投資前景分析
2023年中國汽車電子行業(yè)市場發(fā)展現(xiàn)狀及投資前景分析
2022年新能源汽車充電樁市場分析報告