端到端2025年上車,華爲、小鵬們早已準備好了

端到端在中國,將從一個熱詞變爲現實。

近日,辰韜資本聯合多家單位發佈了2024年度《端到端自動駕駛行業研究報告》(以下簡稱《報告》)認爲:國內自動駕駛公司的模塊化端到端方案上車量產時間可能會在2025年。

《報告》把“端到端”的發展四個階段:感知“端到端”、決策規劃模型化、模塊化端到端、以及One Model端到端。

而One Model端到端系統中性預期落地時間會晚於模塊化端到端1~2年時間,從2026年至2027年開始上車量產。

這與我國頭部相關企業的規劃相契合。

目前,包括華爲、小鵬、元戎啓行、商湯絕影等國內頭部乘用車自動駕駛企業已經公開端到端自動駕駛方案在2024-2025年上車的規劃。

從熱詞到現實,端到端將如何落地?

什麼是端到端?

端到端的概念早已有之,應用在自動駕駛行業中,最初的核心定義是“從傳感器輸入到控制輸出的單一神經網絡模型”。

但《報告》調研後認爲,端到端的核心定義標準應爲:感知信息無損傳遞、可以實現自動駕駛系統的全局優化。並可分爲四個階段:感知“端到端”、決策規劃模型化、模塊化端到端、以及One Model端到端。

一、二階段都能感知信息無損傳遞,可以進行梯度傳導。

模塊化端到端雖然仍然分爲多個模塊,但是每個模塊都可以模型化從而感知信息無損傳遞,可以實現全局優化。模塊化端到端仍屬於判別式/監督學習的類型。

One model則是生成式/自迴歸模式,基於生成式大模型概念,依賴於LLM或世界模型。

爲什麼自動駕駛行業現在開始向端到端進行技術轉型?

零一汽車智能駕駛合夥人,前圖森感知負責人王泮渠在發佈《報告》的討論會上表現,傳統算法系統在落地實踐中,正在面臨諸多挑戰:

分模塊導致架構複雜。傳統算法系統通常有三四十個模塊,各個模塊上限不高,但信息傳輸和系統優化難度高,模塊與系統之間的局部與整體優化目標衝突;

研發成本。開發/維護/人力成本隨着模塊增加而飆升;

泛化性較差。疊加規則應對交付壓力,導致維護性和可擴展性變差;

大規模產品化落地困難。當前主流產品只能在有限的場景(如某幾個城市/示範區/高速)做定點而非規模化運營。算法與軟硬件綁定過深,也很難兼容更多車型/平臺/場景;

端到端則提供了新的解題思路。

作爲產品,端到端對自動駕駛的長尾場景有很強的應對能力,更加擬人化。而且,基於端到端的架構形式,將“簡化組織架構,優化開發流程效率,拆除部門牆。”辰韜資本投資經理劉煜冬表示。

從實踐來看,特斯拉應用端到端神經網絡架構的FSD V12的平均接管歷程從此前的166英里提升到了333英里。

同時,大語言模型和生成式AI的發展表明了數據驅動帶動自動駕駛趨向AGI的可行性。

在《報告》看來,中國智駕/自動駕駛業內對端到端已經形成戰略共識,絕大多數已經全面擁抱或積極預研端到端,但對未來預期仍存在較大分析。

對於落地實踐,激進者估計在2年之內,保守者則認爲要5年以上。

有趣的是,木頭姐對特斯拉未來五年內無法推出自動駕駛出租車的可能性判斷是“微乎其微”。

端到端是否是終局技術路線,並對業內現有格局產生顛覆式影響,受訪者的觀點則是一半一半。

端到端的落地條件

戰略認同,但要落地端到端仍是困難重重。

《報告》認爲,端到端的落地也面臨諸多挑戰,包括技術路線、數據和算力需求、測試驗證、組織資源投入等。

數據是第一道難題。

目前公開信息顯示,特斯拉從超過20億英里中挖掘了數萬小時的視頻數據作爲FSD的訓練所需。一位自動駕駛工程師也提到,他們在訓練端到端模型時發現,原本積累的路測數據只有 2%可以用。

訓練數據量外,端到端如何做數據閉環也成爲新的難題。

過去,模塊化的傳統系統中,每個模型任務非常具體,例如檢測紅綠燈。機器學習後,可以用千萬紅綠燈數據對其進行閉環的驗證,迭代。

但面向“開車”這個全局任務的端到端系統,稱得上“閉環”的驗證方法,即讓學習後的系統直接開車上路,由真實世界對其進行反饋。

但顯而易見,在確定高安全性之前,沒有人敢讓系統在真實世界中“閉環”。同時,端到端系統大幅降低接管率之後,也讓依賴測試車一類的“閉環”方式更加困難。

特斯拉創始人馬斯克在近期的股東大會上便表示,沒有像特斯拉的一樣數十萬輛車隊,通過影子模式對其系統進行閉環測試,便無法參與這場“遊戲”。

對於數據量和閉環的困難,光輪智能創始人CEO謝晨表示:“只有特斯拉具有特斯拉的數據量級和能力,合成數據是解決端到端數據短缺的最有效方法。”

合成數據需要滿足視覺、物理的真實性;Agent交互性和規模效率的要求。“光輪的合成數據可以高度閉環復現,以及精確泛化,實現多Agent高交互。三年內合成數據將是大模型數據最主要的數據來源。光輪智能賦予每個企業特斯拉的數據能力,100倍放大數據價值。”

算力另一項顯而易見的難題。

在《報告》的調研中,大部分受訪者表示100張大算力GPU(如A100)即可開始端到端的第一階段訓練。

但從特斯拉和其他領先玩家的實踐來看,要做出好的端到端,對訓練算力的需求顯然不只這一數量級。

在2024Q1財報電話會上,特斯拉表示,公司已經有35000張H100 GPU,並計劃在2024年內增加到85000張H100以上,達到和谷歌、亞馬遜同一梯隊。

在這一規模預期下,馬斯克近期表示特斯拉已經不再算力緊張。

國內,小鵬“ 扶搖 ”自動駕駛智算中心,算力可達600PFLOPS(以英偉達A100 GPU的FP32算力推算,約等於3萬張A100 GPU),並宣佈今年投入1億美元用於算力建設,未來每年將進一步加大投資。

商湯大裝置已經佈局全國一體化的智算網絡,擁有4.5萬塊GPU,總體算力規模達12000PFLOPS,2024年底將達到18000PFLOPS。

大部分研發端到端自動駕駛的公司目前的訓練算力規模在千卡級別。

端到端的國內落地情況

目前,國內主機廠、自動駕駛算法和系統公司都已經拿出了自己的端到端系統,甚至部分已經量產上車,或實現定點。

上半年,華爲、小鵬先後公佈了自己的端到端系統。

華爲乾崑ADS 3.0的技術架構,感知部分採用GOD(General Object Detection,通用障礙物識別)的大感知網絡,決策規劃部分採用 PDP(Prediction-Decision- Planning, 預測決策規控)網絡實現預決策和規劃一張網。

小鵬的端到端大模型由神經網絡XNet+規控大模型XPlanner+大語言模型XBrain組成。端到端大模型上車後,18個月內小鵬智能駕駛能力將提高30倍,每2天內部將做一次智駕模型的迭代。

其中,小鵬的端到端模型已於5月開始推送。

從事卡車業務的零一汽車也推出了基於大模型的純視覺端到端自動駕駛系統。整個系統使用攝像頭和導航信息作爲輸入,經過多模態大語言模型的解碼產生規控信號和邏輯推理信息,將系統複雜度降低 90%。

零一計劃在2024年底實現端到端自動駕駛的部署上車,2025年在商用車與乘用車平臺上同時實現量產,並計劃於2026年實現高階自動駕駛的大規模商業化運營。

商湯絕影是目前極少數實踐一段式端到端的智駕企業。在嘗試合理解釋所有場景時,發現需要定義的感知和規控接口是無窮無盡的,而一段式的端到端能力上限會更高,“所以我們一開始在開發端到端方案的時候,就是按照一段式的這種方式來推進的。”商湯絕影智能駕駛產品總監趙祥磊表示。

商湯絕影端到端方案 “UniAD”

北京車展上,商湯絕影推出面向量產的端到端自動駕駛解決方案 “UniAD”,無需高精地圖,通過數據學習和驅動就可以像人一樣觀察並理解外部環境,自己思考並作出決策像人一樣開車,自主解決各種高難度的城市複雜駕 駛場景。

同時,商湯絕影也發佈了其下一代自動駕駛技術DriveAGI,即基於多模態大模型對端到端智駕方案進行改進和升級的 “One Model 端到端 ”。

北京車展期間,鑑智機器人聯合創始人、CTO都大龍表示,鑑智原創的自動駕駛端到端模型 GraphAD已經可量產部署,並正與頭部車企進行聯合開發。“之所以將端到端範式稱爲GraphAD, 是因爲鑑智使用了圖形結構來顯示建模目標,包括動態和靜態障礙物之間的關係 ——這使得端到端模型訓練起來更容易也進一步減少對數據量的需求。”

《報告》展望,基於自動駕駛行業頭部玩家紛紛提出端到端量產規劃,預計模塊化端到端系統將於2025年開始上車,這將帶動上游技術進步、市場和產業格局演變。

在技術上,端到端的落地會推動其依賴的上游工具鏈、芯片等加速進步。

市場端,端到端帶來的自動駕駛體驗提升,將會帶來高階輔助駕駛滲透率的提升;由於其強泛化性,端到端也可能驅動自動駕駛跨地理區域、跨國家、跨場景的應用。

產業格局方面,端到端使數據和AI人才的重要性進一步提升,可能催生新的產業分工和商業模式。