對話天娛數科CEO賀晗:3D數據集,人形機器人競爭“新燃點”

21世紀經濟報道記者雷晨 北京報道

作爲未來產業的前沿領域,人形機器人已成爲全球科技和產業競爭的新賽道。

近期,隨着特斯拉、OpenAI、英偉達等科技巨頭的加碼佈局,人形機器人賽道迎來空前熱度。

從市場空間看,據GGII預測,2030年全球市場規模將突破200億美元,中國市場規模將達到50億美元左右。特斯拉CEO埃隆·馬斯克展望,長期來看人形機器人需求量可能達100億臺。

那麼,如何看待本輪的人形機器人熱?人形機器人會有怎樣的發展階段?圍繞這些問題,21世紀經濟報道記者採訪了全國政協委員、天娛數科(002354.SZ)CEO賀晗。

人形機器人發展的三個階段

《21世紀》:當下人形機器人產業火熱,背後的原因你怎麼看?

賀晗:火熱的背後是技術跨越帶來的產業變革浪潮。今年以來,大模型技術與機器人技術加速融合、進化,使人形機器人成爲具身智能的關鍵載體,爲人形機器人帶來了革命性的變革,讓門檻大幅降低、場景快速增多,催生了“研發熱”、“應用熱”、“投資熱”。

《21世紀》:目前,雖然產業火熱,但人形機器人應用場景還比較單一,特別在日常生活中,還替代不了人,缺乏人的適應性和場景泛化,技術的跨越體現在哪裡?

賀晗:過去我們談人形機器人技術時,硬件談的比較多,比如電機、減速器、滾珠絲槓等,而這次的技術跨越主要是在人形機器人大腦和小腦方面,從這個角度來看,可分三個發展階段。

1.0階段:基於程序控制的演示階段。人形機器人脫胎於工業機器人,加上擬人化的外形,目的在日常生活中進行應用,過去大部分人形機器人行爲控制與工業機器人一樣,依賴於程序控制,即通過預先編寫的程序或強化學習算法進行控制。這些程序通常是由工程師根據特定的任務和場景進行編寫,機器人按照指令完成簡單的動作演示。雖然強化學習技術在這一階段開始應用,通過強化學習,人形機器人能夠在模擬環境中進行大量的試驗和探索,通過與環境的互動和不斷的試錯來改善自身的行爲,學習到比較複雜的運動技能,如行走、跑步、跳躍、踢球等,但其應用主要限於固定任務範圍內的優化,缺乏自主決策能力,更談不上適應環境。這個階段的人形機器人功能比較單一,只能完成一些預先設定的任務,主要應用於科技館、展覽會等場所,作爲展示科技成果的工具。例如,在一些科技展覽會上,人形機器人可以進行特定舞蹈、武術等表演,吸引觀衆的注意力。由於程序控制的侷限性,機器人的動作和行爲比較僵硬,缺乏靈活性和適應性。

2.0階段:基於大模型的模仿階段。去年以來,大模型技術一日千里、加速進化,並與機器人運動控制技術開始深度融合,特別是在Transformer和Diffusion的快速迭代升級下,機器人模仿學習技術有了巨大突破並開始流行,如DiffusionPolicy、ACT(ActionChunkingwithTransformer)等。模仿學習技術讓人形機器人通過觀察和模仿人類的行爲,直接從人類的示範中學習動作和技能,快速掌握一些複雜的操作,如穿衣、做飯、打掃衛生等日常生活動作,以及特定領域的專業技能,如工業生產中的零件裝配、醫療護理中的簡單操作等。結合虛擬仿真平臺技術,將模仿學習的數據在仿真環境進行海量泛化訓練,可以更好的提高泛化能力和適應性。與強化學習相比,模仿學習不僅幫助人形機器人省去了1.0階段中複雜且耗時的編程工作,可以零代碼部署、作業,還避免了強化學習中大量的試錯過程,因爲它直接利用了人類提供的示範數據,大幅提高了學習的效率和數據的利用率。與此同時,視覺-語言-動作(VLA)模型的發展讓人形機器人能夠更高效地完成從視覺、語言理解到推理並生成動作的全過程,將自然語言指令轉化爲具體行動規劃,並具備一定泛化能力,使人形機器人成爲具身智能關鍵載體,這是革命性的。

3.0階段:基於海量3D數據的智能階段。這是下一步的發展方向,從被動響應和執行到主動感知和決策,是這個階段的標誌。核心是海量3D數據的餵養,讓具身智能構建世界模型,這是真正意義上的具身智能大模型,它能創建對世界運作方式的內部表徵,並具備行動後果的推理能力,從而顯著提升對真實世界的感知、推理、執行與預測能力,使機器人認識和理解3D世界,並能夠像人類一樣進行推理和規劃,不僅可以適應複雜多變的環境和任務需求,更爲重要的是,具備自主決策、行動與操作能力。同時,隨着多智能體協同技術的引入,未來,這一方向可能發展出更加高級的羣體智能算法和多智能體系統,使得具身智能體能夠協同完成複雜任務。

例如,在家庭陪伴場景中,機器人能夠利用3D空間數據理解家庭成員的行爲,並通過世界模型進行因果推理。如當檢測到老人在客廳摔倒時,能夠迅速判斷位置並主動聯繫急救人員,同時採取初步的急救措施。當具身智能可以高度智能化的執行與人類相同的任務,則代表我們真正邁入了通用智能時代。

3D數據集:人形機器人競爭“新燃點”

《21世紀》:所以說3D數據是人形機器人發展的關鍵資源?

賀晗:是的。3D數據對於提供真實人物、場景的展示、豐富的交互和決策支持至關重要,3D數據能讓AI對物理世界人與物的形態、結構、位置、動作有更準確的理解,可以在三維場景中像人類一樣對視覺信息進行高級推理,超越二維視覺的侷限。具身智能大模型極端依賴大規模、高質量的3D數據訓練。當下高質量3D數據集匱乏是產業痛點,全球範圍內,3D數據都處於極端重要,又極端缺乏的狀態。3D數據集正在成爲競爭的核心節點。2023年10月,谷歌DeepMind聯合全球33家頂級學術實驗室共同開發OpenX-Embodiment數據集,基於該數據集訓練了RT-X系列3D多模態大模型用於人形機器人。2024年3月,斯坦福大學、伯克利大學聯合全美多家頭部研究機構推出DROID分佈式機器人交互數據集,涵蓋3D軌跡、3D場景等。2024年3月,全球著名人工智能專家李飛飛教授領銜、聯合美國多所大學推出BEHAVIOR-1K具身智能數據平臺,涵蓋了50個場景、9000多個具有豐富物理和語義屬性的物體。3D數據集,在可見的未來,決定3D多模態大模型和空間智能的發展,以及全球科技競爭的走勢。

《21世紀》:天娛數科在這方面有什麼佈局?

賀晗:3D數據集的發展有兩個痛點,一是3D數據的獲取與處理成本高昂、流程繁雜,需要大量的時間、人力與資金投入;二是3D數據的標準化程度低,導致數據的兼容性較差,共享和複用難度大。

爲了解決第一個問題,我們去年與合肥產投一起戰略投資了芯明。芯明是一家專注空間計算及人工智能芯片及產品設計的高科技企業,其自研空間計算芯片是目前全球唯一單芯片集成芯片化實時3D立體視覺感知、AI、SLAM(實時定位建圖)的空間智能系統級芯片,採用12nm製程工藝,具備3.5TOPS的端側算力,功耗僅爲約0.5W,可支持單芯片接入6路傳感器,其產品解決方案已在全球範圍內應用在泛機器人、XR、消費電子、物流無人機、3D掃描等多個前沿應用領域的龍頭企業產品中,真正實現了“感算一體、多路融合、空間智能”的功能。與芯明合作後,依託其芯片和模組優勢,我們通過多種高精度3D掃描設備,採集3D場景、模型、動作等多類數據源,大幅降低了3D數據採集成本。

爲了解決第二個問題,我們融合大模型、3D數據集、可視算法,構建了空間智能MaaS平臺,通過跨類型數據的智能解析提高數據標準化程度和易用性。目前模型與多項算法已完成中央網信辦生成式人工智能服務備案。平臺目前擁有超80萬組3D數據、35萬組多模態數據。今年10月份,我們採集加工形成的“人形機器人空間動捕長程數據”、“大場景空間感知模型重建數據”等5個3D具身智能數據集正式在北京國際大數據交易所完成數據資產登記,通過數據信息的核驗、合規審查、登記備案等環節,成爲全國首個完成資產登記的3D具身智能數據集。未來,天娛數科將在模型訓練、數據集拓展、平臺性能優化等方面持續努力,不斷深化AI+3D技術競爭優勢。

《21世紀》:你對中國人形機器人產業發展有什麼建議?

賀晗:一是加快標準制定與完善,包括硬件接口標準、軟件通信協議標準、3D數據集標準、性能標準等,確保不同企業的產品之間能夠實現更好的兼容性和互操作性,同時大力推動標準國際化。

二是加強複合型人才培養,目前人形機器人領域懂機械、自動化、程序控制的很多,懂大模型、具身智能的很少,兩者都懂的少之又少,建議在高校中設置具身智能相關專業或方向,加強多學科交叉融合,增加實踐教學環節,培養學生的跨學科思維和實際動手能力。

三是鼓勵通用平臺建設,建立從硬件到軟件、從底層到應用層、從模型底座到3D數據集的多層次具身智能通用平臺架構,鼓勵企業、高校和科研機構等各方在平臺上進行技術研發、應用創新和資源共享,形成良好的產業協同創新氛圍,降低創業門檻,避免重複“造輪子”,加速具身智能技術的推廣應用和產業化進程。