英偉達最新研究成果!開闢機器人導航更多可能 無需地圖可實時感知

《科創板日報》12月11日訊(編輯 宋子喬) 日前,加州大學研究人員和英偉達共同發佈了新的視覺語言模型“NaVILA”。亮點在於,NaVILA模型爲機器人導航提供了一種新方案。

NaVILA模型的相關論文

視覺語言模型(VLM)是一種多模態生成式AI模型,能夠對文本、圖像和視頻提示進行推理。它通過將大語言模型(LLM)與視覺編碼器相結合,使LLM具有“看”的能力。

傳統的機器人行動往往依賴於預先繪製的地圖和複雜的傳感器系統。而NaVILA模型不需要預先的地圖,機器人只需“聽懂”人類的自然語言指令,結合實時的視覺圖像和激光雷達信息,實時感知環境中的路徑、障礙物和動態目標,就可以自主導航到指定位置。

不僅擺脫了對地圖的依賴,NaVILA還進一步將導航技術從輪式擴展到了足式機器人,希望讓機器人應付更多複雜場景,使其具備跨越障礙和自適應路徑規劃的能力。

在論文中,加州大學研究人員使用宇樹Go2機器狗和G1人形機器人進行了實測。根據團隊統計的實測結論,在家庭、戶外和工作區等真實環境中,NaVILA的導航成功率高達88%,在複雜任務中的成功率也達到了75%。

Go2機器狗接受行動指令:向左轉一點,朝着肖像海報走,你會看到一扇敞開的門

G1人形機器人接受行動指令:立即左轉並直行,踩上墊子繼續前進,直到接近垃圾桶時停下來

據介紹,NaVILA模型的特點在於:

優化準確性與效率:NVILA模型在訓練成本上降低了4.5倍,微調所需內存減少了3.4倍。在預填充和解碼的延遲上幾乎降低了2倍(這些數據是與另一個大型視覺模型LLaVa OneVision進行比較得出的)。

高分辨率輸入:NVILA模型並不通過降低照片和視頻的大小來優化輸入,而是使用高分辨率圖像和視頻中的多個幀,以確保不丟失任何細節。

壓縮技術:英偉達指出,訓練視覺語言模型的成本非常高,同時,微調這樣的模型也非常耗費內存,7B參數的模型需要超過64GB的GPU內存。因此英偉達採用了一種名爲“先擴展後壓縮”的技術,通過將視覺信息壓縮爲更少的token,來減少輸入數據的大小,並將像素進行分組,以保留重要信息,平衡模型的準確性與效率。

多模態推理能力:NVILA模型能夠根據一張圖片或一段視頻回答多個查詢,具有強大的多模態推理能力。

在視頻基準測試中,NVILA的表現超過了GPT-4o Mini,並且在與GPT-4o、Sonnet 3.5和Gemini 1.5 Pro的比較中也表現出色。NVILA還在與Llama 3.2的對比中取得了微弱勝利。

英偉達表示,目前尚未將該模型發佈到Hugging Face平臺上,其承諾會很快發佈代碼和模型,以促進模型的可復現性。