沈向洋,發了一個可以識別萬物的大模型

作者 | 鄧詠儀

編輯 | 蘇建勳

“講卡傷感情,沒卡沒感情。”

2024年的IDEA大會上,IDEA創院理事長、美國國家工程院外籍院士沈向洋,拋出了一句格外現實又幽默的話。

另一方面,這也展現了他對未來AI時代一種鮮明的樂觀情緒。

大模型的發展已經不如ChatGPT發佈後那樣,經歷陡峭增長。進入到人類探索AGI(通用人工智能)的第二年,大語言模型的迭代已經放緩。相應地,AI應用、落地,佔據了全球話題的中心。

但沈向洋覺得,雖然GPT-5尚未見身影,但算力的增長還是呈樂觀趨勢——根據EPOCH AI數據統計,大模型對於算力的需求,每年都是呈現四倍多的增長。

按這樣的增長速度,以往按18個月算力漲一倍的摩爾定律也不再奏效。沈向洋重點解釋了黃仁勳的“黃氏定律”,以模型訓練來衡量算力的增長。若恆定按照一年漲四倍的算力速度增長,十年或許會預見100萬倍的算力需求增長。不過這一定律,仍需要時間來檢驗。

“大模型要往前走,不單是參數擴大、模型規模大了之後,對訓練的要求變高了,數據量也要增長。某種意義上來講,對算力的需求呈跟參數的平方關係,這就是不得了的算力需求。”他說。

沈向洋 來源:作者拍攝

“過去這幾年大家都講‘人工智能三件套’,實際上都繞不開‘算力、算法、數據’這三件事情。”在這次大會上,沈向洋穿針引線,花了3個小時圍繞“算法、算力、數據”這三個方向,來介紹IDEA的全新進展。

視覺模型仍是IDEA的研究重點——IDEA正式發佈的最新通用視覺大模型DINO-X,可以擁有真正的物體級別理解能力。

這意味着,不像普通的視覺模型有訓練數據的限制,DINO-X可以實現開放世界(Open-world)實現目標檢測——無需用戶提示,直接就可以檢測所有物體,包括罕見的長尾物體(出現頻率低但種類繁多的物體)。

這也會大大拓展模型的落地場景。

比如,“具身智能”是2024年火了一整年的AI行業話題。對於視障人士服務、服務類機器人等高難度場景,以往非常依賴大量的高質量數據標註,耗費巨量人力。但在DINO-X的幫助下,視覺模型可以幫助標註公司快速完成大批量的高質量圖像標註或者爲標註員提供自動化的輔助結果,從而降低手工標註的工作量。

來源:IDEA

對傳統的視覺模型應用廣泛的場景,DINO-X也在自動駕駛、智能安防、工業檢測等領域,會成爲一個有力的補充,系統能夠應對各種複雜場景,識別出傳統模型難以檢測的物體。

IDEA團隊還推出行業平臺架構,通過一個大模型基座,結合通用識別技術結合,讓模型不需重新訓練,就可邊用邊學,支撐多種多樣的B端應用需求。

“用一個模型解決一百萬個問題”,是這次模型發佈的關鍵理念。

有別於主流的“全圖理解”的方法,IDEA通過在物體級別的理解上加入語言模塊,來優化大模型的幻覺問題。結合自研的“視覺提示優化”方法後,無需更改模型結構,不用重新訓練模型,也可以實現小樣本下的場景化定製。

來源:IDEA研究院

不過,隨着模型體量不斷變大,高質量數據已經成爲桎梏。“現在人工智能的發展,已經耗盡了人類社會的所有高質量數據。”沈向洋表示。

合成數據隨之而生。IDEA團隊此次也發佈了自研的語境圖譜技術,解決過往文本數據合成方案的多樣性匱乏等問題。該技術相當於是合成數據引入“指導手冊”,以圖譜爲綱,指導用於合成的語境採樣。

從實驗結果顯示,IDEA團隊的方案能持續爲大模型帶來能力提升,表現超過目前的最佳實踐(SOTA);從token消耗來看,平均節約成本85.7%。目前,該技術內測平臺已開放,通過API提供服務。

在2024年,IDEA在AI應用落地層面明顯提速。相較去年的科研論文閱讀平臺,今年IDEA公佈了更多垂直領域的應用探索。

在預測方面,IDEA研發了多個化學領域專家大模型,在分子屬性預測和化學反應預測能力上,都可以達到業界領先水平。

AI模型也可以應用在科研數據上,加快科研數據的處理速度。IDEA新發布的化學文獻多模態大模型,就聯合晶泰科技發佈專利數據挖掘平臺PatSight。這一模型將藥物領域的專利化合物數據挖掘時間,從數週縮短至1小時。

而今年的一大熱門方向——AI編程,正是因爲模型智力水平不斷提升,而成爲下一個熱門的應用方向。IDEA研究院的MoonBit團隊,就展示了其開發平臺的編程模塊MoonBit。這個雲原生AI編程工具,已具備完備的多後端支持和跨平臺能力,可在硬件上直接運行,支持RISC-V架構,並將於12月正式開放。

模型也從軟件層面走到硬件層面,更多在現實世界產生效用。

坐落在大灣區IDEA,有着得天獨厚的硬件產業基礎和優勢。這次會議上,IDEA也一連宣佈三個合作:與騰訊合作,在深圳福田區、河套深港科技創新合作區落地建設福田實驗室,聚焦人居環境具身智能技術;與美團合作,探索無人機視覺智能技術;與比亞迪合作,拓展工業化機器人智能應用。

“低空經濟”則是另一個IDEA強調的領域。IDEA不僅發佈了《低空經濟發展白皮書3.0》,還發起共建OpenSILAS創新聯合體,與17家首批發起單位攜手,預期打造一個開放共享、技術領先、不斷迭代的系統和平臺。

2024年,已經是IDEA大會的第四屆大會。在這四年中,AI不僅從以CV(視覺識別)爲主的1.0時代,跨越到以生成式AI爲主的2.0時代,更是帶來了AI治理等下一個時代的重要命題。如今的人類社會也許需要更多思考:我們與AI該如何更好地共存?

“AI的發展,能不能從經濟最大的增長,轉化到人類的最大福祉?這是在座的,在IDEA研究院從事技術研發的同事,以及產業落地的同事,在人工智能發展的道路上必須要去思考的問題。”沈向洋說。