沈向洋:大模型對算力需求每年增長四倍以上,合成數據催生百億創業風口
“從長遠的角度來看,人類社會發展每次巨大躍遷都是由技術創新帶來的。工業時代的全球GDP年均增速約爲1%-2%,信息時代增速爲3%-4%,人工智能時代,這個數字會是多少?”
11月22日,IDEA研究院創院理事長、美國國家工程院外籍院士沈向洋在2024 IDEA大會上表達了上述觀點。他強調,隨着AI的各項能力逼近、甚至超越人類,AI治理已成亟待全球共同面對的議題。
當天,粵港澳大灣區數字經濟研究院(下稱IDEA研究院)發佈DINO-X目標檢測視覺大模型,該模型作爲GroundingDINO系列升級之作,在多項能力上得到提升。
在檢測能力上,無需用戶提示即可檢測萬物,無論是常見物體還是罕見的長尾物體(出現頻率低但種類繁多的物體)都能精準識別並給出類別。
得益於超1億高質量樣本的大規模數據集多樣化訓練,DINO-X對未知場景和新物體適應性強,泛化能力出色,在實際應用場景中更具靈活性。
在探討AI發展脈絡時,沈向洋提及算力、算法與數據層面變化。算力上,摩爾定律指出每18個月算力需求增長一倍,而當下大模型對算力需求每年增長四倍以上,過去十年英偉達市值大幅攀升300倍與算力需求劇增緊密相關,十年間算力需求增長約100萬倍。
算法層面,2017年Transformer架構面世後,AI、深度學習、大模型多沿此路線發展,OpenAI的O1系列帶來算法突破思路,改變過往單純預訓練預測“下一個token”模式,融入類似人思考、推理的後訓練、後推理過程。
數據方面,“缺數據”已經成爲大模型行業內的共識之一。隨着GPT系列發展,數據需求激增。沈向洋透露,距離GPT3面世已經過去三年,當時OpenAI用了2T數據,1萬億Token。GPT4用了12T數據,訓練用了20T數據,“事實上,互聯網上洗乾淨的數據大概是20萬億。”
沈向洋認爲,GPT5預計需200T數據規模,合成數據可以給大模型提供更爲豐富的訓練材料,還有望催生未來百億美金級別的創業機遇。
“互聯網上已經找不到那麼多的數據,未來需要更多高質量的合成數據訓練未來的模型。”他舉例稱,1萬億的數據約等於500萬本書,20萬張高清照片,抑或500萬篇論文。人類歷史上的書籍大概是21億Tokens,微博有38億Tokens,Facebook大概擁有140TTokens的數據。
當下互聯網數據存量告急,社交媒體數據質量欠佳,合成數據受重視,且私域數據利用存在安全孤島問題。對此,IDEA研究院通過IDEADataMaker用加密方式利用私域數據生成新語料、語境圖譜。