高質量數據:大模型競爭的下一站
儘管OpenAI下一代旗艦模型的上線時間還是未知數,但多方消息指向同一個可能性:性能沒那麼大飛躍了。來自OpenAI的員工和研究人員表示,高質量文本和其他數據的供應不足是GPT模型性能減速的原因之一。
國內有關數據的討論也從未降溫,僅這半個月,月之暗面創始人楊植麟說,“當Scale(規模)差不多時,更多算力可能並不一定能直接解決問題,核心是高質量的數據沒那麼多了”,螞蟻數科索性上線了全新的AI數據合成品與生產平臺。
獵豹移動董事長兼CEO、獵戶星空董事長傅盛更直白,他要捅破窗戶紙,“大模型行業競爭,真正的競爭壁壘來自於數據”,獵豹移動則聯合旗下的聚雲科技於近日推出數據服務產品“AI數據寶AirDS”。頂級模型成長放緩是好是壞?怎麼平衡人工和機器做數據標註成本?獵豹移動高管團隊向北京商報記者開誠佈公。
卡在數據上
開發過程中,OpenAI的最新模型Orion(獵戶座)未能達到預期的性能,谷歌的Gemini模型以及Anthropic的Claude3.5 Opus也都遇到了瓶頸,在業內人士看來,三家似乎都面臨相似的問題:越來越難以獲得高質量數據。
有關Scaling law(規模定律)是否失效的問題又一次被拋給大模型從業者。
用OpenAI一篇論文中的定義,所謂Scaling law,是指大模型的最終性能主要與計算量、模型參數量和訓練數據量三者的大小相關,而與模型的具體結構(層數/深度/寬度)基本無關。換言之,僅僅增加模型規模和訓練數據,就能顯著提升人工智能能力,而無需取得根本性的算法突破。
“沒人能下這個結論,”傅盛話鋒一轉,“從客觀事實看,頂級模型的能力和成長,肯定是放緩的,Scaling law不一定放緩了,但受限於數據的容量,不是說芯片和算法不重要,而是大家在這兩點上很難作出差異化。”
一種解決方案是合成數據,Epoch AI Research研究團隊預測,“到2026年,現存的用於AI模型訓練的高質量語言數據將耗盡”。
“未來的AI應用需要大量稀缺且難以獲取的長尾數據,如自動駕駛中的極端天氣與極端路況數據,具身智能訓練所需要的複雜場景數據。在此背景下,數據合成將成爲關鍵”,螞蟻數科AI科技技術負責人、螞蟻天璣實驗室主任李哲持以上觀點。
“合成數據確實是一個很重要的補充,但僅僅使用合成數據肯定是不夠的”,獵戶星空首席科學家韓堃告訴北京商報記者。獵豹移動將重點放在大模型數據服務上,AI數據寶AirDS提供數據收集、清洗、標準、提示詞工程及評估等服務。
只會“拉框”遠遠不夠
以數據標註爲例,“上一代數據標註趨向於常見的檢測、識別和固定化、規則化的任務,這些標註相對來說比較明確,比如依照視頻找物體,根據語音找文字。但在大模型時代,企業應用是多種多樣的”,獵豹移動高級副總裁孫明焱向北京商報記者舉例,“比如客戶希望用大模型查數據庫,希望讓大模型畫組織架構圖,這種需求找一個標註人員來做是挺難的”。
用傅盛的話說,大模型讓數據標註和服務走向一體化,“光僱人標人臉的時代已經適應不了現在的需求了。沒有做過大模型、大模型應用的企業,要構建這套體系需要時間”。
人工和機器間的平衡,也沒有特定的套路。
“數據服務肯定是需要人工的,但大模型時代會大量借鑑AI模型和工具來提高數據標註的效率,”韓堃進一步說,“如果所有的數據服務都通過人工服務,標註或清理的速度肯定跟不上,成本也非常大,但要產出高質量的數據,僅通過模型肯定是不夠的。我們在自己訓練模型的過程中發現,數量和質量的平衡點非常微妙,要通過大量實踐才能找到,一個既保證數量,質量又非常高的點。而這個點跟企業的目標相關,做預訓練、微調或者應用,對於數量和質量的要求是不太一樣的。”
2025年應用會繁榮
除了獵豹移動,螞蟻數科也採用人機協同模式。北京商報記者瞭解到,在數據標註方面,螞蟻數科AIGD平臺通過人機協同進行標註,人工智能算法能夠自動識別和預處理大部分基礎信息,預標註模型依賴人工標註量降低了70%以上。
客戶需求決定市場,市場永遠是動態的。站在客戶的角度,“大模型標註更多是在應用層發揮大模型的能力”,獵豹移動副總裁童寧透露。
他分享了一個有關讀取PDF信息的案例,“因爲合同的種類有很多種,最初客戶認爲大模型讀取PDF形式合同的正確率到80%就上不去了。後來我們做了POC(概念驗證),通過一個智能體理解上下文,調整成一些更優質的提示詞。這個流程中,標註團隊的能力體現在根據場景設計一套智能體系中間的工作流,並對應成能夠輸出的高精度的提示詞”。
這些都是大模型應用落地需要解決的問題,即大模型商業化的“最後一公里”。
“獵豹移動不靠大模型掙錢,也不靠模型接口調取量掙錢,而是通過應用去賺錢,”傅盛認爲,“現在可能沒有特別頂級的應用出來,2025年大模型應用的繁榮是可見的。”
他以OpenAI爲例,“最近薩姆·奧爾特曼(OpenAI CEO)接受採訪,人家問他OpenAI最缺什麼,他說我們最缺產品。OpenAI也是把產品能力、應用能力加強了,最近半年內推出的功能都是應用在做的。所以我認爲,2025年應該是大模型大繁榮的一年”。
北京商報記者 魏蔚