☰

高質量數據：大模型競爭的下一站

儘管OpenAI下一代旗艦模型的上線時間還是未知數，但多方消息指向同一個可能性：性能沒那麼大飛躍了。來自OpenAI的員工和研究人員表示，高質量文本和其他數據的供應不足是GPT模型性能減速的原因之一。

國內有關數據的討論也從未降溫，僅這半個月，月之暗面創始人楊植麟說，“當Scale（規模）差不多時，更多算力可能並不一定能直接解決問題，核心是高質量的數據沒那麼多了”，螞蟻數科索性上線了全新的AI數據合成品與生產平臺。

獵豹移動董事長兼CEO、獵戶星空董事長傅盛更直白，他要捅破窗戶紙，“大模型行業競爭，真正的競爭壁壘來自於數據”，獵豹移動則聯合旗下的聚雲科技於近日推出數據服務產品“AI數據寶AirDS”。頂級模型成長放緩是好是壞？怎麼平衡人工和機器做數據標註成本？獵豹移動高管團隊向北京商報記者開誠佈公。

卡在數據上

開發過程中，OpenAI的最新模型Orion（獵戶座）未能達到預期的性能，谷歌的Gemini模型以及Anthropic的Claude3.5 Opus也都遇到了瓶頸，在業內人士看來，三家似乎都面臨相似的問題：越來越難以獲得高質量數據。

有關Scaling law（規模定律）是否失效的問題又一次被拋給大模型從業者。

用OpenAI一篇論文中的定義，所謂Scaling law,是指大模型的最終性能主要與計算量、模型參數量和訓練數據量三者的大小相關，而與模型的具體結構（層數/深度/寬度）基本無關。換言之，僅僅增加模型規模和訓練數據，就能顯著提升人工智能能力，而無需取得根本性的算法突破。

“沒人能下這個結論，”傅盛話鋒一轉，“從客觀事實看，頂級模型的能力和成長，肯定是放緩的，Scaling law不一定放緩了，但受限於數據的容量，不是說芯片和算法不重要，而是大家在這兩點上很難作出差異化。”

一種解決方案是合成數據，Epoch AI Research研究團隊預測，“到2026年，現存的用於AI模型訓練的高質量語言數據將耗盡”。

“未來的AI應用需要大量稀缺且難以獲取的長尾數據，如自動駕駛中的極端天氣與極端路況數據，具身智能訓練所需要的複雜場景數據。在此背景下，數據合成將成爲關鍵”，螞蟻數科AI科技技術負責人、螞蟻天璣實驗室主任李哲持以上觀點。

“合成數據確實是一個很重要的補充，但僅僅使用合成數據肯定是不夠的”，獵戶星空首席科學家韓堃告訴北京商報記者。獵豹移動將重點放在大模型數據服務上，AI數據寶AirDS提供數據收集、清洗、標準、提示詞工程及評估等服務。

只會“拉框”遠遠不夠

以數據標註爲例，“上一代數據標註趨向於常見的檢測、識別和固定化、規則化的任務，這些標註相對來說比較明確，比如依照視頻找物體，根據語音找文字。但在大模型時代，企業應用是多種多樣的”，獵豹移動高級副總裁孫明焱向北京商報記者舉例，“比如客戶希望用大模型查數據庫，希望讓大模型畫組織架構圖，這種需求找一個標註人員來做是挺難的”。

用傅盛的話說，大模型讓數據標註和服務走向一體化，“光僱人標人臉的時代已經適應不了現在的需求了。沒有做過大模型、大模型應用的企業，要構建這套體系需要時間”。

人工和機器間的平衡，也沒有特定的套路。

“數據服務肯定是需要人工的，但大模型時代會大量借鑑AI模型和工具來提高數據標註的效率,”韓堃進一步說，“如果所有的數據服務都通過人工服務，標註或清理的速度肯定跟不上，成本也非常大，但要產出高質量的數據，僅通過模型肯定是不夠的。我們在自己訓練模型的過程中發現，數量和質量的平衡點非常微妙，要通過大量實踐才能找到，一個既保證數量，質量又非常高的點。而這個點跟企業的目標相關，做預訓練、微調或者應用，對於數量和質量的要求是不太一樣的。”

2025年應用會繁榮

除了獵豹移動，螞蟻數科也採用人機協同模式。北京商報記者瞭解到，在數據標註方面，螞蟻數科AIGD平臺通過人機協同進行標註，人工智能算法能夠自動識別和預處理大部分基礎信息，預標註模型依賴人工標註量降低了70%以上。

客戶需求決定市場，市場永遠是動態的。站在客戶的角度，“大模型標註更多是在應用層發揮大模型的能力”，獵豹移動副總裁童寧透露。

他分享了一個有關讀取PDF信息的案例，“因爲合同的種類有很多種，最初客戶認爲大模型讀取PDF形式合同的正確率到80%就上不去了。後來我們做了POC（概念驗證），通過一個智能體理解上下文，調整成一些更優質的提示詞。這個流程中，標註團隊的能力體現在根據場景設計一套智能體系中間的工作流，並對應成能夠輸出的高精度的提示詞”。

這些都是大模型應用落地需要解決的問題，即大模型商業化的“最後一公里”。

“獵豹移動不靠大模型掙錢，也不靠模型接口調取量掙錢，而是通過應用去賺錢，”傅盛認爲，“現在可能沒有特別頂級的應用出來，2025年大模型應用的繁榮是可見的。”

他以OpenAI爲例，“最近薩姆·奧爾特曼（OpenAI CEO）接受採訪，人家問他OpenAI最缺什麼，他說我們最缺產品。OpenAI也是把產品能力、應用能力加強了，最近半年內推出的功能都是應用在做的。所以我認爲，2025年應該是大模型大繁榮的一年”。

北京商報記者魏蔚

高質量數據：大模型競爭的下一站

相關資訊