OpenAI最強競對發佈Claude 3,超過GPT-4,理解能力接近人類

剛剛,被稱爲“OpenAI最強競對”的大模型公司 Anthropic 重磅發佈了其第三代人工智能(AI)模型 ——Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。

其中,Claude 3 Opu 爲 Claude 3 系列模型的最強版本,具有接近人類的理解能力,可以靈巧地處理開放式提示和複雜的任務,根據官方給到的資料,其性能全面超過了 GPT-4。

值得一提的是,Claude 3 系列模型具有與其他領先模型同等的複雜視覺功能,可以處理各種視覺格式,包括照片、圖表、圖形和技術圖表。

Anthropic 在其官方 X 上表示,Claude 3 系列模型“在推理、數學、編碼、多語言理解和視覺方面樹立了新的行業基準”。

據介紹,Claude 3 Opus 和 Claude 3 Sonnet 現已可以通過 API 直接訪問。目前,API 也已全面開放,開發人員可立即開始使用這些模型。

另外,Claude 3 Sonnet 還可以供部分地區的用戶在網站(http://claude.ai)上免費體驗,而 Claude 3 Opus 的使用權限,則只開放給了 Claude Pro 用戶。

此外,Anthropic 團隊還表示,Claude 3 系列模型解決了之前模型經常出現“不必要的拒絕”的問題。

智能新標準

評測結果顯示,Claude 3 Opus 在 AI 系統的大多數常用評估基準上都優於同類產品,包括本科生水平的專家知識(MMLU)、研究生水平的專家推理(GPQA)、基礎數學(GSM8K)等。它在複雜任務上表現出了接近人類水平的理解力和流暢性,“引領着通用智能的前沿”。

所有 Claude 3 模型在分析和預測、細微內容創建、代碼生成以及西班牙語、日語和法語等非英語語言對話方面的能力都得到了提高。

近乎即時的結果

Claude 3 系列模型支持實時客戶聊天、自動完成和數據提取任務,在這些任務中,響應是即時和實時的。

其中,Claude 3 Haiku 是市場上同智能類別中速度最快、性價比最高的模型。它可以在三秒內讀取 arXiv 上一篇信息和數據密集的研究論文(約 10k token),並附帶圖表和圖形。

在絕大多數工作負載中,Claude 3 Sonnet 的智能水平比 Claude 2 和 Claude 2.1 高出了 2 倍。它在知識檢索或銷售自動化等要求快速響應的任務中表現出色。Claude 3 Opus 的速度要慢一些,與 Claude 2 和 Claude 2.1 類似,但智能水平更高。

準確性提高

與 Claude 2.1 相比,Claude 3 Opus 在具有挑戰性的開放式問題上的準確率(或正確答案)提高了兩倍,同時也減少了錯誤答案。

除了做出更可信的回答外,Claude 3 系列模型爲來將啓用引用功能,這樣就可以通過指出參考資料中的精確句子來驗證答案。

200K 上下文窗口和近乎完美的記憶

現在,Claude 3 系列模型可提供 200K 上下文窗口。不過,所有三種型號都能接受超過 100 萬個 token 的輸入,未來也可能會向需要增強處理能力的特定客戶提供這種服務。另外,Claude 3 Opus 實現了接近完美的召回率,準確率超過 99%。

Anthropic 團隊表示,爲提高模型的安全性和透明度,他們將繼續開發諸如憲法人工智能(Constitutional AI)等方法,並對模型進行微調,以減輕新模式可能帶來的隱私問題。

雖然與之前的模型相比,Claude 3 系列模型在生物知識、網絡相關知識和自主性等關鍵指標上取得了進步,但根據“負責任擴展政策”( Responsible Scaling Policy),仍處於 AI 安全等級 2(ASL-2)。紅隊評估結果顯示,Claude 3 系列模型目前造成災難性風險的可能性微乎其微。

更易於使用

Claude 3 系列模型更善於遵循複雜的多步驟指令。它們尤其擅長遵循品牌聲音和響應準則,並開發出用戶可以信賴的面向客戶的體驗。此外,Claude 3 系列模型更善於以 JSON 等格式生成流行的結構化輸出,從而更易於指導自然語言分類和情感分析等用例。

在官方博客的最後,Anthropic 團隊寫道:

“在推動 AI 能力發展的同時,我們也同樣致力於確保我們的安全防護措施能夠跟上性能飛躍的步伐。我們的假設是,站在 AI 發展的前沿是引導其走向積極社會成果的最有效方式。”