接近理科博士生水準!OpenAI放大招

北京時間9月13日凌晨,OpenAI重磅發佈全新AI大模型——o1模型。

據OpenAI官網介紹,這一模型“旨在花更多時間思考後再作出反應。它們可以推理複雜的任務,解決比以前的科學、編碼和數學模型更難的問題”。不過,今天在ChatGPT和大模型API中新發布的是該系列中的第一款模型,而且還只是預覽版——o1-preview(o1預覽版)。

事實上,此前外界曾流傳OpenAI正在研發新模型“草莓”和“獵戶座”,其中“草莓”具有更強的推理能力、擅長解決複雜的數理邏輯問題,而“獵戶座”則將基於“草莓”模型的能力,是“ChatGPT”的超強繼任模型。

OpenAI首席執行官山姆·奧特曼在其個人社交平臺表示,“雖然o1的表現仍然存在缺陷,不過你在第一次使用它的時候仍然會感到震撼。”

OpenAI今天發佈的o1模型雖然名字上與此前泄露的“草莓”不同,但功能、推理、性能等方面與外界揣測的基本一致。據瞭解,o1的推理模式的特別之處在於,在回答用戶問題之前,o1會進入擬人化思考模式,將問題分解成更小的步驟,逐一解決,然後生成一個較長的內部思維鏈,這一推理模式也使得回答的內容更加準確。

“在我們的測試中,下一個模型(o1模型)更新在物理、化學和生物學的具有挑戰性的基準任務上的表現與博士生相似。我們還發現它在數學和編碼方面表現出色。在國際數學奧林匹克(IMO)資格考試中,GPT-4o僅正確解決了13%的問題,而推理模型得分爲83%。他們的編碼能力在比賽中得到了評估,並在Codeforces比賽中達到了第89個百分位。”OpenAI對o1模型的介紹表示。

在數學競賽中,以AIME2024爲例,GPT-4o平均只能解決12%的問題,而o1平均能解決74%的問題,若採用64個樣本的共識,解決率能達到83%。o1在競爭性編程問題(Codeforces)中排名第89位,在美國數學奧林匹克(AIME)預選賽中躋身美國前500名學生之列,並在物理、生物和化學問題(GPQA)基準測試中超越人類博士級準確度。

OpenAI表示,對於複雜的推理任務來說,這是一個重大進步,代表了人工智能能力的新水平。鑑於此,OpenAI將計數器重置爲1,並將該系列命名爲OpenAIo1。

另外,OpenAI在過去一段時間一直被質疑因加快產業開發而降低了對模型安全的重視,團隊中多名安全團隊的人員也接二連三離職。對於模型的安全問題,OpenAI表示,在開發這些新模型的過程中,公司提出了一種新的安全訓練方法,利用模型的推理能力,使它們遵守安全和協調準則,能夠通過在上下文中推理安全規則,並且更有效地應用這些安全規則。

“我們衡量安全性的一種方法是測試當用戶試圖繞過安全規則(稱爲‘越獄’)時,我們的模型如何繼續遵循安全規則。在我們最嚴格的越獄測試之一中,GPT-4o得分爲22(0-100分制),而我們的o1預覽模型得分爲84。”OpenAI介紹稱。

適用對象方面,擁有增強的推理能力的o1模型更適合於解決科學、編碼、數學和類似領域的複雜問題。例如,醫療研究人員可以使用o1來註釋細胞測序數據,物理學家可以使用o1來生成量子光學所需的複雜數學公式,各領域的開發人員可以使用o1來構建和執行多步驟工作流程。

除了o1系列模型外,OpenAI這次還一併發佈了一個mini版OpenAIo1-mini模型。OpenAI在官網中給出了preview和mini版的不同定義,“爲了給開發者提供更高效的解決方案,我們也發佈了OpenAIo1-mini,這是一個尤其擅長編程的更快、更便宜的推理模型。”據瞭解,作爲一款較小的模型,o1-mini比o1-preview便宜80%,使其成爲一款功能強大、經濟高效的模型,適用於需要推理但不需要廣泛世界知識的應用程序。

至於新模型的使用方面,OpenAI稱,從發佈之日起,ChatGPTPlus和Team用戶將能夠在ChatGPT中訪問o1模型。o1-preview和o1-mini都可以在模型選擇器中手動選擇。不過,發送消息的次數目前還存在限制。o1-preview每週發送消息次數限制爲30條消息,o1-mini則爲50條消息。OpenAI稱正在努力提高這些發送次數,並使ChatGPT能夠根據給定的提示自動選擇正確的模型。

價格方面,API的價格上,o1-preview每百萬輸入15美元,每百萬輸出60美元。與之對比,GPT4o每百萬輸入和每百萬輸出分別是5美元和15美元,o1-preview價格是GPT4o的3倍。o1-mini會便宜一些,每百萬輸入爲3美元,每百萬輸出爲12美元。

關於未來的計劃,OpenAI表示計劃向所有ChatGPTFree用戶提供o1-mini訪問權限。同時,除了o1模型宣佈的這些更新之外,OpenAI還希望添加瀏覽、文件和圖片上傳等功能,並計劃繼續開發和發佈GPT系列中的模型。

責編:葉舒筠

校對:廖勝超

版權聲明

證券時報各平臺所有原創內容,未經書面授權,任何單位及個人不得轉載。我社保留追究相關行爲主體法律責任的權利。

轉載與合作可聯繫證券時報小助理,微信ID:SecuritiesTimes

" Type="normal"@@-->

END

" Type="normal"@@-->