寫在智能體大爆發前夜:全民 Agent時代即將來臨
智能體,正處於大爆發的前夜。
近日,在Agent OpenDay上,智譜AI展示了在AI Agent(智能體)方面最新成果,發佈了用AI替代人類執行任務的三款智能體,分別是面向手機的phone use——AutoGLM,面向電腦的compute use——GLM PC,以及面向網頁的GLM-Web能力。
此前,微軟也宣佈,已建立全球規模最大的企業級AI Agent生態系統。加之谷歌Jarvis意外泄露、OpenAI即將推出Operator……似乎過不了多久,AI Agent就將接管我們的生活和工作。
那麼AI Agent到底是什麼?
從概念上來說,AI Agent是一種不需要持續人類干預的AI系統,可以基於環境和背景信息,自主分析各種問題,做出邏輯決策,並且在沒有持續人類輸入的情況下處理多種任務,比如AlphaGo是一個典型的AI Agent,它可以在和人類對弈圍棋的過程中,根據當前的棋局和對手的行動,自主決策下一步的動作。
AI技術從基礎模型到Agent概念興起,再到如今能自主推理,還能操作執行特定任務的軟件,經歷了一個漫長而複雜的技術演變過程。
強化學習是AI Agent發展的關鍵技術之一,大語言模型(LLM)的發展爲AI Agent提供了新的可能性。LLM作爲AI Agent的核心大腦,可以實現複雜問題的拆解、類人的自然語言交互等能力。
AI Agent代表着AI技術邁向更智能、更自主交互的新階段。它不再僅僅是簡單地執行指令,而是能夠像人類助手一樣,根據複雜的情境和目標進行自主規劃、決策與執行任務。想象一下,如果你餓了,你只需要給AI助手下達“點個外賣”的指令,AI助手就能自動幫你完成從外賣搜索、查詢、下單、確認的全部動作。
這不僅僅是提升效率的表現,還是一種全新的人機交互模式,可以讓機器和人之間的關係更加緊密。去年12月比爾·蓋茨曾預測,Agent不僅將改變人們與計算機的互動方式,還將顛覆軟件行業;李彥宏也認爲,智能體是AI時代的網站,將會有幾百萬,甚至更大量的智能體出現形成龐大生態。
Part.1 AI Agent進化史: 從簡單對話到私人助理
Agent概念並非是人工智能第三次浪潮的產物,而是伴隨人工智能出現的“智能實體”概念不斷進化的結果。
1966年,MIT人工智能實驗室的Joseph Weizenbaum開發出了歷史上第一個聊天機器人ELIZA,名字源於蕭伯納戲劇作品《賣花女》中的主角名,它只有200行程序代碼和一個有限的對話庫,可以針對提問中的關鍵詞,進行答覆。
ELIZA其實沒有任何智能性可言。它基於規則運作,既不理解對方的內容,也不知道自己在說什麼。但即便如此,它還是開創了人機對話的先河。ELIZA可以說是現在Siri、小愛同學等問答交互工具的鼻祖。
進入21世紀後,隨着技術的不斷髮展,AI Agent的發展進入平穩期,機器學習技術的興起爲AI Agent的智能提升提供了動力,深度學習技術的突破爲AI Agent的發展帶來了革命性的進步,使得AI Agent在圖像識別、語音識別、自然語言處理等領域取得了重大突破。
目前,人工智能已經廣泛應用於各個領域,如醫療、教育、交通、金融等,AI Agent在這些領域的應用提高了工作效率。
2011年,可以說具備關鍵轉折意義的一年。首先,IBM Watson在智力問答節目Jeopardy!中戰勝人類選手,展示了AI的強大潛力;其次,這一年,蘋果推出Siri,開創了移動智能助手的新時代。2014年,微軟在中國推出AI聊天機器人“小冰”,首次展現了AI在情感計算和社交互動方面的潛力。
但嚴格意義上來說,AI Agent真正到來的開端是2022年11月,OpenAI發佈ChatGPT,掀起了全球AI熱潮。2023年3月14日多模態大模型GPT-4發佈,支持圖像輸入,其理解力和生成能力大幅提升,開創了自主AI Agent的先河。可以說,ChatGPT的問世,實現了從“說”到“做”,不再僅僅停留在對話層面,而是能夠自主執行復雜任務。
AI Agent能有如今的發展速度,離不開關鍵技術的突破,如深度學習與神經網絡的發展、大規模預訓練語言模型、強化學習與人類反饋、多模態交互能力以及工具使用和環境適應能力等等。
據悉,智能體的數量呈爆發式增長,國內智能體總數1年超1000萬個,是蘋果應用商店每年上線應用數量的85倍。智能體創作平臺也被比爾·蓋茨認爲是繼Android、iOS和Windows後的下一代應用開發平臺。
Part.2 大廠紛紛下場, AI Agent涌向終端市場
智能體或將成爲繼PC、移動終端後的下一個爆發點。李彥宏曾公開表示,基礎模型本身是需要靠應用才能顯現出來的價值。智能體就是一個幾乎可以是放之四海而皆準的基於大模型的應用。
數據顯示,2024年1月到10 月,中國AI原生應用(App)累計下載量排名前5的應用豆包、文小言(原文心一言)、Kimi、星野、天工AI累計下載量分別爲1.08億、2260萬、2100萬、1790萬、1170萬。
國內最早上線大模型原生應用的是百度,於2023年3月16日上線文心一言,與OpenAI發佈ChatGPT僅相距三個月時間。隨後國內互聯網大廠和創業新秀們陸陸續續上線國產AI大模型應用,如阿里通義千問大模型2023年4月上線,訊飛星火大模型2023年5月上線,智譜AI 2023年9月上線,後起之秀Kimi智能助手稍晚,但也於2023年10月上線,距ChatGPT發佈不過10個月。
2024年6月25日OpenAI宣佈中國不在當前支持API服務的188個國家和地區名單中,這意味着ChatGPT將終止在中國的服務。而對於國內的AI玩家和智能體開發者來說,這無疑是天大的利好機會。
據悉,互聯網大廠中,百度、阿里、騰訊、字節跳動、華爲等皆已佈局智能體賽道,並推出一站式智能體開發平臺。一時間,字節跳動的扣子、騰訊雲的騰訊元器、百度智能雲千帆AgentBuilder、阿里雲大模型平臺百鍊、科大訊飛星火智能體平臺等智能體開發平臺百花齊放。
相較於大廠的算力、數據、人才等資源優勢,能夠在模型端、應用端以及中間層智能體開發平臺協同閉環發展,其他規模廠商的大模型技術路徑雖各有側重,但都有一定的大模型研發基礎。
2023年4月,商湯科技推出名爲“日日新SenseNova”的大模型,集成了自然語言處理、內容生成、自動化數據標註、自定義模型訓練等多種強大功能。
再比如百川智能,由搜狗創始人王小川創立,自2023年成立以來便以驚人的速度發展。短短半年多時間,百川智能便接連發布了Baichuan-7B/13B、Baichuan2-7B/13B四款開源可免費商用大模型,以及Baichuan-53B、Baichuan2-53B兩款閉源大模型,平均每28天就會有一款新的大模型問世。
智譜AI自2019年成立以來,便深耕於大模型研發領域,憑藉着清華大學知識工程實驗室(KEG)的強大技術支撐。2023年,其推出面向C端用戶的聊天對話應用“智譜清言”。
和互聯網大廠不同的是,智譜AI、百川智能等初創企業,更多的是以AI應用助手的產品形式爲主,暫未推出智能體開發平臺。
值得注意的是,2024年,越來越多的手機廠商開始頻繁提及手機智能體相關概念。近日,vivo在其2024開發者大會上推出了名爲PhoneGPT的手機智能體,是手機中可以基於用戶意圖主動完成任務的多模態助理,它可以準確地識別手機屏幕界面中的內容,自動操作手機中各種各樣的應用,完成用戶交代的任務,比如打電話、短信等。
早在今年9月,榮耀在2024德國柏林消費電子展上發佈跨應用開放生態智能體。更早之前,6月,華爲也在其開發者大會期間宣佈了“鴻蒙原生智能”(Harmony Intelligence),小藝升級爲系統級智能體。
比爾·蓋茨曾預測,AI Agent將是大模型之後的下一個平臺,越來越多的大模型公司和科技企業都開始佈局Agent。在大模型這場競爭裝備賽中,如果說上半場卷的是基礎能力,那麼現在,AI Agent的應用落地成爲最重要的產品競爭形態。
Part.3 爆發前夜: 全民智能體能否成爲現實?
AI Agent的能力會不斷完善。首先,能夠分解任務並制定執行計劃;其次,可以調用API、訪問網絡、操作軟件;第三,具備持續學習和知識積累能力。最後,能夠在複雜環境中做出自主判斷。
智能體不僅能對話,還具有反思和規劃能力。如果用戶反饋結果不對,它會自己思考哪裡出問題了,還能夠對分配的任務進行自主規劃、思考調用什麼工具能夠實現最終目標。
因此也可以預判,隨着技術的成熟和應用場景的明確,AI Agent的能力維度逐步完善,用戶體驗效果也會更好。這對於企業級智能體應用也將十分有價值。未來,企業級AI Agent或將迎來快速增長期,各行各業都將開始大規模採用定製化的Agent解決方案。
此外,未來的AI系統將不再是獨立運行的單個Agent,而是多Agent協作將取代單Agent系統,即由多個專業化Agent組成的協作網絡,它們能夠分工合作,共同完成複雜任務。
銀河證券研報指出,AI Agent的崛起正重塑AI產業鏈並帶來投資新機遇。預計到2028年,中國AI代理市場規模將激增至8520億元,年複合增長率達72.7%。AI Agent產業鏈是多元化且高度協同生態系統,未來市場空間廣闊。AI Agent推動App生態逐漸向端側生態轉變,將成爲AI應用發展新趨勢。傳統端側AI之前的痛點之一是無法通過用戶指令調用操作界面並實現用戶目標。AI Agent模型通過實現自然語言與硬件的交互,解決端側AI痛點。
AI Agent雖然帶來了諸多想象力,但在真正的落地應用中還存在諸多挑戰。比如,可靠性、性能和成本依舊是一個大難題。衆所周知,LLM容易產生幻覺和不一致性,將多個 AI步驟連接起來會加劇這些問題,尤其是對於需要精確輸出的任務。此外,GPT-4、Gemini-1.5和Claude Opus在使用工具/函數調用方面表現不錯,但它們仍然較慢且成本高,特別是需要進行循環和自動重試時。
風口之上,任何一家企業與個體都想要抓住它,但Agent如何保證用戶的數據安全和隱私一直是業界討論最多的問題之一。
Agent一旦投入應用,勢必會接觸到客戶的核心數據,倘若數據泄漏,可能讓用戶和社會蒙受巨大損失。如若在賬單、密碼、購物等涉及支付或個人信息的敏感動作中,用戶信任很難建立。但數據又是模型訓練不可缺少的“生產資料”。
當前,中國正處於AI智能體應用快速發展的關鍵節點,有挑戰是正常現象。誰能快速適應並利用好智能體技術,將直接影響該企業未來能否在市場競爭中脫穎而出。而AI Agent的火爆,會迎來一個比互聯網時代還要火爆的黃金年代嗎?我們拭目以待。