AI Agent+to B,下一個入口級平臺機會|甲子光年
作者|武靜靜
編輯|栗子
還記得《鋼鐵俠》裡的AI助手賈維斯嗎?
作爲託尼的得力助手,它既可靠又聰明,不僅可以連接到任意計算機終端,操控託尼的鋼鐵俠戰服,還會和託尼一起商量行動計劃。
擁有像賈維斯一樣的AI助手一直是人類對於機器夥伴的美好暢想。但在現實中,人們只能和沒那麼聰明的Siri、Alex這樣的語音助手相處。直到大語言模型出現之後,新的可能性發生了——作爲一種加持了大模型能力的智能體,新的AI Agent走進了人們的視野。
和Copilot不一樣,新一代的AI Agent(以下統一簡稱Agent)看上去更像賈維斯——只需要說出你想做什麼,Agent就可以自己規劃並執行任務,也可以連接很多服務和工具來達成目標。相比之下,Copilot這樣的應用則需要依賴清晰明確的prompt才能很好地發揮作用。
很多人認爲Agent是大語言模型之後的下一個機會。比爾蓋茨認爲,Agent公司的出現將對谷歌、亞馬遜以及其他大公司構成潛在威脅:“這是一件大事。Agent會了解你所有的信息,也會知道更多你不知道的信息,這意味着,用戶永遠不會再訪問搜索網站,也不必使用生產力工作,一切都將通過Agent來完成。”
“大型科技公司和創業公司都有可能抓住這次Agent的機會,如果微軟沒有介入,我會感到失望。”比爾蓋茨說。
OpenAI的聯合創始人Andrej Karpathy認爲:“普通人、創業者和極客在構建Agents方面比OpenAI更有優勢,大家處於平等競爭的狀態。”
衆多開發者、院校、創業公司正在紛紛入局。國外, AutoGPT、Generative Agent、GPT-Engineer、BabyAGI、HyperWrite、MetaGPT、GPT Researcher等項目一度引發熱議。加了大型語言模型能力的Agent不僅可以生成內容,還可以直接解決各種場景中的各種問題。
近日在GitHub上,多Agent框架構建的MetaGPT項目在短短2周時間就獲得了25.8k星。有人藉助MetaGPT在十分鐘內就製作了Flappy Bird小遊戲,過程中完全不需要自己編寫代碼。
谷歌也在通過投資的方式關注這個領域的創新。今年5月,Agent公司Cognosys籌集了200萬美元的種子輪資金,領投方就是Alphabet風險投資部門GV(Google Ventures)的普通合夥人SangeenZeb。Cognosys打造的是一種基於Web的Agent產品,旨在優化工作流程、推進決策並提升各個領域的效能。
國內,我們也關注到一家聚焦於Agent方向的創業公司——瀾碼科技,今年8月,公司已獲得IDG資本、聯新資本、Atom Capital等頭部機構的數千萬人民幣A輪融資。瀾碼的方向是基於底層⼤語⾔模型,開發新一代的智能助手(Agent)平臺,助力企業提升業務流程質量和效率。公司成立於2023年2月,聚焦於to B領域,目前已經與金山辦公等多家上市公司和獨角獸企業達成戰略合作。
國內外企業爭相佈局,爲什麼Agent會爆火?
Agent讓科幻作品中對於能力超凡的AI助手的想象變成現實。
想象一下,你和Agent說想去三亞旅行,接下來,它馬上就列出一個待辦事件清單,開始着手規劃。請假、訂酒店、買機票、做旅行規劃都不是問題,你唯一要做的事情就是等待出發。過程中,Agent會根據進展不斷調整和增加新的待辦來滿足你的需求,直到旅行結束。
論執行力,沒有人能比得過Agent。GitHub上的明星Agent項目AutoGPT已經被使用在各種場景中:有人把AutoGPT和其他軟件集成直接買到了披薩 ,有人用AutoGPT進行市場調查,以便隨時瞭解競爭對手信息;還有人直接用語音讓AutoGPT在電腦上部署了應用程序。
Agent之所以在當下可以如此智能,最關鍵的技術變量就是大語言模型。此前,強化學習方法下訓練的Agent,缺乏對於問題和技能的認識,只能在遊戲等數字場景中進行分析規劃模擬對抗,或者在小範圍內實現規劃運行,不具有泛化能力,也很難真正與人實現現實交互。大語言模型極大地拓展了Agent的能力邊界,它相當於大腦,讓Agent在接收到目標之後,可以自主進行邏輯推理和自我提示,不斷尋找達成目標的最好方式,通過和其他軟硬件相連,Agent可以熟練地使用計算機、瀏覽網頁、讀寫文件、用信用卡付款。人唯一需要做的就是提供一個目標。
OpenAI應用研究主管LilianWeng在論文中對Agent的形容是:Agent=LLM(大型語言模型)+記憶+規劃技能+工具使用。其中LLM是核心大腦;記憶、規劃技能、工具使用則是Agents系統實現的三個關鍵組件。
如果大語言模型的Copilot是“副駕駛”,那自主拆解並執行任務的Agent可以稱爲“自動駕駛”,用戶只需要上車告訴它目的地。“Copilot模式強調一個人在完成整個業務流程的過程中,每一步都可以獲得AI輔助。這種模式的實用性非常強,可以用來生成面試問題、評估回答等。Agent比Copilot模式更具自主性,在接到人提出的目標後,可以自行計劃並完成任務,還有可能去探索周圍環境。”瀾碼科技CEO周健告訴「甲子光年」。
“當前我們主要在信息系統環境中使用AI,未來Agent可以和機器人融合,具有物理感知能力之後,就可以探索整個物質世界。”周健說。這種情況下,Agent與人類成爲了親密無間的夥伴,而不僅僅只是爲人類服務的工具,人類也需要和Agent合作,做各種決策。
周健相信Agent背後大語言模型技術帶來的是一場全新的大機會:“就像斯坦福大學做的25個智能體的小村莊那樣,這種業務模式可以遷移到很多場景,比如做教育培訓,機構可以在這樣一個虛擬環境中進行職場培訓,嵌入僱主打分功能,甚至還可以模擬創業環境。”
周健曾擔任弘璣Cyclone CTO以及依圖的10號員工,並在Google、阿里和MediaV等企業具有10年工作經驗,主要從事分佈式系統研發。作爲to B行業的老兵,他選擇從自己擅長的領域入手,創立了瀾碼科技,優先做專業場景下to B領域的Agent。
他和「甲子光年」分享了他看到的機會:“一方面,B端企業會爲了更高價值的工作流進行額外的準確率付費,另一方面,對於創業公司而言,服務圍着公司和崗位走,而不是人本身,更容易塑造自身的壁壘。”
“Agent平臺有可能成爲to B領域人機交互的入口級平臺。”周健說。目前,基於大語言模型,瀾碼研發了能夠連接人和系統的企業級Agent平臺“Ask XBot”,在Agent平臺“Ask XBot”上,員工可以用自然語言提出需求,調度Agent來完成任務,提升工作質量的同時降低了成本。
對於高喊着效率革命的to B領域而言,Agent的出現可能會掀起一輪新的生產力變革。英偉達機器學習專家Bojan Tunguz把新一代的Agent稱之爲“自動化的自然終點”:“原則上,智能體可被用於自動化任何其他過程。不難想象,一旦這些智能體變得高度精密、可靠,各個領域和行業的自動化程度將呈指數級增長。”
長久以來,“降本增效”一直是企業數字化、智能化的核心議題,這也是AI能在to B領域發揮關鍵作用的地方所在。從過去十幾年發展的歷程來看,AI的功能越強,覆蓋的業務環節越多,閉環越完整,發揮的效能越大。
大語言模型支撐的Agent讓企業智能化效率往前走了一大步。此前的自動化作業中,閉環和智能化能力有限,也只能作業在局部的場景和環節,大多解決單點問題,Agent則可以在涵蓋大量信息的不可預測的環境中工作,拓寬了智能化的範疇。
“大語言模型帶來的最大變化是半結構化或過程性的文檔也能夠被有效利用。”周健說,“此前的自動化解決的是基層員工的工作效率問題,只能處理很多重複性的工作,大語言模型之後,Agent可以復刻專家能力,解決更多的工作質量問題。”
比如,瀾碼招聘專家Agent基於大語言模型並充分學習了招聘專家知識,可以準確解析企業用人需求,並從各個渠道智能化、自動化的搜索人才,完成基於職位需求的崗位推薦,從而協助HR/獵頭在人才篩選工作中大幅提升工作質量和效率,成爲了企業內部真正專業的一位數字員工。“此前,HR需要根據企業實際用人需求,在人才庫中,依靠固化的標籤,尋找合適的人選,整個過程耗時長且環節繁瑣,HR一般很難快速找到符合預期的人選信息。”周健提到。
在周健看來,諸如此類的場景有很多,對於企業而言,把專家知識通過技術手段賦能給Agent,讓Agent具備相應的能力,就可以在企業的業務流程中,通過對話提供建議,從而顯著提升業務質量和效率。
“以獵頭場景爲例,過去很多銷售線索和簡歷信息分散在個人手中,公司很難做集中的個性化信息匹配。有了Agent之後,管理者就可以將信息沉澱在系統中,並通過簡單的標籤做個性化匹配,大大提升了銷售效率。”
“智能就是一種生產力。”周健稱。
依靠這種邏輯,瀾碼構建了Agent平臺“Ask XBot”,平臺分兩層:第一層是專家賦能,專家通過拖、拉、拽以及對話交互的方式定義工作流程,教給機器,從而協助一線員工構建更高效工作的方法論;第二層是員工使用Agent,一線員工可以通過自然語言和Agent溝通並下達指令,讓Agent協助完成數據分析、資料調取等工作。
“我們想把瀾碼打造成一個兼具通用性和易用性的平臺,把這些API和Agent做好管理,讓Agent包裝不同的API,不同模型的Agent能夠在上面更好地協作,讓它們可以在平臺上更有效率、更智能地服務好客戶。”周健說道。目前,瀾碼除了有針對應用調取等場景的Text To Action(文-功能)功能,還在針對數據分析場景打造Text To SQL(文-數據庫)、Text To Chart(文-圖標)等功能。
3.挑戰與未來
和瀾碼一樣,更多國內外正在積極加入到這場Agent建設潮中。
美國大語言模型明星創業公司Inflection AI也準備加入其中。據透露其正在開發一款私人助理,可以充當導師,以及處理在旅行過程中的行程預定、航班積分、酒店預定等任務。今年6月,Inflection AI的估值就達到40億美元,累計融資額15.25億美元,在基礎大模型公司中僅次於OpenAI。
此前,亞馬遜雲科技也宣佈了Amazon Bedrock Agents新功能,它可以把開發、部署和管理多個Agent的能力打包集成在一起,開發者只需要幾次點擊,就可以構建Agent應用。此舉大大降低了Agent應用的開發門檻。可以預見,接下來,更多雲服務也將在這個方向發力。
如火如荼的機會背後,現實的挑戰和不確定因素也在逐步顯現。技術層面,由於Agent面臨的是更復雜的環境和交互,需要擔任“大腦”的大語言模型在多模態能力上有所突破,才能更好地理解問題並解決問題;另一方面,由於物理世界的信息是多維度且動態的,Agent與物理世界的信息交互將會存在巨大的挑戰。
此外,在to B領域,Agent也會面臨一些現實難題。安全性首當其中。“尤其在to B領域,不同客戶對數據安全和隱私保護的要求存在差異,Agent公司需要考慮保障數據的合規性,以便在符合法律法規的前提下使用相關數據。”周健告訴「甲子光年」。
數據層,如何按照大型模型友好的方式對其進行記錄和整理也是一個關鍵難題。“現有的數據並非都適合大型模型處理,在處理各種半結構化和非結構化數據:如簡歷、郵件、微信聊天記錄以及視頻直播等數據的過程中,需要按照大型模型友好的方式對其進行記錄和整理,才能真正的構建數據閉環,讓Agent打穿場景。”周健提到。這意味着,對於企業而言,也需要即時記錄各類數據,避免關鍵業務信息缺失對決策結果的影響。
“這些是難點,也是可以構建壁壘的地方。”周健說。
他認爲,安全可靠、數據閉環,和基於這些產品形成的數據飛輪纔是Agent公司的護城河。“數據是核心的競爭維度。數據有很多維度,互聯網上的很多行爲數據,企業內部專家的知識數據,企業自身業務閉環之後產生的決策數據,這些組合在一起,纔是Agent發揮最大價值的地方。”
“Agent就像佈滿太陽能的電板,把這些數據能量源源不斷的吸收進來,沉澱到企業內部,形成可以複用的方法論和資產,從而大幅提高企業的效能。”周健談到。
現階段,瀾碼的重點是:持續構建標杆客戶、通用性、易用性這三個x、y、z能力軸。“前期必然圍繞標杆客戶與產品通用性去打造,之後從提升毛利的必要性出發,再去提升易用性。”目前瀾碼已經跑通了很多場景,與金山辦公、特贊、輕流、優雲服等廠商達成了合作。頭部獵頭公司和某軟件外包上市企業是眼下的重要用戶。
“未來,我相信會形成一個類似於滴滴或美團的企業大腦,能夠與企業內所有員工進行互動。這將使過去線性、僵化的自動化流程轉變爲基於數據和行爲經驗的決策流程。”周健說。
Agent正在構建全新的軟件可能,一種全新的人與機器的關係也拉開了帷幕。
(封面圖來源:電影《鋼鐵俠》)