釦子OpenAPI突進智能語音戰場!點滿低延時、定製化、隨時打斷

基於 AI 的無限遊戲最近開始贏得關注,但實際上你現在就可以在自己的電腦上實現類似跑團的無限遊戲。有意思的是,就算你大開腦洞,胡亂遊戲,大模型 AI 也能幫你把故事圓起來,讓這個遊戲無限地繼續下去。

你甚至可以召喚郭德綱來戰鬥

視頻鏈接:

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943856&idx=1&sn=3903805898d03d0f11fd60ce24eac30e&chksm=84e7f50eb3907c181ab2efbd487e8e3c595965fd666c97de5a2e3920e0acb83325f8fef00c8c&token=194262200&lang=zh_CN#rd

這個 AI 遊戲主持人的聲音是不是很有代入感?這其實是使用釦子正在內測的智能語音對話 OpenAPI 實現的。當然,無限遊戲並非釦子智能語音對話 OpenAPI 所能實現的唯一功能。釦子智能體商店中那些智能體會的技能它都行,比如查詢天氣或新聞、口語練習、角色扮演、創建播客等等。

舉個例子,我們這裡就生成了一個播客,使用的素材是我們前些天發佈的文章《LeCun 贊轉!類 Sora 模型能否理解物理規律?字節豆包大模型團隊系統性研究揭秘》。

試聽鏈接:

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943856&idx=1&sn=3903805898d03d0f11fd60ce24eac30e&chksm=84e7f50eb3907c181ab2efbd487e8e3c595965fd666c97de5a2e3920e0acb83325f8fef00c8c&token=194262200&lang=zh_CN#rd

更重要的是,通過智能語音對話 OpenAPI。你還能將智能實時對話能力引入你自己的應用!

不管是微信小程序還是自己的應用或遊戲,又或者就只是你自己的設備終端,釦子的 AI 智能體都能通過新上線的智能語音對話 OpenAPI 入駐進來。

簡單想象一下,我們就能發現釦子智能語音對話 OpenAPI 的無窮妙用。比如我們可以將自家的產品信息配置到釦子智能體的知識庫中,然後通過釦子智能語音對話 OpenAPI 爲我們的網站和應用引入一個智能客服,它能以實時通話的方式爲用戶解答一些常見問題。

視頻鏈接:

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943856&idx=1&sn=3903805898d03d0f11fd60ce24eac30e&chksm=84e7f50eb3907c181ab2efbd487e8e3c595965fd666c97de5a2e3920e0acb83325f8fef00c8c&token=194262200&lang=zh_CN#rd

用自然語言搭建一個技術問答應用

要展現一個工具的強大,光是結果好還不夠,還得用起來方便,下面我們就逐步演示一下可以如何使用釦子智能體平臺和智能語音對話 OpenAPI 輕鬆構建一個 AI 技術問答應用(基於釦子提供的網頁版 Playground)。有趣的是,這裡的整個演示過程都是零代碼的!

首先,你需要一個釦子專業版賬戶。由於目前釦子智能語音對話 OpenAPI 正處於內測階段,因此你還需要申請內測權限,你可以在這裡免費申請:

https://www.coze.cn/survey/7431180581536268314?FG_source=17

接下來,你需要構建一個智能體。基於釦子智能體平臺,你只需要用一句話描述你的核心功能,剩下的交給 AI,就能輕鬆獲得一個智能體。

當然,你也可以對 AI 創建的智能體進行更進一步的編排,優化其人設和回覆邏輯,還能添加知識庫以及設置開場白;更重要的是,還能爲其設計工作流 —— 這個過程既能使用思維鏈(CoT)和檢索增強式生成(RAG)等技術,還能將外部工具整合進來,比如集成外部知識庫、調用外部模型和工具等等。

考慮到最近 Scaling Laws 是否撞牆的問題備受熱議,我們也正好做過幾篇報道,下面我們就把這幾篇文章導入到這個智能體的知識庫中。

智能體編排完成後,點擊發布。這裡注意我們需要勾選「Agent as API」以便後續我們通過 OpenAPI 調用該智能體。

然後我們就可以進入 Playground,獲取權限後,調用該智能體,同時選取合適的音色。

之後,我們就可以通過釦子智能語音對話 OpenAPI 來了解所謂的「擴展律撞牆」是什麼了。(我們這裡順便演示了其支持隨時打斷的功能,這對真實應用來說具有非常實際的價值。)

視頻鏈接:

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943856&idx=1&sn=3903805898d03d0f11fd60ce24eac30e&chksm=84e7f50eb3907c181ab2efbd487e8e3c595965fd666c97de5a2e3920e0acb83325f8fef00c8c&token=194262200&lang=zh_CN#rd

不僅如此,釦子智能語音對話 OpenAPI 也支持用戶傳入文本或網絡鏈接(只要對應的智能體配置了鏈接讀取等合適的插件即可)。當然,由於這裡演示的僅僅是 Playground,還不是完整的應用,因此在傳入數據時還需要採用 json 格式,下面演示了其對我們最近發佈的一篇文章的分析:

視頻鏈接:

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943856&idx=1&sn=3903805898d03d0f11fd60ce24eac30e&chksm=84e7f50eb3907c181ab2efbd487e8e3c595965fd666c97de5a2e3920e0acb83325f8fef00c8c&token=194262200&lang=zh_CN#rd

如此,一個簡易版的實時語音技術問答助理就搭建完成了。實際上,只要搭配上好看的網頁前端,這就可以作爲一個小應用發佈了。而通過配置具有更復雜工作流程的智能體,釦子智能語音對話 OpenAPI 也能實現更加複雜的應用。

五大優勢,以智能賦能人機交互

宏觀來看,語音交互技術可以簡化成四個步驟:語音識別(ASR)、語義理解(NLU)、對話管理和任務處理、語音合成(TTS)。

在相關技術發展早期,每個步驟的處理都很機械和呆板,用戶和應用都只能按照預設的指令進行交互。在最早期的時候,機器甚至沒法識別人類的語音指令,而是需要人類用戶通過數字按鍵來給出反饋,比如「業務辦理請按 1,業務查詢請按 2,人工服務請按 * 號鍵」。事實上,現在許多客服系統依然還在使用這種老舊範式。

之後隨着語音識別和早期自然語音處理(NLP)技術的發展,人類開始可以通過語音方式與計算機互動。不過那時候不管是 ASR 還是 NLP 或是 TTS,都僅支持單一語種,也很難應對稍微複雜的交互場景。早期的 Siri 和 Google Assistant 等很多早期的語音助手便是採用了這一範式。

之後,大模型時代到來了。AI 理解人類語言的能力實現了質的飛躍,但兩側語音端的處理依然有待改進。一方面是 ASR 還很難應對多語言混合輸入的場景,另一方面 TTS 也無法準確實現多語言輸出。用戶得到的語音反饋更像是毫無特色和情感的「棒讀」。

到了今年,智能語音交互進入了變革之年,代表性事件便是今年 5 月份 OpenAI 發佈了具備實時語音對話功能的大模型 GPT-4o。而釦子則在這個基礎上更進了一步,不僅實現了實時、智能、自然的多語言語音交互,還將智能體整合進了其工作流程中,從而可以完成更加豐富多樣的任務。這讓其在這場正在持續的「智能語音大亂鬥」中佔據了一個領先位置。

總結起來,釦子智能語音對話 OpenAPI 具有 5 大顯著優勢。

優勢 1:強大的 AI 智能體能力

智能體很可能是 LLM 實現大規模實際應用的又一範式。它能讓 LLM 超脫僅僅作爲問答機器人的水平,更深度地參與到用戶的數字或物理生活中。正如著名 AI 研究者吳恩達說的那樣:「大多數 LLM 的優化方向都是回答問題,這主要是爲了提供良好的消費者體驗,而且我們已經能夠將它們『嫁接』到複雜的智能體工作流程中,從而構建有價值的應用。現在的趨勢是以原生方式爲智能體構建用於特定操作的 LLM,這能極大提升智能體的性能。我相信未來幾年這個方向的智能體將獲得巨大提升。」

釦子智能體平臺正是這一願景的實踐者,而釦子那強大的智能體生態便是釦子智能語音對話 OpenAPI 最重大的優勢之一。

釦子是新一代 AI 大模型智能體開發平臺,其整合了插件、長短期記憶、工作流、卡片等豐富能力,可幫助用戶快速搭建個性化或具備商業價值的智能體,併發布到豆包、飛書等平臺,並且其使用門檻非常低,並不需要用戶具備編程能力 —— 用戶只需簡短几句描述需求的自然語言,該平臺就能用 AI 幫你自動構建合適的智能體。

使用釦子商店右下角釦子助手,一句話創建智能體

自今年 2 月份國內版上線以來,釦子智能體開發平臺已經成長爲國內智能體平臺的重要引領者,其上已經部署了大量來自官方和社區的智能體,其中不少已經收穫了數十萬用戶。

通過整合智能體,釦子智能語音對話 OpenAPI 可讓用戶以語音方式完成各種不同的任務,比如執行訂單、生成圖像、執行重複性的工作流程等等。只要智能體能做到的,釦子智能語音對話 OpenAPI 都能將其整合進來。

優勢 2:識別精準

釦子智能語音對話 OpenAPI 在語音識別(ASR)方面使用了先進的大模型技術,具備上下文理解和超強的抗干擾能力,從而能帶來更爲精準的語音轉文本體驗。

它不僅能識別常見對話內容,還能在多輪對話中進行上下文關聯 —— 當用戶提到前文中的名詞或代稱時,系統會根據對話背景自動關聯,避免重複確認。此外,釦子智能語音對話在面對嘈雜環境或複雜聲學背景時表現出色,能夠識別出清晰的文本,減少因噪聲導致的誤識別問題。

針對垂直領域,OpenAPI 提供了專門的語料支持,不論是醫療、金融還是法律領域,系統均能精準識別專業術語。此外,它對中英混合表達的語音識別也有良好的支持,提升了應用在多語種環境中的適應性。

優勢 3:穩健的實時通信能力

實時通信是智能語音對話體驗的核心要素之一,尤其是在對話連續性和即時性要求高的應用場景中,低延遲可以極大地提升用戶體驗。

釦子智能語音對話 OpenAPI 在這方面的解決方案是火山引擎的RTC(Real-Time Communication)技術。該技術已經在實踐中得到了驗證,可顯著降低通信鏈路中的延遲,使得系統響應更加即時,不再有卡頓和延時問題。而這些年的研究進步已經讓火山引擎 RTC 實現了超低時延視頻傳輸和雲端音頻流式處理,並對 AI 語音能力的全鏈路進行了優化(RTC-ASR-LLM-TTS),能實現智能體的實時響應。

據瞭解,火山引擎 RTC 已經大幅降低了從聲音採集到 AI 回覆語音響應這個全鏈路流程的時延,最低可至 1 秒。相較之下,之前的工作流程往往需要好幾秒的處理時間。

火山引擎 RTC 與兒歌點點合作的 「AI 夥伴」演示,展示了其實時性能以及支持打斷的能力

視頻鏈接:

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943856&idx=1&sn=3903805898d03d0f11fd60ce24eac30e&chksm=84e7f50eb3907c181ab2efbd487e8e3c595965fd666c97de5a2e3920e0acb83325f8fef00c8c&token=194262200&lang=zh_CN#rd

這樣的低延遲能力使釦子智能語音對話 OpenAPI 在客服、教育、遠程協作等場景下具備明顯優勢,不僅可以快速響應用戶的語音輸入,還能在多輪對話中保持穩定順暢的互動。

此外,火山引擎 RTC 還具備優秀的抗弱網能力,在弱網環境下也能保持通話順暢,避免因丟字引起智能體理解和回答偏差。

RTC 還讓智能體可被實時「打斷」了。也就是說,智能體可根據人類對話的節奏和停頓來隨時響應。它可以立馬中斷當前的輸出,也能即時根據用戶指令給出反饋。相較之前還需手動點擊「打斷」按鈕的做法,這種做法顯然更加自然,就像是與真人交流一樣。

這項能力在實際應用中具有極其重要的價值。比如當用戶在對話過程中突然提出新的問題或修改需求時,系統能夠迅速捕捉並響應打斷指令,靈活調整對話流程,無需等待當前話語結束。在客服、在線諮詢和智能助理等場景中,這一能力可顯著提升交互的自然度和應變性,使得對話更貼合真實人類溝通習慣,進一步提升用戶體驗。

優勢 4:語言效果自然

在文本轉語音(TTS)方面,釦子智能語音對話 OpenAPI 使用了大模型技術,從而讓生成的語音更加自然、情感豐富,具有高保真的個性化特點。

基於大模型的 TTS 引擎能夠智能分析文本內容,針對語句的情緒、意圖和語氣進行調節,使輸出的語音在語調、節奏和情感表達上更貼近真人。

另外,釦子智能語音對話 OpenAPI 還支持中英文混合語句,能夠實現流暢切換,在多語種表達場景中更顯真實可靠。無論是客服系統需要溫和耐心的語氣,還是播報系統需要富有激情的表達,釦子智能語音對話 OpenAPI 都能自動適應,避免了傳統 TTS 語音機械、單調的問題。

此外,生成的語音在韻律、氣口和情感表達等方面也有細緻優化,讓用戶聽到的語音不僅真實可信,更富有感染力,適用於從廣告配音到客戶服務等廣泛的應用場景。

優勢 5:支持自定義音色

釦子智能語音對話 OpenAPI 不僅預置了豐富的音色(包括 20 多種中文音色以及一些英語、日語和西班牙語等其它語言的音色),還提供了一項特別的音色克隆功能,用戶只需提供一小段語音錄製,便可生成自己的專屬音色。

釦子智能語音對話 OpenAPI 的多音色示例,包括一個定製音色

視頻鏈接:

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943856&idx=1&sn=3903805898d03d0f11fd60ce24eac30e&chksm=84e7f50eb3907c181ab2efbd487e8e3c595965fd666c97de5a2e3920e0acb83325f8fef00c8c&token=194262200&lang=zh_CN#rd

這一功能可讓企業和個人用戶將音色品牌化,爲語音服務增加更多的個性和辨識度。在市場推廣、品牌營銷或個性化服務中,用戶可以通過特有的音色與品牌形象建立聯繫,使用戶的聲音成爲獨特的品牌標識。

目前,系統在內測期間允許每位用戶創建一個專屬音色。未來,這一音色自定義功能將進一步拓展,或允許多音色的並行生成和使用,滿足更多元化的聲音需求。

內測邀請中

釦子智能語音對話 OpenAPI 現已向釦子專業版用戶開放邀測申請!

作爲一款強大的智能體對話工具,釦子智能語音對話 OpenAPI 擁有極其廣泛的應用潛力 —— 無論是在線客服、遠程教育、智能助理,還是在金融、醫療等專業領域,都能幫助企業快速實現智能化的實時語音交互。

未來,隨着大模型及智能體能力的提升,釦子智能語音對話 OpenAPI 也能爲開發者的應用帶去更強大的智能能力,像無限遊戲一樣開啓無限可能。或許某一天,釦子智能語音對話 OpenAPI 可以成爲入口,造就鋼鐵俠的 Jarvis 那樣的超級 AI 助理。

釦子智能語音對話 OpenAPI 支持多平臺接入,團隊也會提供用於不同場景和平臺的 SDK。

釦子團隊表示,邀測期間暫不收取語音功能費用,僅根據智能體調用次數和 Token 消耗收取專業版的基礎費用。而內測用戶的福利是每日 1 小時、每月 20 小時的實時通話體驗時長,足以滿足基礎測試和常規使用。如有更高時長需求,用戶可根據實際情況提出額外申請,以滿足不同場景的深度測試需要。

在希臘神話中,普羅米修斯通過盜取火種賦予了人類智慧和文明的火花。同樣,釦子智能語音對話 OpenAPI 就恰如應用領域的普羅米修斯,能爲各行各業的應用賦予實時智能語音能力,開啓技術實踐的新篇章。

如果您想參與內測體驗,關注「釦子Coze」公衆號回覆「語音」即可申請內測。期待大家的體驗反饋!