AI眼鏡是智能硬件的新方向,還是僞概念?

來源:經濟觀察報

陳奇傑 任曉寧/文11月18日,智能硬件創業公司Rokid發佈人工智能(AI)和增強現實(AR)眼鏡產品Rokid Glasses。

Rokid Glasses的形態與普通眼鏡相似,其通過攝像頭支持高清拍照和視頻錄製功能。該產品還整合了阿里巴巴旗下的通義千問大模型,具備物體識別、文字翻譯、數學題解答等能力。

據經濟觀察網不完全統計,自今年10月以來,至少有小度、小米、Rokid、創業公司致敬未知等4家國內廠商,已發佈或者被傳出計劃推出AI眼鏡。這讓AI眼鏡成了目前國內智能可穿戴領域的新風口。

小度方面稱,該公司跨行研製AI眼鏡的原因是,眼鏡作爲人的第一視角設備,在搭載了攝像頭、麥克風、傳感器等組件後,進一步具備了捕捉多模態信息的能力,也成了高效便捷的人機交互入口。同時,大模型在多模態、強化學習、語音識別等能力上的進步,爲AI重塑智能眼鏡帶來了更大的想象空間。

不過,致敬未知前產品經理王永森告訴經濟觀察網,對業內人士來說,AR眼鏡結合大模型的技術門檻並不高,但是很難把AI眼鏡做好。AI眼鏡在調用大模型時,如何低延時、準確地理解用戶的自然對話意圖,是目前的一個技術難點。

爲什麼是AI眼鏡

2023年9月,美國科技巨頭Meta發佈了和美國眼鏡品牌雷朋聯合研製的AI眼鏡Meta Ray-Ban。該產品的起售價爲299美元(約2167元人民幣),在發售4個月後的銷量超過100萬臺。

這款產品的熱銷,側面驗證了AI眼鏡的可行性,也給入局該賽道的廠商帶來了信心。

Rokid工業設計總監夏凱認爲,過去AI硬件領域存在着一些創新誤區:比如,一款APP可以解決的功能,不要硬件化;如果C端(面向個人用戶的)產品的信息呈現更簡陋、交互比手機更復雜,大概率也會翻車,例如美國創業公司Humane 發佈的智能硬件產品AI Pin。

因此,夏凱覺得AI硬件的創新可以從個人日常的基礎生活功能切入,設置的功能簡單、剛需即可,這樣的產品售價便宜、試錯成本低。

夏凱告訴經濟觀察網,眼鏡這種設備的優勢是,用戶平時就把它戴在頭上,它不像手機那樣需要用戶擡手交互。而交互是過去困擾AR眼鏡廠商的一個問題,大模型的出現解決了這個難題。大模型可以被理解爲一個搜索引擎,能讓使用AI眼鏡的用戶更精準地觸達信息。比如用戶在逛商場時,看見一件衣服,就可以通過AI眼鏡檢索出這款產品在全網的最優惠價格和最佳購買途徑,然後下單購買。

多位AI眼鏡的用戶對經濟觀察網表示,由於近視或者有佩戴裝飾品的需求,他們本身就會使用眼鏡。同時,他們也看重AI眼鏡的拍照、通話、翻譯、會議記錄等功能,覺得這類產品使用方便,可以部分替代手機的作用。

一位用戶說,她所在的單位是一家外企,但她的英語並不好,所以比較依賴AI眼鏡的翻譯功能。另一位用戶表示,他購買AI眼鏡,主要是爲了在玩過山車等特定場景中錄像。

怎樣與大模型結合

致敬未知是國內較早開始研究AR眼鏡結合大模型的智能硬件創業公司。該公司成立於2022年8月,在2023年拿到過阿里巴巴領投的 1000萬美元(約7246萬元人民幣)天使輪融資,其創始人吳德周曾擔任錘子科技合夥人、華爲榮耀產品線總經理。

王永森曾在致敬未知擔任產品經理,負責過AR眼鏡的大模型場景整合。他表示,致敬未知當初選擇走AR眼鏡路線,是因爲相比虛擬現實(VR)那種隔絕顯示的場景,AR更貼近現實。吳德周希望致敬未知的產品能貼合用戶現實,並提供現實背後的數字信息。在AR眼鏡結合大模型後,用戶可以使用其識別生圖、物品。基於識別功能和數字信息串聯,用戶還能進行比價、給商鋪評分和團購。

在對比一系列 AR 眼鏡產品的交互設計後,致敬未知還得出了一個結論:AR 眼鏡要特別注意任何交互和呈現,不能影響用戶的走路、下樓梯、聊天等現實行爲。

王永森說,AR眼鏡結合大模型的大概過程是:首先,研發人員在訓練和篩選模型後,在AR眼鏡中整合圖片分切模型、語音識別算法等小模型,這些小模型可以收集信息,是大模型理解世界的工具;其次,AR眼鏡將收集到的圖像或語音信息交給大模型,由其做出智能判斷並生成結果;最後,AR眼鏡把大模型生成的結果反饋到服務器和算法層面,整合互聯網上的相關信息,打包呈現給用戶。

AR眼鏡結合大模型的成本,與普通的大模型應用的成本相似。硬件廠商除了需要投入後端工程師、算法工程師等人力成本外,使用大模型也需要按照token(大模型文本中的基本單位)計費。據王永森透露,很多AI眼鏡廠商在前期都會向大模型公司墊付用戶使用大模型的成本。

爲了不影響用戶的佩戴體驗,各家廠商正在致力於AI眼鏡的輕量化,例如採用鎂鋁合金這種比鋼材和鋁合金等傳統材料更輕的材料,以及使用更輕、更薄的光波導顯示模塊。

目前,市面上的AI眼鏡的重量基本保持在50克以內,而普通眼鏡的重量是20—30克。

王永森說,更好的處理器芯片,更多的攝像頭和其他組件,意味着AI眼鏡會更重、更難攜帶和佩戴。因此,爲了符合人體工學的要求,廠商需要在AI眼鏡的重量和算力能力中間尋找平衡。

仍有技術瓶頸

當前,各家廠商發佈的AI眼鏡,其功能主要聚焦於問答、翻譯、識物等場景。

不過,一位擴展現實(XR,即AR、VR等技術的統稱)設備行業的前從業者告訴經濟觀察網,現在的AI眼鏡,就是給具備通話、拍照、AR等能力的音頻眼鏡,增加了語音助手功能。而且音頻眼鏡的門檻很低,廠商找一家原始設計製造商(ODM)就能做貼牌產品。

上述XR設備行業的前從業者還稱,受限於端側芯片的性能,AI眼鏡當前依賴於雲側大模型提供AI能力。此外,這類產品也需要解決持續工作帶來的高功耗、發熱,以及短續航和網絡延遲等一系列問題。

王永森說,對業內人士來說,AR眼鏡結合大模型的技術門檻並不高,但是很難把AI眼鏡做好。其中一個難點是,AI眼鏡在調用大模型時,如何低延時、準確地理解用戶的自然對話意圖。人們會進行無序的自然對話,可能一口氣說出十幾個字、好幾件事,但大模型需要理解這些話語裡面的用戶意圖。

Rokid創始人祝銘明此前表示,可穿戴眼鏡的同質化競爭確實存在,但這是所有消費電子行業的必經階段。就像手機行業一樣,現在用戶更換手機不只是因爲品牌,更因爲各款手機的細節打磨和生態體驗不同。所以,可穿戴眼鏡的核心競爭力最終會落在品牌競爭力、生態的豐富程度以及產品的細節打磨上。

祝銘明認爲,只有真正願意在細節上深耕的公司,才能在這個市場中生存並發展。最終,可穿戴眼鏡行業會走向類似手機行業的寡頭格局。與手機行業的5—6家主流廠商相比,可穿戴眼鏡行業由於存在強烈的個性化需求,可能會有10—20家主流廠商存在。