北京時間11月26日,聲網母公司 Agora, Inc. (API.US) 發布了2024年第三季財報。財報顯示,第三季 Agora, Inc. 實現總營收3157萬美元,其中,業務聚焦在中國市場的聲網實現 Q3 營收1.13億人民幣。聚焦非中國市場的 Agora 實現 Q3 營收1570萬美元。
在資金儲備方面,財報顯示截至2024年9月30日,Agora, Inc. 現金、現金等价物、銀行存款及理財產品3.63億美元。
“近期,Agora推出了 Conversational AI SDK,並與 OpenAI Realtime API 合作,讓開發者能夠在任何應用程式中加入語音驅動的對話式 AI 能力。”Agora, Inc. 創辦人兼 CEO 趙斌表示,“我們相信,能以語音與人類進行自然對話的多模態 AI 將在客戶服務、教育和健康等多個場景中已廣泛應用,而我們有望成為對話式 AI 的關鍵基礎設施。”
“為了支持這個願景,我們進行了一些組織調整,旨在打造更有效率、更靈活的組織,讓我們能更敏捷的抓住市場機遇,並打造生成式 AI 時代的下一代即時互動技術,鞏固我們在即時互動領域的領導地位。”趙斌稱。
RTE成AI Infra關鍵部分,聲網發布 RTE+AI 能力全景圖
在10月25日舉辦的第十屆實時互聯網大會上,聲網正式發布了 RTE+AI 能力全景圖,從即時 AI 基礎設施、RTE+AI 生態能力、聲音網 AI Agent、即時多模態對話式 AI 解決方案、RTE+AI 應用場景五個維度,清晰呈現了當下 RTE 與 AI 結合的技術能力、架构方案與应用场景。RTE 已成為生成式 AI 時代 AI 基礎設施的关键部分,而 RTE 與生成式 AI 結合所帶來的場景創新,也將成為下一個十年的主題。
幾年前,聲網在業界首次將 AI 演算法全面引入 RTC 技術棧的各個領域,用於改善影音體驗與 QoE 體驗。在音訊領域,聲網打造了新一代即時音訊技術智慧引擎“鳳鳴AI引擎”,其中的 AI 降噪、AI 迴聲消除、空间音频等能力给实时互动场景带来了更加纯净和沉浸的听觉體驗。在視訊領域,聲網的“即時高畫質·超畫質”解決方案,在全面提升影片畫質的同時,也帶來了 AI 美顏、虛擬背景、AI 驱动表情与动作等方面的體驗进化。
生成式 AI 正在向多模態和多步驟推理兩個方向深度進化。其中,多步驟推理對於延遲降低和可用性的穩定保障成為關鍵需求。聲網首創了迄今為止規模最大的即時音視訊網絡——軟體定義即時網SD-RTN™。SD-RTN™ 將為分散式多步驟推理的延遲控制提供重要保障。其對傳輸品質的保證以及穩定可靠的支持,也會在生成式 AI 時代成為不可或缺的網路基礎設施。
在基礎設施之上,本季聲網透過與多家客戶在 AIGC 場景的深度合作,探索出了即時多模態對話式 AI 解決方案,該方案以語音為核心,支援影片擴充,可實現文字/音訊/影像/影片的組合輸入&輸出,透過豐富的功能建構真實、自然的 AI 語音互動體驗。
即時多模態對話式 AI 解決方案具備四大優勢:對交互延遲進行優化,延遲可做到低於500ms;支援 AI 降噪、背景人聲過濾,讓語音對話更純靜;支援随时打断与超拟人化人声合成,讓對話更智能與逼真;同时还支援灵活可扩展的 AI Agent 架構等一系列功能,幫助開發者與企業快速建立適配自己業務場景的 AI 即時語音對話服務。
創新AI+會議協作、智慧硬體場景,互動體驗全面升級
聲網作為全球即時互動雲端服務產業的開創者,一直在探索生成式 AI 與 RTE 結合為各行業帶來的體驗提升與場景創新。本季,聲網正式發布了 aPaaS 產品“靈動會議”,透過 RTE 技术與生成式 AI 能力的融合,重塑會議協作使用體驗,為客戶提供低程式碼視訊會議平台,並且採用了多雲、多平台設計,提供 SFU+MCU 混合架構部署能力,支援客戶進行靈活部署和擴展,全面滿足客戶會議、協作和調度需求。
RTE 技術確保了低延遲、高品質的音視頻傳輸,讓視訊會議溝通更加即時流暢;而生成式 AI 則透過會議內容的分析與生成,提供智慧化的輔助功能,如實時字幕、AI 會議紀要等。兩大技術支撐,讓會議從傳統的資訊傳輸工具升級為智慧協作平台,有效提升了會議效率與使用者體驗。
除此之外,在即時多模態對話式 AI 解決方案的基礎上,聲網針對 IoT 產業的特殊性,探索出了 AI x IoT 智慧硬體解決方案,該方案能夠在低功耗、低算力晶片上快速實現大模型的接入,具備低延時即時互動、低成本靈活適配的特性,透過豐富的功能在智慧硬體場景中建立真實、自然的 AI 語音互動體驗。
目前多模態大模型在智慧硬體場景的落地主要以智慧眼鏡、智慧手錶、智慧耳機等穿戴式裝置為主,在生成式 AI 的趨勢下,也出現了智慧陪伴機器人、智慧兒童毛絨玩具、智慧戒指等一系列場景,帶來不同硬體終端下的 AI 語音互動體驗。
RTE 產品更加專業化,推出Status Page、VoIP CallKit
本季,聲網的 RTE 產品也正朝著更專業化的方向邁進。趙斌在 RTE2024 的演講中提到,聲網推出了面向即時互動的 Status Page,它提供了電信級品質保證,擁有分鐘級更新品質保證狀態的能力。同時,針對即時互動對話中的卡頓、延遲等體驗,提供更細緻且清晰的指標,幫助開發者和客戶更好地對即時互動服務狀態和能力進行感知。
針對泛 IPC 場景中,用戶接通率普遍較低這一痛點,聲網近期推出了小程序 VoIP CallKit,該方案基於聲網 RTSA 音訊視訊即時通話服務,可支援微信小程式 VoIP 端對端呼叫功能。可適用於有屏 IPC、智慧門鎖、陪伴機器人、智慧型視覺檯燈、智慧手錶、智慧帶屏音箱等一系列 IoT 場景。 在这些場景中,存取 VoIP CallKit 能夠高效、快速、準確地實現智慧硬體與微信小程式之間的 1v1 即時音視訊通話。
今年8月,中國首款 3A 遊戲“黑神話:悟空” 的推出使得遊戲开黑业务呈现爆发式增长,為了吸引更多觀眾參與,直播時的畫質成為直播平台和主播都非常重視的因素。声网的遊戲直播方案,透過對採集和編碼側的核心技術優化,在遊戲屏幕共享过程中,保證即時視訊編碼,讓效能消耗最低、編碼效率最高,最終實現不掉幀、無卡頓、低延時、超高清的遊戲直播互动体验,可以真正做到把大片級 4K 60帧观看体验搬到普通玩家的日常遊戲直播中。
聲網研究院出品,《讀懂即時互動》新書重磅發布
今年是聲網成立10週年,聲網一直以“幫助人們跨越距離即時互動,如聚一堂”為使命,致力於透過高品質的即時音視頻技術服務,全面提升人們的即時互動體驗,為社交、教育、金融、醫療等行業賦能,推動經濟、社會的發展。聲網有責任也有義務去推動即時互動的普及。
對此,聲網在10週年之際推出《讀懂即時互動:影音技術、場景及資料深度解讀》一書。本書由機械工業出版社出版,聲網研究院組編,於8月27日正式發售上架,這也是全產業首本系統介紹即時互動的技術型科普圖書。
《讀懂即時互動》從發展歷程、技術原理、應用場景、大數據觀察等多個維度對即時互動產業展開全面的系統性講解。聲網希望讀者透過閱讀本書,能够深入的讀懂即時互動,並掌握即時互動相關的知識,並推動更多的人群加入這個行業中來,一起推動產業的進步。