北京时间11月26日,声网母公司 Agora, Inc. (API.US) 发布了2024年第三季度财报。财报显示,第三季度 Agora, Inc. 实现总营收3157万美元,其中,业务聚焦在中国市场的声网实现 Q3 营收1.13亿人民币。聚焦非中国市场的 Agora 实现 Q3 营收1570万美元。

在资金储备方面,财报显示截至2024年9月30日,Agora, Inc. 现金、现金等价物、银行存款及理财产品3.63亿美元。

“近期,Agora推出了 Conversational AI SDK,并与 OpenAI Realtime API 合作,让开发者能够在任何应用程序中加入语音驱动的对话式 AI 能力。”Agora, Inc. 创始人兼 CEO 赵斌表示,“我们相信,能以语音与人类进行自然对话的多模态 AI 将在客户服务、教育和健康等多个场景中得到广泛应用,而我们有望成为对话式 AI 的关键基础设施。”

“为了支持这一愿景,我们进行了一些组织调整,旨在打造一个更高效、更灵活的组织,让我们能更敏捷的抓住市场机遇,并打造生成式 AI 时代的下一代实时互动技术,巩固我们在实时互动领域的领导地位。”赵斌称。

RTE成AI Infra关键部分,声网发布 RTE+AI 能力全景图

在10月25日举办的第十届实时互联网大会上,声网正式发布了 RTE+AI 能力全景图,从实时 AI 基础设施、RTE+AI 生态能力、声网 AI Agent、实时多模态对话式 AI 解决方案、RTE+AI 应用场景五个维度,清晰呈现了当下 RTE 与 AI 相结合的技术能力、架构方案与应用场景。RTE 已经成为生成式 AI 时代 AI 基础设施的关键部分,而 RTE 与生成式 AI 结合所带来的场景创新,也将成为下一个十年的主题。

声网(API.US)发布Q3财报,总营收3157万美元,持续聚焦RTE+AI技术深耕 - 图片1

几年前,声网在业内首次将 AI 算法全面引入 RTC 技术栈的各个领域,用于改善音视频体验与 QoE 体验。在音频领域,声网打造了新一代实时音频技术智能引擎“凤鸣AI引擎”,其中的 AI 降噪、AI 回声消除、空间音频等能力给实时互动场景带来了更加纯净和沉浸的听觉体验。在视频领域,声网的“实时高清·超级画质”解决方案,在全面提升视频画质的同时,也带来了 AI 美颜、虚拟背景、AI 驱动表情与动作等方面的体验进化。

生成式 AI 正在向多模态和多步推理两个方向深度进化。其中,多步推理对于延迟降低和可用性的稳定保障成为关键需求。声网首创了迄今为止规模最大的实时音视频网络——软件定义实时网SD-RTN™。SD-RTN™ 将为分布式多步推理的延迟控制提供重要保障。其对传输质量的保证以及稳定可靠的支持,也将在生成式 AI 时代成为不可或缺的网络基础设施。

在基础设施之上,本季度声网通过与多家客户在 AIGC 场景的深度合作,探索出了实时多模态对话式 AI 解决方案,该方案以语音为核心,支持视频扩展,可实现文本/音频/图像/视频的组合输入&输出,通过丰富的功能构建真实、自然的 AI 语音交互体验。

声网(API.US)发布Q3财报,总营收3157万美元,持续聚焦RTE+AI技术深耕 - 图片2

实时多模态对话式 AI 解决方案具备四大优势:对交互延迟进行优化,延迟可做到低于500ms;支持 AI 降噪、背景人声过滤,让语音对话更纯静;支持随时打断与超拟人化人声合成,让对话更智能与逼真;同时还支持灵活可扩展的 AI Agent 架构等一系列功能,帮助开发者与企业快速构建适配自己业务场景的 AI 实时语音对话服务。

创新AI+会议协作、智能硬件场景,互动体验全面升级

声网作为全球实时互动云服务行业的开创者,一直在探索生成式 AI 与 RTE 结合为各个行业带来的体验提升和场景创新。本季度,声网正式发布了 aPaaS 产品“灵动会议”,通过 RTE 技术与生成式 AI 能力的融合,重塑会议协作使用体验,为客户提供低代码视频会议平台,并且采用了多云、多平台设计,提供 SFU+MCU 混合架构部署能力,支持客户进行灵活部署和扩展,全面满足客户会议、协作和调度需求。

声网(API.US)发布Q3财报,总营收3157万美元,持续聚焦RTE+AI技术深耕 - 图片3

RTE 技术确保了低延迟、高质量的音视频传输,让视频会议沟通更加实时流畅;而生成式 AI 则通过对会议内容的分析和生成,提供智能化的辅助功能,如实时字幕、AI 会议纪要等。两大技术支撑,让会议从传统的信息传输工具升级为智能协作平台,有效提升了会议效率和用户体验。

除此之外,在实时多模态对话式 AI 解决方案的基础上,声网针对 IoT 行业的特殊性,探索出了 AI x IoT 智能硬件解决方案,该方案能够在低功耗、低算力芯片上快速实现大模型的接入,具备低延时实时互动、低成本灵活适配的特性,通过丰富的功能在智能硬件场景中构建真实、自然的 AI 语音交互体验。

目前多模态大模型在智能硬件场景的落地主要以智能眼镜、智能手表、智能耳机等穿戴式设备为主,在生成式 AI 的趋势下,还出现了智能陪伴机器人、智能儿童毛绒玩具、智能戒指等一系列场景,带来不同硬件终端下的 AI 语音交互体验。

RTE 产品更加专业化,推出Status Page、VoIP CallKit

本季度,声网的 RTE 产品也正朝着更加专业化的方向迈进。赵斌在 RTE2024 的演讲中提到,声网推出了面向实时互动的 Status Page,它提供了电信级质量保证,拥有分钟级更新质量保证状态的能力。同时,针对实时互动对话中的卡顿、延迟等体验,提供更加细致且清晰的指标,帮助开发者和客户更好地对实时互动服务状态和能力进行感知。

针对泛 IPC 场景中,用户接通率普遍较低这一痛点,声网在近期推出了小程序 VoIP CallKit,该方案基于声网 RTSA 音视频实时通话服务,可支持微信小程序 VoIP 端到端呼叫功能。可适用于带屏 IPC、智能门锁、陪伴机器人、智能可视台灯、智能手表、智能带屏音箱等一系列 IoT 场景。 在这些场景中,接入 VoIP CallKit 能够高效、快速、准确地实现智能硬件与微信小程序之间的 1v1 实时音视频通话。

今年8月,中国首款 3A 游戏“黑神话:悟空” 的推出使得游戏开黑业务呈现爆发式增长,为了吸引更多观众参与,直播时的画质成为直播平台和主播都非常关注的因素。声网的游戏直播方案,通过对采集和编码侧的核心技术优化,在游戏屏幕共享过程中,保证实时视频编码,让性能消耗最低、编码效率最高,最终实现不掉帧、无卡顿、低延时、超高清的游戏直播互动体验,可以真正做到把大片级 4K 60帧观看体验搬到普通玩家的日常游戏直播中。

声网研究院出品,《读懂实时互动》新书重磅发布

今年是声网成立10周年,声网一直以“帮助人们跨越距离实时互动,如聚一堂”为使命,致力于通过高质量的实时音视频技术服务,全面提升人们的实时互动体验,为社交、教育、金融、医疗等行业赋能,推动经济、社会的发展。声网有责任也有义务去推动实时互动的普及。

对此,声网在10周年之际推出《读懂实时互动:音视频技术、场景及数据深度解读》一书。本书由机械工业出版社出版,声网研究院组编,于8月27日正式发售上架,这也是全行业首本系统介绍实时互动的技术型科普图书。

声网(API.US)发布Q3财报,总营收3157万美元,持续聚焦RTE+AI技术深耕 - 图片4

《读懂实时互动》从发展历程、技术原理、应用场景、大数据观察等多个维度对实时互动行业展开全面的系统性讲解。声网希望读者通过阅读本书,能够深入的读懂实时互动,并掌握实时互动相关的知识,并推动更多的人群加入到这个行业中来,一起推动行业的进步。