对话式AI技术发展及应用前景探讨
在生成式AI的浪潮下,行业普遍认为多模态大模型是实现AGI(人工通用智能)的必经之路。知名投资机构a16z的最新报告指出,随着大模型的不断进步,语音将成为对话式AI的关键切入点。
对话式人工智能技术日益成熟,其应用场景也呈现出爆炸式增长。聊天机器人作为对话式AI的重要应用之一,被广泛用于客户服务、教育、医疗、娱乐等多个领域。
对话式AI的爆发领域和场景
近日,在声网对话式AI引擎发布会上,多位行业专家参与讨论,普遍认为对话式AI可能率先在桌面助手、手机助手、智能硬件、陪伴机器人等场景爆发。
腾讯云AI产品架构师总监曹超表示,对话式AI的优势在于能够有感情、有温度地传递声音和交互方式,随着模型的升级,可以带来更多情感的传递。
阿里云智能集团通义千问高级产品架构师辛晓剑补充道,教育领域的学习机也是一个较好的应用场景。全国学习机年出货量约6000万台,大模型的加持使得客单价有了显著提升,从三四千块钱提升至八千以上。
市场上的对话式AI产品主要包括亚马逊Alexa+、汤姆猫AI情感陪伴机器人、苹果Siri、Manus等。
声网对话式AI引擎的发布
声网近日发布了全球首个对话式AI引擎,具备650ms超低延时响应、优雅打断、全模型适配等五大能力,支持任意文本大模型快速升级为对话式多模态大模型。
声网AI RTE产品线负责人姚光华表示,用户与AI每产生1次对话中,平均会有约3轮问答,平均对话时长约为21.1秒,单次成本仅需3分钱。如果每月对话次数15次,那么月成本不到5毛钱,年成本也只需5元。
通过声网对话式AI引擎,开发者可以快速部署智能助手、虚拟陪伴、口语陪练、智能客服、智能硬件等对话式AI场景。
多模态交互的关键方面
嘉宾们认为,多模态模型架构和训练范式变化不大,提升主要依赖数据质量和数量。实现多模态交互的关键在于将不同模态信息转化到同一语境,ASR技术的发展有助于实现这一点。但要让交互体验更好,还需提升模型推理速度,解决多角色长短期记忆、区分角色等工程化问题,同时也要应对不同模态交互中的复杂情况,如语音语义差异、视频处理等。
DeepSeek的爆火被认为是AI技术的破圈,吸引更多人关注AI。其开源对技术发展意义重大,推动了技术交流与创新,让更多人参与到AI探索中。在技术方面,DeepSeek给行业带来新思考,如在模型训练上,减少对大量数据的依赖,通过强化学习实现升级迭代,带来模型自我进化,降低算力需求,使AI普惠更具可能。此外,它还验证了模型API的商业模式,推动了应用开发范式的进步。
Minimax解决方案高级总监冯雯表示,DeepSeek出圈对于AI行业的所有从业者都是一个很好的现象,现在AI已经潜移默化地进入了更大的用户群体。