(CWW)11月19日,第五届世界声博会暨2022科大讯飞全球1024开发者节AI+家庭论坛在合肥奥体中心举办,现场发布推出以AI虚拟数字人为媒介的新一代电视语音平台——iFLYHOME OS 2.0。iFLYHOME OS是科大讯飞针对家庭场景及智能终端开发的AI多模态人工智能操作系统。此次iFLYHOME OS 2.0以AI虚拟数字人为媒介,对多模态交互系统进行了全面能力提升,并带来了三大创新亮点,让大屏交互更便捷、更智慧、更温暖。


(相关资料图)

伴随智能终端和ICT技术的蓬勃发展,智慧家庭新时代正在扑面而来。2021年12月,业内首个双编号标准《智能家居系统跨平台接入与身份验证技术要求》正式发布,有效解决当前智能家居互联互通中存在的“生态壁垒”问题,助推智能家居互联互通产业的进一步规范发展。面对广阔前景空间,智慧家庭市场将深度聚焦平台、应用、技术、场景探索智慧家庭生态构建,不断完善服务化水平。

讯飞智慧家庭作为科大讯飞垂直行业品牌,以人工智能技术深度赋能运营商数字家庭业务及终端设备。在2016年发布首款电视语音助手,开启大屏入口探索,2020发布电视语音平台iFLYHOME OS,聚焦平台生态能力建设。此次发布的iFLYHOME OS 2.0则标志着大屏交互从语音迈入多模态新时代。

关键核心技术突破带来交互体验升级

全新发布的iFLYHOME OS 2.0在语音识别、语音合成和端到端交互成功率方面都有显著效果提升。在平台系统化布局基础上,每个单点性能的提升都能给用户带来极大的交互体验改变。

其一,面向家庭复杂环境和人群的识别优化,让语音交互更简单。科大讯飞在语音识别方面取得关键技术突破,通过增强模型和识别模型的深度耦合,实现高噪、远场混响等各种复杂环境下的高精度语音识别。即使在客厅和厨房这种高噪音复杂场景下,升级优化的语音识别可以精准识别到家庭用户的指令词。同时,iFLYHOME OS 2.0针对各种方言和口音也能实现复杂场景高鲁棒性语音识别,支持7种方言自由切换,满足家庭多代同堂的“年轻人普通话&老人方言”混合识别问题。

其二,极致拟人的语音合成,让AI虚拟人交互更有情感。科大讯飞最新一代语音合成技术在深度学习框架的基础上进行了技术升级,结合无监督语音听感属性解耦和听感量化编码技术,实现对语音韵律和情感的精细化建模,从而达到能够媲美真人细腻情感表达的效果,使得合成语音变得更具有表现力,韵律、音质和情感上都要更加贴近真人。目前,iFLYHOME OS 2.0定制化音库中有十多种超自然发音人选择,家庭用户可以根据年龄、性别、场景喜好定制专属自己的发言人陪自己对话聊天。

其三,交互全流程评价体系打造,让端到端体验更完善。针对平台交互评价标准,科大讯飞联合中国移动智慧家庭运营中心和福建移动分公司,在iFLYHOME OS首发“懂有畅快暖”语音评价体系,不同于现有行业通用的识别率、语义分析等偏技术化和分段碎片化的评价体系。iFLYHOME OS 2.0聚焦家庭用户交互全流程,从用户语音需求出发,注重整体体验感的提升,从单一搜索服务扩充到全场景交互服务,为家庭用户带来更人性化的智能操控体验,获取信息更快、更准、更智能。将端到端交互成功率提升到90%以上,为行业平台交互应用提供标准参考。

- 懂-听得懂:聚焦语音交互服务,提升“识别-语义-搜索”全流程交互满足率,保障用户基础体验,保障用户基础体验。

- 有-服务多:结合大屏场景及人群特征,打造100+精品技能。

- 畅-推得准:针对现网普遍30%+的影片缺失率问题,形成“用户搜索时给予推荐、搜索后后台统计、资源更新后用户提醒”的闭环

- 快-速度快:通过搜索逻辑与界面展示流程优化,全流程响应时间在1S内。

- 暖-有情感:通过交互流畅性、视觉效果、合成音效果、回复语人性化程度、用户引导等功能优化。

(以上数据来源:讯飞电视语音平台BI数据)

智慧家庭道路上,科大讯飞始终坚持从技术中来,到产品中去。目前,科大讯飞已成功构建一套“AI+家庭”智能化解决方案。相信,基于iFLYHOME OS 2.0的升级迭代,讯飞将持续赋能智慧家庭生态,围绕家庭场景的多样化需求,技术连接家庭内的智能终端,并通过开展多元化运营,给家庭用户带去多模态、主动式的交互体验。

更温暖、更精准、更安全的大屏应用创新

iFLYHOME OS 2.0也在场景应用方面有所突破创新,家庭用户体验感提升,大屏语音交互更温暖、更精准、更安全。

其一,基于场景的情感型对话,让大屏交互更温暖。相比对传统的指令性交互,必须等待用户主动说话然后系统进行机械师回复的方式,家庭用户对大屏交互提出更高层次的要求。科大讯飞通过多模态感知及表达、主动对话等技术赋能,在iFLYHOME OS 2.0上升级AI交互对话系统能力,系统会在合适的场景下主动进行电视助手的关怀引导和情感化表达,如用户之前搜索的缺失影片更新上映了,系统会主动进行提醒,实现热门影片推荐服务闭环。

经过多年深耕,iFLYHOME OS 2.0已经拥有一整套家庭垂直领域知识图谱,覆盖衣食住行文购娱乐等家庭生活全场景。通过AI对话系统深度学习,会在和用户对话的过程中,结合用户的对话内容,进行电视内容和服务的推荐,将电视端的内容和服务推荐给家庭用户使用,从简单指令逐渐提升到智能服务的层次。

其二,面向多人场景的图像+声音多模态融合,让远场交互更精准。现在很多电视、音箱的远场交互都是依赖“单语音+唤醒词”的方式进行,一来这种方式需要用户频繁进行唤醒词唤醒,每说一句话都要喊一次,非常繁杂;二来客厅环境经常有各种人声、电视背景音、甚至窗外的杂音等,会影响远场语音的识别效果。

iFLYHOME OS 2.0通过“图像+声音”多模态融合技术,可利用远场麦克风阵列搭配摄像头,实现远场声音定位+摄像头的人脸和唇形检测,视觉+听觉双重信息进行说话人和内容解析,既解决每次说话需要喊唤醒词的繁琐操作,也做到即使旁边有其他人说话,也能将主说话人的干净人声从嘈杂背景环境中分离出来,提升在多人、远距离复杂场景下的语音交互精准性。有了这种技术,以后即使客厅有再多人,电视也能做到只“听”你的声音,随时随地和你实时互动。

其三,多场景输入输出的定向优化,大屏轻社交方案更安全。iFLYHOME OS 2.0上线大屏轻交互解决方案,可实现大屏弹幕和大屏字幕翻译功能。针对大屏弹幕功能,上线组合敏感词识别、基于语义的敏感内容识别,敏感词过滤保障大屏内容安全。另外,字幕在线翻译支持中文和英语等四十多个语种的互相翻译,实施率和准确率高达99%,让大屏视频观看实时无障碍。

首款大屏AI虚拟人开启家庭“元宇宙”

在本次发布会上,讯飞智慧家庭还推出了大屏首款情感陪伴AI虚拟人。作为一款兼具情感交互和工具服务的AI虚拟人,AI虚拟管家可以实现与家庭用户在情感陪伴、影视娱乐、老人健康、儿童成长、生活服务、AIoT等多个场景生态下的实时交互,为用户提供一站式大屏生活服务。

AI虚拟管家的多情绪识别和表达能力表现出色,能够根据家庭用户的意图,主动推荐内容及服务。从语音交互再到“类人化”交互,AI虚拟管家越来越接近人与人的对话习惯,也更加适合多样化的现代家庭。

基于iFLYHOME OS 2.0的发布,科大讯飞依旧秉承着开放共赢的合作理念,面向行业和合作伙伴提供标准化对接接口,实现高效技术保障。并且面向多种应用场景实现我们的场景开放,向行业提供多种场景提供带屏解决方案。

面对现下元宇宙背景下的“虚拟人”热潮,科大讯飞诚邀产业合作伙伴共建虚拟人生态,基于讯飞AI虚拟人交互平台,为客户提供定制虚拟人解决方案。讯飞希望联手运营商和合作伙伴,通过iFLYHOME OS 2.0平台,不断创造并完善更多的数字家庭新场景。

作为AI虚拟人技术及相关产品和生态合作的服务平台,讯飞AI虚拟人交互平台具备多模感知、多维表达、情感贯穿、自主定制四大关键特点。2022年6月,科大讯飞AI虚拟人交互系统通过国内首批数字人系统基础能力评测,成功获得了数字人领域的权威标准认证,为和产业链合作伙伴合作奠定深厚的技术基础。

iFLYHOME OS 2.0的发布是科大讯飞稳步布局智慧家庭生态布局的重要一步。面对智慧家庭产业市场蓝海,科大讯飞将会继续以技术创新为动力进行探索,推动未来家庭生活逐步走向智能化。

推荐内容