如果你问一知人最喜欢听到的话是什么,那一定会是“你们的机器人也太像真人了吧!”。
从一句话通知到平均对话时长超过一分钟,从“人工智障”到“金牌客服”,底层核心能力逐渐成熟,语音识别准确率稳步提升,一点一滴的进步让人工智能电话通道的有效触达成为可能。而在对话体验不断提升的背后,站着的,是一群敢于摘星的人,他们就是一知智能算法团队。
这是一个硕博率达到100%的部门,汇集了众多业内顶尖的技术人才。其中有AI Lab主任姜兴华等屡获行业大奖的牛人,有薛弘扬博士等人工智能科学家,也有毕业于东京大学、美国加州大学洛杉矶分校、南安普顿大学、瑞典皇家理工学院、利物浦大学,浙江大学、中国科学技术大学、西安交通大学、华中科技大学等国内外顶尖院校的精英。
(资料图片)
作为技术驱动型公司,一知智能始终保持对技术先进性的追求。一知智能算法团队核心成员来自浙江大学人工智能研究所和国家重点实验室,拥有强大的高校研发背景。创始团队在校期间屡次在国际大赛中获奖。2016年知识图谱构建竞赛(Knowledge Base Population,简称 KBP)领先IBM、科大讯飞、CMU等研究机构获实体检测任务(Mention Detection)国际综合排名第一;2017年在机器阅读理解大赛(Stanford Question Answering Dataset,简称SQuAD)中,领先谷歌、微软、BAT、科大讯飞等名企,荣获国际单模型组国际排名第二(国内第一)、国际多模型组国际排名第三;2017年SNLI机器阅读理解大赛打败了斯坦福、MIT、UIUC、清华等国际顶尖知名高校位列国际排名第一。2019年2月,一知智能与浙江大学联合成立了浙大·一知人工智能研究中心。其中,与微软亚研院联合研发的FastSpeech算法合成速度比谷歌快260倍;SimulSpeech同声传译算法为同等翻译效果下业界最快实时性翻译;FastLR唇语识别算法为目前世界上解码速度最快的唇语识别系统,比第二名caseded算法快10倍。与此同时,算法团队还拥有十余项自主研发的人机语音交互国家专利,语音人工智能领域国家专利数量在业内遥遥领先,在核心算法技术上自研已达到行业顶尖和国际前沿水平。
正是这样一群人聚在一起,解决行业顶尖的技术难题,试图摘取人工智能皇冠上的明珠,再通过技术落地让每一次人机交互的体验变得更好。2022年,一知智能算法团队实现了意图识别系统全面升级,在电商、反电诈、游戏等场景下均实现了超过96%的准确率,与此同时,他们还完成了新一代自研ASR系统,识别准确率大幅提升,也进一步优化了语音人机交互对话体验。
他们不仅是一知底层技术的挖掘者,也是站在行业前沿的“弄潮儿”。自2022年8月以来,为保护消费者隐私,各大电商平台相继推出虚拟号功能,将消费者的手机号码改为虚拟号码,现有的外呼手段无法触达品牌相关用户群体。而在短短一个月内,一知智能就实现了基于虚拟号的完整外呼方案,也是当时市场上唯一实现该外呼方式的厂商。一知智能算法团队研发的分机号接通时刻判断算法也获得了国家发明专利,分机号输入判断模型和接通状态判断模型能够在毫秒级(20ms)的时间内判断何时输入分机号以及用户是否接起通话,准确率高达99%,在提升外呼效率的同时,也能确保运营商侧能够准确的接收分机号输入。
另一方面,算法的优化也大幅提高了AI训练师的工作效率。目前,公司已研发意向等级自动判断算法,平均可节约训练师配置话术约20%的时间,并针对行业首创的生成式话术自动化算法完成算法验证,该项技术为探索需要大批量话术交付的业务场景提供了可能性。
看看一知 Labs 的核心方向还有哪些!
持续突破底层核心技术
语音识别系统
一知智能自研ASR系统使用了最新的conformer模型,与之前版本的传统模型相比,层数更多,效果更好。模型设计采用了U2++结构,统一了流式和非流式的模式。在业务使用中,采用CTC流式解码,结合attention和语言模型rescore,能够实时快速获得识别的中间结果,并确保最终预测结果的准确率。与此同时,算法团队还根据具体业务场景的实际使用情况,增加了专有名词纠错模块,提高了ASR系统在各个定制领域中的识别准确率。
意图识别算法
一知智能的意图识别算法利用蒸馏算法,有效地减少了算法模型参数,在保持模型高识别率的前提下,大幅度提升算法模型的推理性能,有助于支撑一知业务量的增长。同时,一知智能算法团队也长期致力于模型能力的提升,研究并发表了相关技术的发明专利。与此同时,利用少样本学习技术,用少量的标注数据,训练出具有相同性能的算法模型,将模型的通用能力和特定行业下的垂直场景进行高效融合,赋予了多样场景快速平铺的能力。
而近期ChatGPT的出现和火热意味着深度学习意图识别算法能力有了全新突破,除了ChatGPT这类直接面向终端用户的产品以外,生成式AI还有更为广阔的技术应用空间。ChatGPT及其相关的人工智能内容生成技术也与一知智能现有业务息息相关。一知智能的AI外呼产品已广泛应用于电商、政企、出海等各个行业,引入ChatGPT的强大能力,协助AI训练师的编写话术脚本,能够显著提升工作效率,与此同时,将ChatGPT纳入真实对话体系,提升对话广度和深度,最大限度减少“答非所问”。AIGC通用模型能力的持续发展必将催生一场内容生成产业变革,也期待多模态人机交互能力能乘着这阵东风上更上一层楼。
快速响应客户需求和痛点
意向等级判断算法
在AI外呼场景中,当我们的AI机器人结束与客户的通话后,了解该客户的意向等级(意向强烈、意向一般、意向弱等)是AI外呼公司一项不可避免的紧迫任务,企业客户对于意向等级判断的效率和质量有着极高的要求。在算法介入之前,AI训练师需要编写大量的意向规则以匹配相关关键词来判断意向,该方式非常耗时且准确率也不高。
算法同学在分析该场景后发现,这一场景其实非常符合决策树的逻辑,基于这一判断,我们针对AI机器人话术和客户话术分别训练了分类算法模型,在拿到这些话术标签后,依据话术标签的转换逻辑,从上至下遍历整个话术,最终自动完成话术意向等级的判断。这一算法的引入平均可节约训练师配置话术约20%的时间,同时也能大幅提升准确率。
话术自动化系统
一知智能最新研发的话术自动化系统能够根据用户输入的数据直接生成准确、通顺的话术草稿。在算法层面,该系统分为两部分:一是将话术编辑的专家知识解构成本体模型、语义推理规则体系、语用分类规则体系三个维度的数据;二是基于语义角色和语法规则的文本生成引擎。话术自动化系统能够大大减少AI训练师的早期工作量,并使大批量精细化场景的话术高效交付成为可能。
分机号外呼算法
为了保护个人隐私,天猫、美团等主流电商平台,不再直接提供客户的手机号,而是通过虚拟号的方式提供客户信息。
对于一知智能这类外号平台来说,最大的困难在于我们无法在客户拿起电话的那一刻获得信号信息,这就导致我们的AI机器人不知从何时开始和客户对话。因此,一知智能算法团队针对这一问题,自研了一套分机号接通时刻点判断系统,成为业内最早支持此项技术的外呼厂商之一,同时该项技术也获得了国家发明专利。分机号输入判断模型和接通状态判断模型均能在毫秒级(20ms)的时间内判断何时输入分机号以及用户是否接起通话,准确率高达99%,在提升外呼效率的同时,还可以确保运营商侧能够准确接收分机号码输入。
向前一步探索第二曲线
数字人口型合成算法
一知智能自主研发的数字人产品采用了一知智能数字人业务研发团队最新推出的由文本和语音驱动的数字人口型合成算法,并基于自然语言理解、语音识别、意图识别、语音合成等一知智能底层核心技术能力,集成于一知大脑“Yi Brain”,可根据对话情境完成高度拟人化的对话交流,支持直播、人机交互大屏、终端机等多种交互场景。
利用口型合成算法,只需提前拍摄一个几分钟的视频,即可为视频中的人物生成虚拟形象。此后就可以使用任意文本和语音,驱动虚拟形象讲述新的内容。在生成的视频中,虚拟形象的面部表情和口型会与新的讲述内容匹配一致,实现实时表情、音唇同步,如同重新拍摄的短视频一般,具备极高的真实感;同时又省去了重新布置场景、拍摄真人短视频的复杂工序和高昂成本。这项技术可广泛应用于虚拟人短视频口播、直播等丰富的商业化落地场景。
一知智能数字人研发团队由多模态人机交互领域专家薛弘扬博士担任负责人,薛弘扬博士在多模态可视化交互技术上的研发背景和应用研究经验补上了一知智能全栈人机交互的最后一块拼图。数字人业务的开拓能够补齐一知现有产品在公域获客、提升品牌用户心智的需求短板,为企业提供更多场景、更高水平的解决方案,帮助企业客户在全域营销拥有更多AI数字生产力。
2023年,一知智能算法团队将持续研发语音、文本、图像等多模态内容理解和内容生成算法,通过AI技术提升对话体验,提升外呼机器人的实施效率。在深入研究多模态人机交互技术的同时,借助ChatGPT等大模型算法能力,构建属于一知的技术护城河。