日交互量超百万,线上AI机器人全面上岗疫情“你问我答” ——智能疫情防控机器人(在线类)首轮评估结果发布

发布时间:2020-02-18

作者:admin

自新冠肺炎疫情爆发以来,智能疫情防控机器人以其便捷、高效、准确的特点迅速成为防控一线的有利助手。目前业界使用较多的智能疫情防控机器人主要有外呼和在线服务两类产品。外呼类产品可以实现对重点用户的电话问询,其首批测评结果已经发布,受到了业界的广泛关注。在线服务机器人,可接受用户主动提问,为用户提供咨询、问诊、查询等服务,可以迅速的为用户传达疫情信息。为便于相关单位根据需求选择合适的产品,中国人工智能产业发展联盟(以下简称:联盟)在此前工作基础上,依托中国信息通信研究院和人工智能关键技术和应用评测工业和信息化部重点实验室,在南京新一代人工智能研究院的深度参与下,开展了面向疫情防控在线服务机器人的评估测试,现将评估结果公布如下。

 

 

参测情况

 

本轮智能疫情防控机器人(在线类)评测共有15家企业报名参加,16款产品参与评测。联盟通过技术测试、材料审查和企业披露等方式对参评产品进行了评测。参与本轮评测的企业与产品见下表(按拼音顺序排列,排名不分先后)。

1 参评企业及产品

图片1.png 

 

 

结果分析与建议01基础功能丰富多样,业务功能有待完善

 

本轮评测功能部分测试了疫情防控在线服务机器人的多渠道管理、富媒体消息互动、情绪安抚等六项基础功能指标,测试了疫情查询、问题咨询、自诊问诊等五项业务功能指标。下图给出了功能部分的评测结果,列出了参评产品对各项指标的支持情况:

 

图片8.png 

图片9.png 

1 基础功能测试结果

 

总体而言,参评产品在多渠道管理支持能力和富媒体消息互动支持能力方面表现良好,所有参评产品均支持两种及其以上渠道管理,最高的支持达到六种,全面覆盖了PC端和移动端用户。参评产品在会话异常处理上表现比较接近,大部分产品部分支持该功能,在情绪安抚功能支持上两极化差异较明显,全面支持和不支持数量相近,两者合计数量占比超过八成。主要有以下三个方面的特点:

 

 

 

多渠道管理能力普遍支持较好,保障不同渠道用户访问服务的便捷高效;

 

 

交互方式多样化,超过半数参评产品支持图像交互,信息展示更立体;

 

 

会话异常处理结合情绪安抚,有效提升了用户情感体验。

 

 

图片10.png 

2 业务功能测试结果

 

针对不同疫情防控场景,测试选取了不同的测试数据,根据产品对语料的反馈相关度设置了0-4分五级评分标准。通过测试结果得出,多数产品对咨询、问诊和防控业务场景支持能力较好,高效回复率分别达到35.6%、40.9%、45.0%,有效回复率分别达到70.6%、63.4%、60.0%。但是在政策和新闻等信息类业务场景中,多数参评产品得分情况较差,不能较好的反馈实时信息,这方面的能力需要继续加强。

 

 

02 对话质量参差不齐,性能指标有待优化

 

智能疫情防控在线服务机器人的核心技术是自然语言处理和对话系统,产品能否准确识别对话中的关键词,并理解用户意图成为服务效果的关键,因此本次评测选取意图理解和关键词识别作为核心性能指标。作为一款以自然语言处理为核心技术的产品,测试数据集的设计尤为重要,通过分析用户对疫情信息关注的不同角度,本次测试数据集选择咨询、问诊、防控和信息查询四个不同场景。测试使用的数百条语料由联盟人员通过对疫情相关信息和知识的调研,并分析各家产品的特点后设计,涵盖了疫情相关术语以及用户比较关心的问题。下图给出了16款参评产品的性能指标测试结果(产品序号根据评测先后顺序排列,与表1次序无关)。

图片11.png 

图片12.png 

 

3 性能指标测试与分析结果

 

总体来看,各家参评产品在关键词识别和意图理解能力上参差不齐,准确率最高值与最低值相差都超过了50个百分点。在关键词识别能力上,有6款产品的准确率超过60%,基本可以识别出“新型冠状病毒”、“N95口罩”、“发烧干咳”、“密切接触者”等疫情强相关词汇,以进行关键词匹配和扩展,确保答复的准确性和丰富性。在意图理解能力上,有7款产品的准确率超过50%,可对用户提出的问题有针对性的进行答复、相关问题推送和情绪安抚,从而提供精确、及时、有效的服务。

 

通过图3中的性能指标产品分布情况可知,多数参评产品意图理解和关键词识别准确率分布在[0.2,0.4)和[0.6,0.8),反映出参评产品在性能上的两级分化,建议相关企业及时丰富疫情相关语料并进行产品优化,提升问题解决率。

 

 

03用户需求攀升,交互量日益增加

 

在本轮评测中,除上述功能和性能指标外,还统计了截至2月12日各参评产品的访问量、交互量以及用户平均在线时长情况。具体数据如下图所示。

图片13.png 

4参评产品运营情况

 

由图4可知,从访问量上看,超七成产品的总访问量达到了百万级,其中总访问量超过二百万和三百万的产品约占三成;从日均访问量上看,约70%的产品日均访问量在一万到二十万之间,仅有10%的产品突破了二十万大关;从交互量上看,约75%的产品总交互量超过了百万条,约78%的产品日均交互量超过一万条;从用户平均在线时长上来看,超五成产品达到了2分钟以上,约37%的产品用户平均在线时长不足1分钟,另外平均在线时长超过3分钟的产品数约占36%。

 

 

04建议与反馈

 

联盟通过分析疫情防控机器人(在线类)的评测结果,结合终端用户的实际需求,提出以下建议:

 

§  注重信息和答案的真实性和准确性:在疫情防控、政策宣贯、信息查询等场景下,保证数据和问题结果的真实性极为重要。例如:本次评测中发现,各款产品对“白酒能否替代酒精消毒?”的解答不尽相同,甚至得到相反的答案;

§  确保疫情相关知识的丰富性与时效性:如气溶胶传播、SARS-CoV-2等疫情术语的解释及核酸检测、人工肺等医疗手段的阐述;

§  适度增加富媒体消息的交互:采用图文结合的方式,能更加清晰简洁的回复用户提出的问题。例如在“如何正确佩戴N95口罩?“问题上,以图片示意每一步佩戴操作,相对而言更为明确和具体;

§  适当发起多轮对话关联上下文语义信息:在人机对话过程中以多轮次问答的形式采集用户信息,帮助用户明确问题,从而动态且精准地为用户解答并推荐相关问题。

 

下一步工作计划

 

感谢在智能疫情防控机器人(在线类)评估中各相关单位对联盟工作的积极响应和鼎力支持,对于此次评测,联盟将根据评估结果颁发相应证书,并形成完整评测报告供业界参考。在未来工作中,联盟将一如既往的做好服务和交流平台,近期还将继续开展疫情防控相关产品评测。同时,NLP技术和应用系列评估规范制定工作也将陆续开展,欢迎各界积极参与,如有应用或评测需求可与联盟工作人员联系:

董晓飞13521850718,

             Dongxiaofei@Caict.Ac.Cn;

张学强,15722924458,

             Zhangxueqiang@Ngai.Ac.Cn。