轨道交通AFC系统自动售票机语音交互

轨道交通AFC系统自动售票机语音交互

摘要:随着互联网技术的快速发展,手机二维码支付得到广泛关注和研究,这种移动支付方式也受到广大市民乘客的接受和认可,通勤乘客对购票终端的需求进一步降低。在售票终端总量减少的前提下提升单台设备购票速率,丰富和满足乘客服务场景,将语音交互所需的语音识别、语义理解、语音合成引擎进行站内部署,并部署AI语义结构化可视化开发平台,支持购票、线网图查询、站内导航等语义技能的可视化开发,从而不断提升售票终端语音对话的智能度,更好服务乘客需求的作用

关键词:语音识别;语义理解;语音合成;语音购票

1引言

在大数据时代的背景下,轨道交通行业正面临新一轮信息产业革命的到来,数字化转型是必然的趋势。目前轨道交通网络化运营要求越来越高,对传统AFC系统是一种极大的挑战,传统的自动售票机运营模式已经不能满足现代化的运营要求,以互联网技术为基础的智能支付技术应用在轨道交通行业将占有越来越重要的地位,二维码支付技术已在自动售票机上得到广泛应用。AFC票务规则的复杂性和业务多样性,还有除售票、检票、充值以外的大量业务需要依赖人工实现,车站客服人员为进站、出站人群办理补票、更新、退票等服务,甚至承担了包括问询、指路、兑零等多种职能。随着移动支付、移动互联网技术等兴起,AFC系统也在积极探索寻求新的发展途径,尤其在智慧车站方面更加走向无人化、智能化。

2软件功能开发

2.1智能唤醒

多模态语音模组集成了人脸检测与唇动检测算法,会持续的从摄像头接收视频流信息并输出人脸检测结果,当用户走到设备前,可以自动检测到用户,并通过唇动检测进一步捕获用户开始说话和结束说话的节点,从而实现智能感知用户主动唤醒响应用户说话的效果。

2.2语音咨询

目前我方在天津等城市围绕智慧客服中心场景的语音咨询,已开发出线网图查询、站内导航、出入口查询等多种技能,每种技能对应不同的业务咨询,在JSON语义结果返回时,service字段会有不同的取值,智慧客服中心终端设备接到多模态语音模组通过串口传输的JSON语义结果后,客户端程序可以根据service字段跳转到不同的业务流程页面中,生成业务回答文本,并调用语音合成服务进行播报回答。

2.3语音购票

多模态语音模组通过人脸检测与唇动检测算法,捕获开始说话和结束说话的节点后,会将该时间段内通过麦克风阵列拾音的音频做降噪处理,并通过语音交互的SDK与私有云服务通信进行语音识别、语义理解的处理,获取购票的语义结果。多模态语音模组会通过串口将语义结果传输到设备工控机,工控机上运行的客户端程序在接收到JSON结果时,可根据当前所处的页面选择是否解析JSON执行业务操作,如当前处于首页,在接收到上述“买天津西站的地铁票”的JSON结果时,则跳转到待支付页面。

3平台部署

3.1调度服务部署

采用交互云技术方案,客户可通过调用参数来决定业务调度模型。整体调度方案整合了我方的语音识别(IAT),语音合成(TTS)和语义理解(NLU)和用户个性化系统等。具备语音交互能力的同时,也具备第三方自定义技能的灵活配置和业务拓展的能力。在服务调用时,通过schduler参数设置能力调度顺序,如iat,nlp,tts表示识别语义合成,通过which_ability参数指定返回结果,如iat,nlp,tts表示需要返回识别,语义和合成的结果,不设置时默认只返回最后结果。服务接入协议方面支持WebSocket接入方式,为厂商接入提供方便,降低设备运行要求。服务接入实现了全双工交互,并通过数据压缩传输提升服务性能,减少带宽占用。全双工通信协议:针对服务外部通信,系统设计采用WebSocket长连接通信协议,对于服务内部通信,则采用gRPC协议,从而实现节省服务器资源和带宽,提高通信效率。数据压缩传输:针对服务外部音频数据通信,客户可采用speex等高压缩率编码格式,也支持以原始音频pcm格式传入。对于服务内部数据调用,则采用protobuf序列化方式,从而降低流量和传输延时。

3.2语音识别云服务部署

语音识别采用语音和语义多信息融合的短句方案,提升非连贯交互场景中的交互成功率;在基于交互上下文信息的动态解码方面,使用了篇章级语言模型的方案。在领域识别方面,支持不同领域的识别模型,如在语言近场中覆盖通用、交通出行、搜索、餐饮、导航、视频、音乐和医疗领域。个性化识别方面,支持会话级个性化(带屏设备的所见即可说),用户级个性化(站内信息、站内设施)和应用级个性化(站点名、景点名、建筑名),全方位多维度支持厂商和用户的个性化需求,提升识别准确率。1)语音识别服务语音识别听写服务是将语音识别听写引擎服务化,由于语音识别引擎为包含众多功能模块,都以动态库的形式对外提供,业务方如果直接调用引擎,首先需要了解引擎的基本结构和调用逻辑,对引擎进行封装,然后编写自身的业务逻辑模块,存在着较大的难度和工作量。因此将识别引擎服务化,已上层接口的形式对外提供,提供业务方调用,节省了业务方调用识别引擎的复杂度,只需调用服务提供的接口,能够更多的关注自身的业务调用逻辑,无需关注底层引擎调用逻辑;同时也节省了业务方的人力成本,避免各业务方的重复集成。2)负载均衡(lb)模块负载均衡模块用于向负载均衡服务定时上报自身信息,包括总的和当前正在使用实例数等相关信息,负载均衡服务可根据上报信息提供给业务端最优的引擎节点,此模块支持开启关闭,是否启用。3)实例管理服务内部采用实例池的形式来管理引擎实例,启动时,会向引擎申请池大小的引擎实例数目,当请求会话数超过实例大小时会返回相应错误,此模块可避免业务端向引擎申请过多实例导致引擎崩溃。4)会话管理服务采用grpc双向流模式,每一个流代表一路会话,在每一路会话中,服务会先解析用户请求,设置相应参数,接下来调用引擎进行识别,解析和封装引擎返回的结果,流式返回给客户端。5)日志模块服务包括了日志模块,目前仅将日志记录在本地,不具有上传到日志中心功能。6)个性化模块个性化模块包括全局个性化、领域个性化和用户个性化。

3.3语义理解服务部署

1)语义理解引擎采用独创的基于海量弱监督数据训练的语义关联迁移模型(ATM),基于BILSTM模型进行意图理解和语义抽取,使用通用CNNRank模型对用户查询进行语义消歧,采用ABNF文法支持垂直领域定制化的语义理解作为通用BILSTM模型的补充和修正,最终实现语义提取正确率和召回率达到平均85%以上,交互完成率达到平均80%以上。2)自定义技能针对地铁领域购票、线网图查询等业务场景,可以通过自定义技能的方式来实现关键信息提取的功能。将当地地铁各条线路的线路名称、站点名称构建成线路实体{lineName}、站点实体{stationName},并构建购票数量的实体{num},基于用户购票的表述习惯,融入站点名称、线路名称,支持“我要买[{num}]{lineName}的票”、“我要买{stationName}的票”、“我要买{lineName}{stationName}的票”等语料覆盖,通过语义的模糊匹配,支持用户说“买2张去XX体育场的地铁票”这种非严格规范类的说法。地铁购票机客户端应用,在获取语义结果中{num}、{stationName},根据字段值生成一条购票订单,并在页面中显示支付的二维码,用户通过手机扫码,即可快速完成购票。3)自定义问答支持一问一答,一问多答,多问一答和多问多答。通过自定义问答可以将地铁常见咨询问题中,不易于归类做自定义技能开发的问题,作为自定义问答,从而提升设备在乘车咨询问题回答的全面性。4)开放问答系统默认支持9种官方问答:抱怨,十万个为什么,情绪,感情,问候,热点,个性化,夸奖,常识。开放问答可以做闲聊补充,当用户与设备交互咨询“喜马拉雅山有多少”“你真聪明”等问题时,设备也能够返回回答,增加设备智能度与趣味性。5)语义理解服务语义理解服务是对语义引擎的封装,其包含的主要模块有:语义解析服务:解析引擎,负责语义解析,对一句话进行语义理解,并解析为结构化的JSON数据返回,是语义理解的核心组件,依赖redis,mongoDB和语义贴弧等服务。语义贴弧服务:智能贴弧功能可以在输入语料时自动分析语料各部分所匹配的系统内置实体和辅助词,能明显简化录入语料的工作量。编译引擎:编译引擎,负责将Web页面编辑的内容编译成为解析引擎使用的资源。问答服务:支持一问一答,一问多答,多问一答和多问多答。日志模块:服务包括了日志模块,目前仅将日志记录在本地,不具有上传到日志中心功能。

3.4语音合成服务部署

1)语音合成引擎采用基于原创的听感量化编码的统一框架,建立多语言共享的统一建模单元实现优质的语音合成文本转换为流畅、清晰、自然和具有表现力的语音数据——高质量合成音频的自然度和清晰度已经超过了普通人的朗读水平。技术指标:提供多个面向智能人机交互的高表现力语音合成系统,相对传统信息播报风格语音合成系统,在人机对话文本领域,以国际通行的平均主观意见分MOS(MeanOpinionScore)做人工主观对比评测(在5分制标准,打分间隔0.5分),人机交互系统的自然度可高出信息播报系统0.2MOS分,并具有统计显著性。2)语音合成服务语音合成,英文全称TextToSpeech,简称TTS。主要解决的问题是如何将文字信息转化为可听的声音信息,涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,可以“让机器像人一样开口说话”。语音合成服务是对语音合成引擎的封装,内部调用通过gRPC实现。语音合成服务除调用语音合成引擎外,还包括以下功能:

•负载均衡(lb)模块:负载均衡模块用于向负载均衡服务定时上报自身信息,包括总的和当前正在使用实例数等相关信息,负载均衡服务可根据上报信息提供给业务端最优的引擎节点,此模块支持开启关闭,是否启用。

•会话管理:服务采用grpc双向流模式,每一个流代表一路会话,在每一路会话中,服务会先解析用户请求,设置相应参数,接下来调用引擎进行合成,解析和封装引擎返回的结果,流式返回给客户端。•日志模块:服务包括了日志模块,目前仅将日志记录在本地,不具有上传到日志中心功能。

•多发音人:发音人涵盖男女播音员标准发音、童声发音、机器发音、动漫人物发音、中老年发音、明星发音等,共227个发音人。

•多参数:支持语速、音量、音调等多种合成参数调节。

4结论

伴随着二维码过闸功能的进一步推个,依然在自动售票机上购票乘客的特点将更加鲜明,加强客服群体分析,积极完善设备、技术标准,并在此基础上探讨多项功能集成可行性是未来设备功能优化的方向。

参考文献:

[1]吴楠.地铁语音售票机方案【R】杭州,2019(01)

[2]张宁.何铁军.王建,轨道交通自动售检票系统互换性研究【J】城市轨道交通研究,2007(11)

作者:白玉彬 单位:中国机房设施工程有限公司