识别技术范例6篇

识别技术

识别技术范文1

关键词:人脸识别;PCA算法;识别方法

中图分类号:TP39 文献标识码:A

引言

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。生物特征识别技术所研究的生物特征包括脸、指纹、手掌纹、虹膜、视网膜、声音(语音)、体形、人脸识别、个人习惯(例如敲击键盘的力度和频率、签字)等。

一、几何特征的人脸识别方法

几何特征可以是眼、鼻、嘴等的形状和它们之间的几何关系(如相互之间的距离)。这些算法识别速度快,需要的内存小,但识别率较低。

1、基于特征脸(PCA)的人脸识别方法

特征脸方法是基于KL变换的人脸识别方法,KL变换是图像压缩的一种最优正交变换。高维的图像空间经过KL变换后得到一组新的正交基,保留其中重要的正交基,由这些基可以形成低维线性空间。如果假设人脸在这些低维线性空间的投影具有可分性,就可以将这些投影用作识别的特征矢量,这就是特征脸方法的基本思想。

2、神经网络的人脸识别方法

神经网络的输入可以是降低分辨率的人脸图像、局部区域的自相关函数、局部纹理的二阶矩阵等。这类方法同样需要较多的样本进行训练,而在许多应用中,样本数量是很有限的。

3、弹性图匹配的人脸识别方法

弹性图匹配法在二维的空间中定义了一种对于通常的人脸变形具有一定的不变性的距离,并采用属性拓扑图来代表人脸,拓扑图的任一顶点均包含一特征向量,用来记录人脸在该顶点位置附近的信息。

4、线段Hausdorff 距离(LHD) 的人脸识别方法

心理学的研究表明,人类在识别轮廓图(比如漫画)的速度和准确度上丝毫不比识别灰度图差。LHD是基于从人脸灰度图像中提取出来的线段图,它定义的是两个线段集之间的距离,与众不同的是,LHD并不建立不同线段集之间线段的一一对应关系,因此它更能适应线段图之间的微小变化。

5、支持向量机(SVM) 的人脸识别方法

近年来,支持向量机是统计模式识别领域的一个新的热点,它试图使得学习机在经验风险和泛化能力上达到一种妥协,从而提高学习机的性能。支持向量机主要解决的是一个2分类问题,它的基本思想是试图把一个低维的线性不可分的问题转化成一个高维的线性可分的问题。

二、人脸识别的基本方法

1、人脸识别算法

一般来说,人脸识别系统包括图像摄取、人脸定位、图像预处理、以及人脸识别。系统输入一般是一张或者一系列含有未确定身份的人脸图像,以及人脸数据库中的若干已知身份的人脸识别、人脸图像或者相应的编码,而其输出则是一系列相似度得分,表明待识别的人脸的身份。

2、采用人脸识别的优势

人脸识别的优势在于其自然性和不被测个体察觉的特点。所谓自然性,是指该识别方式同人类进行个体识别时所利用的生物特征相同。例如人脸识别,人类也是通过观察比较人脸区分和确认身份的,另外具有自然性的识别还有虹膜识别、语音识别、体形识别等,而指纹识别、虹膜识别等都不具有自然性,因为人类或者其他生物并不通过此类生物特征区别个体。

3、人脸识别困难性

人脸识别被认为是生物特征识别领域甚至人工智能领域最困难的研究课题之一。人脸识别的困难主要是人脸作为生物特征的特点所带来的。

1)相似性

不同个体之间的区别不大,所有的人脸的结构都相似,甚至人脸器官的结构外形都很相似。这样的特点,人脸类似性对于利用人脸进行定位是有利的,但是对于利用人脸区分人类个体是不利的。

2)易变性

人脸的外形很不稳定,人可以通过脸部的变化产生很多表情,而在不同观察角度,人脸的视觉图像也相差很大,另外,人脸识别还受光照条件、人脸的很多遮盖物、年龄等多方面因素的影响。在人脸识别中,第一类的变化是应该放大而作为区分个体的标准的,而第二类的变化应该消除,因为它们可以代表同一个个体。通常称第一类变化为类间变化(inter-class difference),而称第二类变化为类内变化(intra-class difference)。对于人脸,类内变化往往大于类间变化,从而使在受类内变化干扰的情况下利用类间变化区分个体变得异常困难。

4、人脸识别主要用途

人脸识别主要用于身份识别。由于视频监控正在快速普及,众多的视频监控应用迫切需要一种远距离、用户非配合状态下的快速身份识别技术,以求远距离快速确认人员身份,实现智能预警。人脸识别技术无疑主要用于身份识别是最佳的选择,采用快速人脸检测技术可以从监控视频图像中实时查找人脸,并与人脸数据库进行实时比对,从而实现快速身份识别。

5、人脸识别新技术

传统的人脸识别技术主要是基于可见光图像的人脸识别,这也是人们最熟悉的识别方式,已有30多年的研发历史。但这种方式有着难以克服的缺陷,尤其在环境光照发生变化时,识别效果会急剧下降,无法满足实际系统的需要。解决光照问题的方案有三维图像人脸识别,和热成像人脸识别。但目前这两种技术还远不成熟,识别效果不尽人意。最近迅速发展起来的一种解决方案是基于主动近红外图像的多光源人脸识别技术。它可以克服光线变化的影响,已经取得了卓越的识别性能,在精度、稳定性和速度方面的整体系统性能超过三维图像人脸识别。这项技术在近两三年发展迅速,使人脸识别技术逐渐走向实用化。

6、人脸识别的应用

人脸识别的应用主要有如下方面。

1)公安刑侦破案

通过查询目标人像数据寻找数据库中是否存在重点人口基本信息。例如在机场或车站安装系统以抓捕在逃案犯。

2)门禁系统

受安全保护的地区可以通过人脸识别辨识试图进入者的身份。人脸识别系统可用于企业、住宅安全和门禁人脸识别。如人脸识别门禁考勤系统,人脸识别防盗门等。

3)摄像监视系统

可在机场、体育场、超级市场等公共场所对人群进行监视,例如在机场安装监视系统以防止登机。如银行的自动提款机,如果用户卡片和密码被盗,就会被他人冒取现金。如果同时应用人脸识别就会避免这种情况的发生。

4)网络应用

利用人脸识别辅助信用卡网络支付,以防止非信用卡的拥有者使用信用卡等。

5)身份辨识

如电子护照及身份证。这或许是未来规模最大的应用。在国际民航组织已确定,从 2010年4月1日起,其118个成员国家和地区,必须使用机读护照,人脸识别技术是首推识别模式,该规定已经成为国际标准。

6)信息安全

如计算机登录、电子政务和电子商务。在电子商务中交易全部在网上完成,电子政务中的很多审批流程也都搬到了网上。而当前,交易或者审批的授权都是靠密码来实现。如果密码被盗,就无法保证安全。如人脸识别过程,如果使用生物特征,就可以做到当事人在网上的数字身份和真实身份统一。从而大大增加电子商务和电子政务系统的可靠性。

识别技术范文2

关键词 车辆牌照 识别技术 模块

中图分类号:U491 文献标识码:A

0引言

随着智能化交通管理的不断发展,电子收费等就成了具体要解决的难题,尤其是车辆牌照的自动识别技术更成了智能化交通管理发展的瓶颈。

车辆牌照识别技术指的是一个专用的计算机模拟视觉系统,从特定目标中获取出车牌的图像,并通过分割字符等技术,对车辆牌照进行识别,涉及到模式识别技术、人工智能等,可以实时监控出车牌的数字以及字母等,通过电脑算法给出以数据形式的运行结果,实现车辆牌照自动识别。

车辆牌照识别技术全面的应用了图像处理技术,模式识别方法和人工智能技术。主要处理监测动态的视频信息中包含车牌的图像,并针对复杂情况的车牌实现定位和识别。

1国内外发展现状

国外一些发达国家对于迅猛发展的现代交通产业的适应性进步,源于上个世纪的80年代,发达国家就已经开始把图像处理相关技术应用到公路交通等的自动化管理体系中,继而开始了对车辆牌照的识别研究。其中包括车速检测方向、车流量检测方向、车外观检测方向和车牌牌照识别的检测以及车辆的事故处理检测等。

最早的交通系统管理中应用的图像处理相关技术比较单一,就是利用不含有车辆的一副图像做为参照图像,对获取的图像与参照图像进行分析和比较图像的灰度,再采用差分的方式,对车辆区域进行计算。这样可以大略的得出车辆的即时车速,单位时间通过的车流量统计以及道路的承载力等。

车辆牌照识别技术经过多年的不断发展完善,在许多国家已经有了很多电子收费系统、自动识别系统都应用了该技术,比如optasia公司和亚洲视角公司的产品,不过这些产品都是针对英文和数字进行识别,不能识别出汉字。近些年,我国也有一些车辆牌照识别系统的应用,比如汉王公司的系统,取得了一定的突破,技术和算法都相对完善。

2车辆牌照识别技术

车辆牌照识别系统主要可以分为:图像采集模块、图像处理模块、车牌定位模块、字符切分模块和字符识别模块。如图所示:

图 车辆牌照识别技术流程

(1)图像采集模块。该模块通过对交通主管部门指定的摄像机与图像采集卡或者与笔记本电脑等实施连接记性图像采集,把图像模拟信号转变成数字信号。

(2)图像处理模块。该模块是对图像采集模块获取到的图像进行图像的增强化、恢复以及变换等电脑处理,用以把车牌特征明显化,使得车牌区域更容易被提取。

(3)车牌定位模块。该模块是以人眼睛的视觉方式,依据车牌上的字符区域的具体特征,利用二值化图像提取出相关的特点,定位出最吻合的牌照特征的目标区域。由于图像采集中的噪声和复杂的背景图案都能对定位进行干扰,所以说,车牌定位模块是整个车辆牌照识别技术中的难点和关键点。

(4)字符分割模块。该模块是从获取到的牌照信息的特定区域中分隔出单个的字符,用于接下来的字符识别模块。车牌上的信息除了一个汉字之外,所有的都是数字和字母,那么每个字符都是独立并且单独相连,所以可以用特殊的计算方法进行字符的分割功能。

(5)字符识别模块。该模块是利用分割完成的字符,进行文本形式转化,并储存到数据库中或者直接通过客户终端显示出来的功能。

3小结

本文对车辆牌照识别技术进行了分析与研究,从车辆牌照识别技术的概念,主要研究内容进行了阐述,对国内外的发展情况进行了阐述,同时对车辆牌照的识别相关技术进行了全面的流程化分析。为今后车辆牌照识别技术的进一步应用和研究提供了理论保证。

参考文献

[1] 黎绍发,陈智斌.车牌自动识别技术的研究[J].机电工程技术,2003,18(l):55-57.

[2] 徐建闺,贺敬凯.车型与车牌自动识别技术分析[M].交通与计算机,2002,20(2):7-12.

[3] 张苗,妇匕明海,顾勤龙.车辆牌照识别系统的一个新的实现方法[J].控制工程,2003,10(1):59-61.

识别技术范文3

摘 要:人脸识别技术是当今模式识别和人工智能领域的一个重要研究方向,对于维护国家安全和社会稳定、打击各类犯罪活动具有十分重大的意义。本文介绍了人脸识别技术的概念、发展历史及常用人脸识别方法。并探讨了人脸识别面临的难题,最后对人脸识别未来的发展和应用做一个简要的展望。

关键词:人脸识别;数字图像处理;特征脸

引言:人脸是人类视觉交互中最重要的模式,人脸识别技术(FRT)是模式识别和人工智能领域的一个前沿课题。在新兴的信息安全应用领域,人脸识别技术提供了一种更为安全可靠易用的身份鉴别手段,从而提升整个网络信息系统的安全性能。

1 人脸识别技术概述

人脸识别技术就是通过计算机提取人脸的特征,并根据这些特征进行身份验证的一种技术。人脸与人体的其他生物特征一样与生俱来,它们所具有的唯一性和不易被复制的良好特性为身份鉴别提供了必要的前提。同其他生物特征识别技术相比,人脸识别技术具有操作简单、结果直观、隐蔽性好的优越性.科技情报开发与经济,2008,18(21):155-157.

识别技术范文4

关键字:车牌识别,模版匹配,神经网络,小波变换

Abstract:With the development of society progress,License plate recognition has gradually become the development of intelligent transportation system an important part, also is the charging system to prevent an important means of cheating, but also high speed system automatic charging system must solve the key problem, the main purpose is to extract image automatic license plate image, segmentation character image, realize on license information recognition and matching. It is not only a computer vision and pattern recognition technology important research topic, but also intelligent traffic management one of the key technologies. At present, the home and abroad have devoted to the research of this aspect, such as template matching, neural network, wavelet transform and so on, have achieved good results.

Keywords:License plate recognition, template matching, neural network, wavelet transform

中图分类号:U412.36+6 文献标识码:A 文章编号:

1 引言

随着高速公路系统新技术的高速发展,车牌识别技术已经成为交通应用方面的重要组成部分,切社会对其的应用也十分广泛,它不但在高速,隧道,桥梁等方面被广泛应用,而且也逐渐的被应用于小区,停车场等方面,也在电子警察和违章拍照方面做出较大贡献,介于车牌识别技术的广泛应用,越来越过的国家也都致力于对其的研究,同时也提出了一些较好的办法。但是,单方面而言其流程大概一致,关键差别在于前端采集系统图像的精度,和后端的算法处理。

2车牌识别系统的介绍

汽车牌照自动识别系统 是智能交通系统的重要组成部分,是高科技的公路交通监控管理系统的主要功能模块之一。它在传统的交通监控技术的基础上,引入了数字摄像技术和计算机信息管理技术,采用先进的图像处理、模式识别和人工智能技术,通过对车辆图像的采集和处理,获得车辆的数字化信息,从而达到更高的智能化管理水平。它运用车牌是车辆身份的唯一标识的思想概念来智能识别和统计车辆,涉及图像的捕捉、处理、理解和记录等技术。其中车牌识别又可以依据针对的方向不同可以分为车辆图片识别,和视频车牌号识别,其中车辆图片识别主要针对单张图片进行抓拍处理,识别图片中的车牌号码,而视频车牌号识别则主要应用于高速公路收费,交通治安,闯红灯系统,小区或是停车场的监控系统中,两项程序都可以清晰的捕捉图像,并适用于win98,2000,XP,等系统,适用较为方便快捷,下图是车牌识别系统流程。

图1 车牌识别系统流程

Fig 1 License plate recognition system process

3图像字符分割

在车牌识别的整个过程中,为了达到字符识别的目标从提取的车牌图像中分割出字符的工作室必不可少的,阀值分割,目标与背景区别,车牌字符倾斜校正,单个字符切割以及字符的归一化都是图像字符分割的主要工作。

车牌图像阀值分割:阀值分割主要是基于像素的一种图像分割方法,主要目的是选择一个合适的灰度值T将图像所有的灰度值相比较,大于T和小于T的分别归类,在识别系统中图像经过预处理,质量有所提高,且背景干扰不严重我们通常使用最大类间方差法(Otsu法)进行分割其方法原理如下:

设数字图像的灰度级(G=1,2,…,L)处在灰度级i的所有像素用i表示,总的像素N可表示为:

设Pi表示图像中灰度级为i出现的概率,且定义为:

,

将图像中的像素按灰度级用阀值T划分为两类C0和C1,则两类出现的概率分布为:

有时,由于存在一些背景的干扰,用Otsu方法求得的阀值进行分割不能最好的起到保留车牌字符的效果所以根据调差发现对于车牌的定位,当在1.02~1.20时的分割效果比较好。

4 结论

该技术已经越来越多的被应用在不同的场合,越来越体现出该技术在高速公路监控等系统中的重要地位,也是国内为很多公司都致力于这项技术的原因,目前对于车牌识别技术仍存在诸多问题,如:预处理过程中产生的误差,车牌定位及字符的分割及识别,没有用到车牌原有的颜色特征,都需要在研究的过程中进一步的加以改进。

识别技术范文5

1.概况

语音识别技术成为21世纪“数字时代”的重要开发领域,在计算机的多媒体技术应用和工业自动化控制应用等方面,成果令人属目。语音识别技术是指用电子装置来识别某些人的某些特征语音,语音识别的手段一般分为二大类,一类利用在计算机上开发语音识别系统,通过编程软件达到对语音的识别,另一类采用专门的语音识别芯片来进行简单的语音识别。利用专门的语音识别芯片应用在地铁车辆上,具有结构简单、使用方便,并且语音识别器有较高的可靠性、稳定性的特点,是简单语音识别在自动控制应用上的一种优先方案。

目前上海地铁

一、

二、

三、

五、

六、八号线在车辆信息显示系统的设计上缺少实用性和操作性,对乘客来讲缺少在实时报站时的人性化。如:地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统。如果在每个车门的上方安装车站站名动态显示地图,实时显示与车厢广播同步的信息,以及在每节车厢外侧显示列车的终点站,良好的工业设计不仅能给广大的乘客带来非常大的帮助,而且能够提升上海地铁服务的形象。由于在设计以上地铁列车时,受科技发展的限制。现在上海地铁4号线在车辆信息显示系统的设计上满足了广大的乘客的需求,

增加了车站站名动态显示地图。

如何在现有的地铁车辆上增加地铁车厢内的乘客信息显示系统和车厢外侧的列车信息显示系统,如图1、2,首先考虑其实用性和性价比,同时安装、操作要方便,在不影响列车的性能的前提下,完成本乘客信息显示系统的应用,设计方案的选择极其重要,目前的乘客信息显示系统比较复杂,例如:对于应用在某条线路上的声音识别系统,不仅要修改原语音文件,而且声音识别器不容易操纵,

对使用者来讲仍然存在比较多的问题。对于应用在某条线路上数字传输显示系统,其操作方法不仅给司机带来了任务,每站需要手动操作二次,同时显示的相关内容没有实时性,总之乘客信息显示系统比较落后。

设计一种符合现代化要求的乘客信息显示系统是非常必要。

2.设计

地铁车辆乘客信息显示系统的设计,采用CMOS语音识别大规模集成电路,识别响应时间小于300ms。HM2007芯片采用单片结构,如图3。将语音识别需要的全部电路:CPU、A/D、ROM、语音的AMP放大器、压缩器、滤波器、震荡器和接口界面等集中在一片芯片内,这样电路就非常少,外接64K非易失性SRAM,最多能识别40个车站站名语音(字长0.9秒),或(字长1.92秒)但识别仅20个车站站名语音。按正常人的讲话速度,0.9秒一般每秒吐字1到3个为宜。

针对目前上海地铁列车在车厢内外无LED动态站名显示而设计,通过将列车车厢广播的模拟信号转换成数字信号,自动控制LED发光二极管,在列车在车厢内使得广播的内容(每个车站站名)与发光二极管显示面板声光同步,将显示面板放置地铁车辆的每扇车门上方,并且显示面板以地铁运营线路为背景,达到列车进站和出站时能分别指示。在列车车厢外让乘客非常直观地、一目了然地了解车辆的终点站方向,从而方便乘客的上下车,提高了地铁服务水平。在国外的地铁列车上应用已相当普遍。

语音识别显示器①的输入端与车载广播功放器相连接,实现广播模拟信号发出的语音进行车站名的自动识别。不需要编程技术和修改文件等方法,全部采用硬件方法设计。整个系统分为5部分:(1)输入控制部分;(2)噪音滤波部分;(3)语言识别部分;(4)执行显示部分;(5)录音功能部分。

(1)输入控制部分:

通过麦克风或(结合器)连接,如图4所示,要求模拟语音输入点的电压必须控制在大约20mv左右,以确保后期语音识别的正确性。在输入电路中增加了声音控制部分的电路,即将模拟信号转变成数字方波信号,对语音输入进行开关量的控制,确保在T<0.9秒内的正确输入语音字长。

(2)语音识别部分:

利用语音识别芯片HM2007和外接6264SRAM存储器组成为主要部分,(HM2007中ROM已经固化了语音语法技术)对语音的存储及语音语法算法进行控制。HM2007的详细内容见产品说明书。

(3)噪音滤波部分:

滤波功能是自动识别(阻挡)我们在设计阶段设计好的各个工况的语音情况,例如:司机的讲话及车辆杂音等(在麦克风的工况下),以确保输入语音的可靠性、稳定性,特采用UM3758串行编译码一体化进行滤波电路。如图5。

(4)执行显示部分:

将车厢广播喇叭的模拟信息通过语音识别器转变成数字信息,最终经过译码电路、4/16多路数据选择器及RS485接口,去控制车厢内车门上十个LED显示面板,如图6。

(5)录音功能部分:

在进行广播内容更改时,本项目最大的特点是:不需要任何手段的手工软件编程的修改,而是通过远程音频电路控制技术进行按动相关按钮,选择地址然后自动录入内容,如图6。

3.结论

语音识别器及LED显示面板的设计,能应用到以前没有LED显示面功能的地铁车辆上,与其他所设计的方式相比较,语音识别控制简单、可靠性好、安装方便、相对投资最小和不改动车厢内任何电器为特点,仅提供110VDC电源和音频输入接口。

本项目的开发具有一定社会效益,得到国内外乘客和残疾人员的欢迎,提高了地铁服务质量。

参考文献:

1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007

2.555集成电路实用大全上海科技普及出版社

3.①获得“2003年上海市优秀发明选拔赛三等奖”

4.①编入《中国科技发展精典文库》第四辑

识别技术范文6

关键词:语音识别 应用领域 热点 难点

中图分类号:TN912 文献标识码:A 文章编号:1007-3973 (2010) 03-062-02

1应用领域

如今,一些语音识别的应用已经应用到实际生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系统等。语音识别的应用领域非常广泛,几乎涉及到日常生活的方方面面。如语音拨号系统、、家庭服务、订票系统、声控智能玩具、医疗服务、银行服务、听写机、计算机控制、工业控制、语音通信系统等。预计在不远的将来,语音识别技术将在工业、家电、通信、、医疗、家庭服务等各个领域深刻改变人类现有的日常生活方式。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

2发展历史

语音识别的研究工作开始于50年代,Bell实验室实现了第一个可识别十个英文数字的语音识别系统―Audry系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。60年代,提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,极大地促进了语音识别的发展。70年代,动态时间归正技术(DTW)解决了语音特征不等长匹配问题,对特定人孤立词语音识别十分有效,在语音识别领域取得了突破。在此期间还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代语音识别研究进一步深入,HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,并以此确定了统计方法和模型在语音识别和语言处理中的主流地位。使得借助人工智能中的启发式搜索和语音模型自身的特点,高效、快捷的算法使得建立实时的连续语音识别系统成为可能。

90年代,人们开始进一步研究语音识别与自然语言处理的结合,逐步发展到基于自然口语识别和理解的人机对话系统。人工神经元网络(ANN)也开始应用于语音识别,它和HMM模型建立的语音识别系统性能相当,在很多系统中还被结合在一起使用以提高识别率及系统的鲁棒性。小波分析也开始用于特征提取,但目前性能不理想,其研究还在进一步深入中。

现在语音识别系统已经开始从实验室走向实用,出现了比较成熟的已推向市场的产品。许多发达国家如美国、日本、韩国以及IBM、Apple、Microsoft、AT&T等著名公司都为语音识别系统的实用化开发研究投以巨资。

3研究的热点与难点

目前语音识别领域的研究热点包括:稳健语音识别(识别的鲁棒性)、语音输入设备研究 、声学HMM模型的细化、说话人自适应技术、大词汇量关键词识别、高效的识别(搜索)算法研究 、可信度评测算法研究、ANN的应用、语言模型及深层次的自然语言理解。

目前研究的难点主要表现在:(1)语音识别系统的适应性差。主要体现在对环境依赖性强。(2)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,必须寻找新的信号分析处理方法。(3)如何把语言学、生理学、心理学方面知识量化、建模并有效用于语音识别,目前也是一个难点。(4)由于我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚,这必将阻碍语音识别的进一步发展。

4语音识别系统

一个典型的语音识别系统如图所示:

输入的语言信号首先要进行反混叠滤波、采样、A/D转换等过程进行数字化,之后要进行预处理,包括预加重、加窗和分帧、端点检测等。我们称之为对语音信号进行预处理。

语音信号的特征参数主要有:短时能量En,反映语音振幅或能量随着时间缓慢变化的规律;短时平均过零率Zn,对于离散信号来讲,简单的说就是样本改变符号的次数,可以粗略分辨清音和浊音;短时自相关函数;经过FFT或LPC运算得到的功率谱,再经过对数运算和傅里叶反变换以后得到的倒谱参数;根据人耳听觉特性变换的美尔(MEL);线性预测系数等。通常识别参数可选择上面的某一种或几种的组合。

语音识别是语音识别系统最核心的部分。包括语音的声学模型(训练学习)与模式匹配(识别算法)以及相应的语言模型与语言处理2大部分。声学模型用于参数匹配,通常在模型训练阶段按照一定的准则,由用语音特征参数表征的大量已知模式中通过学习算法来获取代表该模式本质特征的模型参数而产生。在识别(模式匹配)时将输入的语音特征同声学模型(模式)根据一定准则进行匹配与比较,使未知模式与模型库中的某一个模型获得最佳匹配以得到最佳的识别结果。语言模型一般指在匹配搜索时用于字词和路径约束的语言规则,它包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理则可以进行语法、语义分析。

声学模型是语音识别系统中最关键的一部分。目前最常用也最有效的几种声学识别模型包括动态时间归整模型(DTW)、隐马尔可夫模型(HMM)和人工神经网络模型(ANN)等。

DTW是较早的一种模式匹配和模型训练技术,它把整个单词作为识别单元,在训练阶段将词汇表中每个词的特征矢量序列作为模板存入模板库,在识别阶段将待识别语音的特征矢量序列依次与库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。DTW应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在小词汇量、孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已逐渐被HMM和ANN模型替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。HMM很好的模拟了人得语言过程,目前应用十分广泛。HMM模型的模型参数包括HMM拓扑结构(状态数目N、状态之间的转移方向等)、每个状态可以观察到的符号数M(符号集合O)、状态转移概率A及描述观察符号统计特性的一组随机函数,包括观察符号的概率分布B和初始状态概率分布 ,因此一个HMM模型可以由{N,M,A,B, }来确定,对词汇表中的每一个词都要建立相应的HMM模型。

模型参数得到后可以用Viterbi算法来确定与观察序列对应的最佳的状态序列。建好模型后,在识别阶段就是要计算每个模型产生观察符号序列的输出概率,输出概率最大的模型所表示的词就是我们的识别结果。这个过程计算量很大,有人提出了前向-后向算法,大大减少了计算量,已经被广泛采用,关于它们的各种改进方法也被大量提出。

ANN在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,是由结点互连组成的计算网络,模拟了人类大脑神经元活动的基本原理,具有自学习能力、记忆、联想、推理、概括能力和快速并行实现的特点,同时还具备自组织、自适应的功能。这些能力是HMM模型不具备的,可用于处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题,允许样品有较大的缺损、畸变,因此对于噪声环境下非特定人的语音识别问题来说是一种很好的解决方案。目前大部分应用神经网络的语音识别系统都采用了BP网并取得了较好的识别效果。

将ANN与HMM结合分别利用各自优点进行识别将是今后的一条研究途径。二者结合的混合语音识别方法的研究开始于上世纪90年代,目前已有一些方法将ANN辅助HMM进行计算和学习概率参数。

语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram模型基于这样一种假设:第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料库中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

5总结

尽管语音识别技术已经取得了长足的进步,而语音识别系统也层出不穷,不断的改变人类现有的生活方式,但其比较成功的应用也只是在某些特定的领域,谈不上大规模广泛的应用。只有建立从声学、语音学到语言学的知识为基础、以信息论、模式识别数理统计和人工智能为主要实现手段的语音处理机制,把整个语音识别过程从系统工程的高度进行分析构建,才有可能获得能与人类相比的高性能的、完整的计算机语音识别系统。

参考文献:

[1]易克初,田斌.付强.语音信号处理[M].国防工业出版社,2000.

[2]胡航.语音信号处理[M].哈尔滨工业大学出版社,2000.

[3]赵力.语音信号处理[M].机械工业出版社,2003.