基于神经网络的手势识别范例6篇

前言:中文期刊网精心挑选了基于神经网络的手势识别范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。

基于神经网络的手势识别范文1

关键词: 激光投影键盘; 手势识别; 神经网络; RBF神经网络; 训练样本

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)01-0143-04

随着多媒体技术的发展,计算机已经具备了处理语音、图形、图形和文字等多种通信媒体的综合能力,特别是从1992年由IBM发明激光投射键盘以来,语音、图形、图像和文字的结合更加完美,吸引了众多光影爱好者。目前市场上所销售的激光投射键盘对完成键盘的功能效果,表现出良好的交互体验,但随着各类应用需求的人性化追求,能否在其键盘功能基础上再完成一些简单的空间平面手势识别功能,并将其应用于幻灯片控制、指挥地图控制等软件应用,将会给光影爱好者带来更加多样、灵活、个性化的交互体验。

1 人机交互手势动作定义

激光投影键盘的人机交互手势动作,可以定义为在人机交互过程中,根据单手或双手手指在808nm-810nm红外一字线激光器照射区域和650nm键盘激光组件投射区域交汇范围内的手指状态、交汇位置或交汇点相对位移特征加以区分的有特定含义的动作。

利用激光投影进行人机交互,首先通过摄像系统对预定区域图像抓帧、二值化、提取外部轮廓、判断并定位交互点信息[1-8],这一过程称为人机交互点目标检测跟踪,如图1对某手势运动轨迹合成图像所示。

手势识别功能扩展方法在检测和定位出多个交互点后,分配给每个交互点唯一ID号,并对交互点进行跟踪,记录每个交互点的坐标变化(x,y)及交互点的生命周期T,这一过程称为交互点追踪。

在设计中,把识别出的一组交互点信息封装成一个数据包,该数据包类的格式定义如下所示:

Class Touch

{

int id; //标识

time stime,etime; //寿命时间

Vector vplist; //轨迹链表

Vector inflexion; //拐点序号链表

};

该数据包类Touch可以看作一个手势的元动作,那么在一个没有间断的时间段内的多个手势元动作的组合,可以定义为一个有具体含义的手势动作。以某地图控制系统为例,根据人机交互需求,将手势动作分成:键盘动作、单点地图标记、多点地图缩放手势、多点地图旋转手势等,其图示与说明如表1所示。

2 手势动作识别

在激光投影键盘手势识别功能扩展中,单个指尖功能检测只要根据指尖位置和大至轨迹趋势就可以判断,而对两点手势,则需要根据记录得到的多个手势动作轨迹和指尖位置来进行手势识别[8-11]。该文采用径向基函数神经网络来进行单手多点动态手势进行学习和识别。

2.1 径向基函数神经网络

径向基函数神经网络(RBF网络)是一种高效的前馈式神经网络,它具有最佳逼近性能和全局最优特性,结构简单且训练速度快。该文中的手势识别网络采用3层结构,如图2所示。

点的激活函数。

隐节点的基函数采用欧氏距离函数:[Dij=k=1n(xir-xjr)2]。

径向基函数采用选择性较强的Gaussian函数:[g(netix-ci)=e-t2σ2]。

式中,σ是基函数的扩展常数,当中心由训练数据确定后,RBF的宽度可由σ确定。高d是样本的最大距离,M是样本的数目,采用固定法确定宽度:[σ=dmax2M]。

则,RBF网络的第r个输出可表示为:[yr=i=1hwig(x-ci)]。

2.2 RBF神经网络的训练

设定训练样本集:[X=[X1,X2,…,Xn]T];

任意样本:[Xk=[xk1,xk2,…,xkm]T];

实际输出:[Yk=[yk1,yk2,…,ykj]T];[ykj(Xk)=i=1kwijg(Xkm,Ci)]

期望输出:[Dk=[dk1,dk2,…,dkj]]

令[y(xi)=w1g1(xi-c1)+w2g2(xi-c2)+…+wm1gm1(xi-cm1)+=di],

对于所有的样本得到:[g1(x1-c1)g2(x1-c2)…gm1(x1-cm1)g1(x2-c1)g2(x2-c2)…gm1(x2-cm1)????g1(xN-c1)g2(xN-c2)…gm1(xN-cm1)w1w2?wm1=d1d2?dN],

若[g1(x1-c1)g2(x1-c2)…gm1(x1-cm1)g1(x2-c1)g2(x2-c2)…gm1(x2-cm1)????g1(xN-c1)g2(xN-c2)…gm1(xN-cm1)]可逆,则可得到:

[w1w2?wm1=g1(x1-c1)g2(x1-c2)…gm1(x1-cm1)g1(x2-c1)g2(x2-c2)…gm1(x2-cm1)????g1(xN-c1)g2(xN-c2)…gm1(xN-cm1)-1d1d2?dN]

首先建立输入RBF网络手势识别的模型,将采集到的手势交汇点向量集合信息作为输入向量输入,然后通过训练好的RBF网络的运算实现手势含义的识别。如果RBF网络输出向量与yr手势的标准输出向量最接近,则定义该输入手势为预定义的第r种手势。

3 手势识别功能扩展实验及结论

手势识别功能扩展程序试验环境通过Visual Studio 2010+OpenCV 2.4.3开发环境实现,其试验环境和程序框架如图3和图4所示。

在试验中,对手势功能扩展应用的10种手势进行识别训练测试,设定每个手势的训练次数为100次,其结果如表2所示。

从实验结果可以看出,对10种手势的识别率为96.4%。实验结果表明,基于RBF神经网络手势识别算法具有很高的识别率,可以完成对激光投影键盘的手势识别功能扩展。

参考文献:

[1] 胡有树.手势识别综述[J].中国科技信息,2005(2):41-42.

[2] 李伟群.人手跟踪方法研究综述[J].计算机与数字工程,2010(9):179-182.

[3] 李文生,解梅,邓春健.基于多点手势识别的人机交互技术框架[J].计算机工程与设计,2011,32(6):2129-2133.

[4] 齐婷,王锋.基于视觉的多点触摸基本技术实现方法[J].计算机技术与发展,2009, 19(10):138-144.

[5] 孙丽娟,张立材,郭彩龙.基于视觉的手势识别技术[J].计算机技术与发展,2008, 18(10):214-221.

[6] 孔晓明,陈一民,陈养彬,等.基于视觉的动态手势识别[J].计算机工程与设计,2005, 26(11):2934-2936.

[7] 陈,周雷.基于BP神经网络的鼠标轨迹识别技术[J].电脑知识与技术,2013,9(1):130-132.

[8] 赵杰阳.多点触控手势识别算法的研究与设计[D].北京:北京工业大学,2012.

[9] 刘海波,沈晶,郭耸.Visual C++数字图像处理技术详解[M].北京:机械工业出版社,2010.

基于神经网络的手势识别范文2

    人类交互往往声情并茂,除了采用自然语言(口语、书面语言)外,人体语言(表情、体势、手势)也是人类交互的基本方式之一。与人类交互相比,人机交互就呆板得多,因而研究人体语言理解,即人体语言的感知,及人体语言与自然语言的信息融合对于提高计算机的人类语言理解水平和加强人机接口的可实用性的极有意义的。手语是人体语言的一个非常重要的组成部分,它是包含信息量最多的一种人体语言,它与语言及书面语等自然语言的表达能力相同,因而人机交互方面,手语完全可以作为一种手段,而且具有很强的视觉效果,它生动、形象、直观。

    手语的研究不仅有助于改善和提高聋哑人的生活学习和工作条件,为他们供更好的服务。同时也可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面。另外,手语的研究涉及到教学、计算机图形学、机器人运动学、医学等多学科。因此,手语的研究是一个非常有意义的课题。这里将结合国内外手语研究的相关方向,对手语的识别、手语的合成、手语的网络通信、手的运动约束这几方面作一下综述。

    1 手语的识别

    手语的识别不但具有深远的研究意义,而且具有广阔的实际应用前景,至少表现在以下几个方面:(1)能够使得聋哑人,尤其是使得文件程度比较低的聋哑人,使用手语和正常人交流;(2)从认知科学的角度,研究人的视觉语言理解的机制,提高计算机对人类语言的理解水平;(3)利用手势控制VR中的智能化;(4)机器人的示范学习;(5)虚拟现实系统中的多模式接口等。

基于神经网络的手势识别范文3

手语的识别不但具有深远的研究意义,而且具有广阔的实际应用前景,至少表现在以下几个方面:(1)能够使得聋哑人,尤其是使得文件程度比较低的聋哑人,使用手语和正常人交流;(2)从认知科学的角度,研究人的视觉语言理解的机制,提高计算机对人类语言的理解水平;(3)利用手势控制VR中的智能化;(4)机器人的示范学习;(5)虚拟现实系统中的多模式接口等。

从手语输入设备来看,手语识别系统主要分为基于数据手套的识别和基于视觉(图像)的手语识别系统。基于数据手套的手语识别系统,是利用数据手套和位置跟踪测量手势在空间运动的轨迹和时序信息。这种方法的优点是系统的识别率高。缺点是打手语的人要穿戴复杂的数据手套和位置跟踪器,并且输入设备比较昂贵。利用数据手套等典型传感设备的方法,台湾大学的Liang等人利用单个VPL数据手套作为手语输入设备,可识别台湾手语课本中的250个基本词条,识别率为90.5%。CMU的ChristopherLee和Xu在1995年完成了一个操纵机器人的手势控制系统。Kadous用PowerGloves作为手语输入设备,识别有95个孤立词构成的词汇集,正确率为80%。基于视觉的手势识别是利用摄像机采集手势信息,并进行识别。该方法的优点是输入设备比较便宜,但识别率比较底,实时性较差,特别是很难用于大词汇量的手语录的识别。在基于视觉的方法方面,具有代表性的研究成果包括:1991年富士通实验室完成了对46个手语符号的识别工作。Davis和Shah将戴上指间具有高亮标记的视觉手套的手势作为系统的输入,可识别7种手势。Starner等在对美国手语中带有词性的40个词汇随机组成短句子识别率达到99.2%。Grobel和Assam从视频录像中是取特征,采用HMM技术识别262个孤立词,正确率为91.3%。此外,Vogler与Metaxas将两种方法结合用于美国手语识别,交互采用一个位置跟踪器及三个互相垂直的摄像机作为手势输入设备,完成了53个孤立词的识别,识别率为89.9%。

从识别技术来看,以往手语识别系统主要采用基于人工神经网络(ANN)及基于隐Markov模型(HMM)等方法。神经网络方法具有分类特性及抗干扰性,然而由于其处理时间序列的能力不强,目前广泛用于静态手势的识别。著名的Fels的GloveTalk系统采用神经网络方法作为识别技术。对于分析区间内的手语信号,通常采取HMM方法进行模型化。HMM是众周知并广泛使用的统计方法,一般拓扑结构下的HMM具有非常强的描述手语信号的时空变化能力,在动态手势识别领域一直占有主导地址,如卡内基·梅隆大学的美国手语识别系统及台湾大学的台湾手语识别系统等均采用HMM作为系统的识别技术。另外,Grobel与Assam利用HMM识别由戴有色手套的用户通过摄像机输入的262个孤立手语词,正确率为91.3%。然而正是由于HMM拓扑结构的一般性,导致这种模型在分析手语信号时过于复杂,使得HMM训练和识别计算量过大。尤其是在连续的HMM中,由于需要计算大量的状态概率密度,需要估计的参数个数较多,使得训练及识别的速度相对较慢。因而以往手语识别系统所采用的HMM一般为离散HMM。

在我国,哈尔滨工业大学的吴江琴、高文等给出了ANN与HMM的混合方法作为手语的训练识别方法,以增加识别方法的分类特性和减少模型的估计参数的个数。将ANN-HMM混合方法应用于有18个传感器的CyberGlove型号数据手套的中国手语识别系统中,孤立词识别率为90%,简单语句级识别率为92%。接下来高文等又选取Cyberglove型号数据手套作为手语输入设备,并采用了DGMM(dynamicGaussianmixturemodel)作为系统的识别技术,即利用一个随时间变化的具有M个分量的混合GaussianN-元混合密度来模型化手语信号,可识别中国手语字典中274个词条,识别率为98.2%。与基于HMM的识别系统比较,这种模型的识别精度与HMM模型的识别精度相当,其训练和识别速度比HMM的训练与识别速度有明显的改善。他们为了进一步提高识别速度,识别模块中选取了多层识别器,可识别中国手语字典中的274个词条,识别率为97.4%。与基于单个DGMM的识别系统比较,这种模型的识别精度与单个DGMM模型的识别精度基本相同,但其识别速度比单个DGMM的识别速度有明显的提高。2000年在国际上他们首次实现了5000词以上的连续中国手语识别系统。另外,清华大学祝远新、徐光等给出了一种基于视觉的动态孤立手势识别技术,借助于图像运动的变阶参数模型和鲁棒回归分析,提出一种基于运动分割的图像运动估计方法。基于图像运动参数,构造了两种表现变化模型分别作为手势的表现特征,利用最大最小优化算法来创建手势参考模板,并利用基于模板的分类技术进行识别。对12种手势的识别率超过90%。在进一步研究中,他们又给出了有关连续动态手势的识别,融合手势运动信息和皮肤颜色信息,进行复杂背景下的手势分割;通过结合手势的时序信息、运动表现及形状表现,提出动态手势的时空表现模型,并提出基于颜色、运行以及形状等多模式信息的分层融合策略抽取时空表观模型的参数。最后,提出动态时空规整算法用于手势识别。对12种手势,平均识别率高达97%。

尽管已经实现了一些手语识别系统,但中国手语识别仍然面临许多挑占性课题,如手势不变特征的提取、手势之间的过度模型、手语识别的最小识别基于、自动分割识别基元、词汇量可扩展的

识别方法、手语识别的辅助信息、非特定人的手语识别问题、混合手指语和手势语的手语识别以及中国手势语语法等。

2手语的合成

手语的合成是使聋哑人理解正常语言表达的最有效手段,在手语合成中涉及以下几个方面的问题:本文输入部分、文本切分部分、文本的分析与手语码转换、手语库的建立与基于手语词的手语合成和手语的显示。

文本输入部分的功能是编辑输入汉语句子。文本的切分将句子分成词,标点符合单独成词。系统的分词过程首先采用最大匹配发切分,然后利用第一步分词结果通过查找词条的歧义标志位调用词规则,进而进行歧义校正。文本分析与手语码转换是手语合成的重要部分。虽然中国手语是参考汉语制定的,但是两种语言的差别主要体现在四个方面:语言表达形态、基本词汇、句子结构和构词方法。在语言表达形态上:汉语是靠语音/听觉交际的有声语言。中国手语是一种靠动作/视觉交际的可视化语言。在基本词汇上:汉语的词汇大约有近五万多个字组成,总的词汇量可达十万多个。中国手语的词汇仅由3330个手势语组成。中国手语的手势词语与汉语的词语不完全存在一一对应的关系。在句子的语法结构上:手语句子与汉语句子的词序有所不同,此外还省略了日常语言的某些词如量词。因此从汉语转换到中国手语,主要解决的基本词汇上的差别,同时考虑部分词汇的差别。手语词库记录了每个手语词的手语运动信息,是手语合成的重要基础。建立手语词库不仅工作量大,而且其质量也直接影响合成手语的结果。目前建立手语词库的方法有两种:运动跟踪方法和手工编辑方法。也有人综合使用这两种方式。运动跟踪的方法是对腕关节及各手指关节的运动由数据手套获取,肩关节与肘关节的运动由位置跟踪传感器获取。而手工的方法是通过手工实验来获取手势的参数。手语是一种可视语言,合成的手语只有显示出来,观察者才能“读”取手语的信息与意义。手语的合成与显示的实现的方法是:在VRML中有一部分是专门用于描述三维人体模型H-Anim标准,根据此标准对虚拟人的定义,一个虚人有47关节96个自由度,只要确定这96个自由度的角度值,应用运动学的方法和计算机图形学的方法,就可以计算出虚拟人每个肢体的位置和方向,由此确定虚拟人的一个姿态。一个手语运动是一个人体手势的序列,按照预定的时间间隔连续显示一个手语运动中的每一个手势,既可以生成对应的手语运动。

3手语的网络通讯

当今,网络通讯已经成为一种重要的通讯手段。研究哑语通讯,使聋哑人更好地融入网络社会,感受科技的进步,更好地为他们服务并且方便了他们的生活。而手语作为一种动作语言,从广义上讲,它的应用不仅仅局限于聋哑人之间,聋哑人与非聋哑人之间,以及异语种间健常人的交流都可能应用到动作语言。从这个意义上,研究哑语的表达与通讯,具有更加广泛的社会意义和实际应用前景。

更实现手语的网络通讯,必须采用一种恰当的技术,它既能完成手语图像动画表示,它既能完成手语图像的三维动画表示,产生的数据、文件应该尽可能地短小,且便于压缩,以利于网络传输,提高网络传输速度,避免网络拥塞,实现实时反应。可以使用三维动画技术来实现手语动画,但一般的三维动画技术形成的图像虽然可能满足生动逼真的要求,却不适合网络应用。因为它们用于图像和动画的文件格式是基于像素的,大小和行为都是固定的,为了得到特体的三维印象,至少需要两幅图解,这使传输量巨大且不能实现交互。同时,基于HTTP、HTML标准的WWW只能表示和传递二维信息,不能满足对三维环境和三维显像具有特定要求的应用需求。鉴于这种应用的特殊要求,提出采用VRML技术。VRML(VirtualRealityModelingLanguage)是一种可以在WWW上操作的三维图形可视化工具,VRML2.0于1996年8月,它能够灵活有效的方式,将二维、三维图形和动画、影片、声响和音乐等多种效果调和在一起,形成一个综合性的单一媒体,在环球网上创建动态世界。VRML本身不是一种传统的编程语言,它是一种建模语言,有它自己的文件格式,人们可以用它描述三维场景。它不但能满足图像质量的要求,而且存储和传输的只是物理的三维坐标,图像本身是在本地生成的,这就大大减少了网络传输量,也便于进行交互操作。同时,使用VRML技术生成的文件格式是ASCII码,能被有效地压缩,这就进一步减轻了网络压力,提高了传输效率,能够实现手语图像在网络上高速传输。

另外,日本北海道大学的青木由直教授是研究手语通讯的倡导者,他通过建立一个不同语言的手语翻译字典在Internet实现了日语和韩语的手语的聊天系统,进一步又研究了日本与中国的手语变换,手语手成的二维及三维动画,以及带有面部表情和嘴唇形状的日语和韩语的手语聊天系统等。

4手的运动约束

人手的组成是一个非常复杂的结构。手是由骨头,连接骨头的韧带,作为拉力动力服务的肌肉,运动时连接肌肉与骨头的腱,以及覆盖着保护的软组织和皮肤。骨头通过关节连接起来并且不能改变大小,肌肉产生扭矩和关节通过拉力运动都存在一块或更多的肌肉群为其服务。因此,手的运动极其复杂的。由于真实手的生理特点,手的运动受到一些限制和约束。分析手的运动约束,就可以更好研究虚拟三维人手的运动。这样一来就可以在有关手的动画片中避免一些不真实的动作,使其更加拟人化。

基于神经网络的手势识别范文4

关键词: 体育运动动作识别; 随机投影; 高斯混合模型; 特征向量降维

中图分类号: TN911.73?34; TP191 文献标识码: A 文章编号: 1004?373X(2017)11?0061?04

Sports action recognition based on feature dimension reduction

and Gaussian mixture model

OU Jun, SHI Qianhui

(Teaching and Research Section of Gymnastics, College of Physical Education, Guangxi Normal University, Guilin 541004, China)

Abstract: In order to overcome the shortcomings of the current sports action recognition methods, and obtain the optimal recognition effect of sports action, a new sports action recognition method based on feature dimension reduction and Gaussian mixture model is proposed. The video image of sports action is collected to extract the feature vector of the sports action. The random projection algorithm is used to reduce the dimension of the feature vector. The Gaussian mixture model is used to study the training samples after dimension reduction to construct the sports action recognition model. The performance of the method is tested with various sports action datasets. The results show that the proposed method can obtain the satisfied recognition result of sports action, and the recognition accuracy is higher than that of other sports action recognition methods.

Keywords: sports action recognition; random projection; Gaussian mixture model; feature vector dimension reduction

0 引 言

在w育的训练和教学过程中采集了大量的体育视频,对视频中的体育运动动作进行准确识别可以防止意外受伤,保护运动员的健康,因此构建性能优异的体育运动动作识别方法具有重要意义[1?3]。

体育运动动作识别分为三个过程:

(1) 提取视频体育运动动作的识别特征,主要有尺度不变特征变换、光流直方图等;

(2) 对高维特向量进行降维处理;

(3) 建立体育运动动作识别的分类器[4?6]。

有学者将体育运动动作视频划分为多个帧,提取它们的光流直方图特征,并采用随机投影算法对体育运动动作特征进行降维,最后采用K邻近算法进行体育运动动作分类和识别[7]。文献[8]采用稀疏算法提取体育运动动作的时空特征,然后采用神经网络建立体育运动动作识别模型。文献[9]提取体育运动动作的能量图和运动描述子两种特征,采用支持向量机建立体育运动动作识别模型。随机投影是一种有效的高维数据降维算法,在图像处理和模式识别中得到了广泛的应用,为体育运动动作特征的降维提供了一种新工具。

为了解决当前体育运动动作识别方法的不足,以获得更优的体育运动动作识别效果,提出了特征降维和高斯混合模型的体育运动动作识别方法。首先提取体育运动动作的特征向量,然后采用随机投影算法(Random Projection,RP)对特征向量进行降维处理,最后采用高斯混合模型(Gaussian Mixture Model,GMM)对降维后的训练样本进行学习,构建体育运动动作识别模型。测试结果表明,本文方法加快了分类器的训练速度,提高了体育运动动作的识别正确率。

3 仿真测试

3.1 数据集

为了分析特征降维和高斯混合模型的体育运动动作识别效果,在RAM 32 4 GB,AMD 3.4 GHz CPU的个人计算机上采用Visual Studio 2013进行编程开发的体育运动动作识别程序,选择UCF50数据集作为实验对象,其中包括50个体育运动动作,主要有打篮球、跳水、举重、单杠、骑马等类型,背景复杂,视觉角度相差很大,共有6 618个样本,将选择4 000个样本作为训练集,其他样本作为测试集,采用平均识别率作为体育运动动作识别结果的衡量标准,以随机投影降维特征算法作为对比实验。

3.2 结果与分析

3.2.1 体育运动动作识别的正确率分析

本文方法和对比方法的体育运动动作识别结果如表1所示。从表1的试验结果可以看出,本文方法综合利用空间聚合的优势,体育运动动作的识别正确率要明显优于对比方法。由于随机投影算法根据贡献最大值进行体育运动动作特征降维,需要大量的训练样本,而且需要对全部体育运动动作训练特征样本进行统一降维处理,易破坏体育运动动作重要特征的内在联系,特征信息的冗余性高,而本文方法采用随机投影算法将体育运动动作特征随机投影到一个低维子空间中,可以有效保证体育运动动作识别的可靠性。

同时从实验结果可以看出,对于全部体育运动动作,两种方法均出现识别结果不理想的现象,如打篮球动作的识别正确率比较低,发生该问题的主要原因是体育运动动作的背景复杂,在目标移动过程中,摄像机受到一定的干扰,影响了体育运动动作特征提取,从而降低了体育运动动作的识别正确率。

3.2.2 体育运动动作识别效率分析

在Matlab R2014b平台上,对两种方法的体育运动动作识别效率进行测试,采用运行时间评估识别效率,不同特征降维的计算时间(单位:s),实验结果统计如表2所示。从表2可以看出,相对于对比方法,本文方法明显提高了体育运动动作识别效率,这主要是由于对比方法采用随机投影算法进行降维,要进行矩阵特征分解,使得时间复杂度高,随着特征维数的增加,降维时间急剧增加,而随机投影算法只需要进行简单的矩阵运算,大幅度提高了特征降维的效率。

4 结 语

为了获得更加理想的体育运动动作识别结果,针对体育运动动作识别过程中的特征提取问题,提出特征降维和混合高斯模型相融合的体育运动动作识别方法。实验结果表明,本文方法可以大幅度提高体育运动动作的识别效率,时间复杂度急剧下降,有效提高体育运动动作识别的正确率,具有广泛的应用前景。

注:本文通讯作者为石千惠。

参考文献

[1] 周巧云,于仕琪.运动体育动作分析[J].先进技术研究通报,2009,3(5):47?51.

[2] 阮涛涛,姚明海,瞿心昱,等.基于视觉的人体运动分析综述[J].计算机系统应用,2010,20(2):245?253.

[3] 黎洪松,李达.人体运动分析研究的若干新进展[J].模式识别与人工智能,2009,22(1):70?78.

[4] 苗雪兰.体育动作量化分析智能系统的设计与实现[J].体育科W,2000,20(3):85?87.

[5] 张毅,张烁,罗元,等.基于Kinect深度图像信息的手势轨迹识别及应用[J].计算机应用研究,2012,29(9):3547?3550.

[6] 曹雏清,李瑞峰,赵立军,等.基于深度图像技术的手势识别方法[J].计算机工程,2012,38(8):16?18.

[7] 李英杰,尹怡欣,邓飞.一种有效的行为识别视频特征[J].计算机应用,2011,31(2):406?419.

[8] 苗雪兰.基于模糊神经网络理论的体育动作模式识别方法[J].计算机工程与应用,2006(6):155?157.

[9] 赵海勇,刘志镜,张浩.基于轮廓特征的人体识别行为[J].光电子・激光,2010,21(10):1547?1551.

基于神经网络的手势识别范文5

【关键词】 多点触摸;手势;用户定义

一、多点触摸手势设计的意义

过去几十年计算机的性能得到了飞速的发展,这种发展主要体现在计算能力、储存能力等方面,输入设备与输出设备却没有太大的变化。如今在以用户为中心的理念指导下,这两者充分引起了设计者们的重视,产生了许多令人欣喜的革命性的创新与应用。其中具有代表性的就是将两者结合到一起的触摸式显示屏。它使人的操作直接体现在显示输出上,无形之中拉近了人与计算机之间的距离。同时也具有与鼠标同样的缺点,这种由于技术限制不得不强行制造的输入通道如同一条狭小的通巷。人的手作为最灵活和最具有执行力的器官之一,在这种输入通道面前几乎没有什么“用武之地”。

多点触摸技术的出现和发展正是为了解决这种困境和矛盾,并且由于Apple公司推出的iPhone产品是多点触摸技术引起了全世界的注意,成为当今输入设备的一个重要发展趋势。Microsoft公司开发的Surface多点触摸式计算机,则是这种技术应用的集大成之作,采用了高速摄像机结合图像处理模式识别技术的支持,Surface可以捕捉理论上无限多个手指触摸点,甚至可以捕捉手以外特定形状的物体,如水杯,玻璃块等,这为未来的计算机应用软件开发提供了一个无限的可能。目前尽管硬件设备已经接近完善,然而要使这种技术真正等同为自然地、舒适的人机交互方式,还有很长的路要走。多点操作所带来的无限可能性需要通过手势这个桥梁来让使计算机理解,因此手势设计和定义对于多点触摸技术优势的体现具有重要意义。

二、多点触摸技术与手势的发展历程

早在20世纪60年代,人们就开始研究可以直接用用手触摸式进行触摸的人机交互方式。多点触摸概念早在70年代就有了一些理论上的雏形,并在美国IBM公司、Illinois大学和加拿大Ottawa大学的实验室中都进行了相应的研究,并制作出一些实验室模型。1982年,多伦多大学第一次提出多点触摸的概念同时给出了一个感应食指指压的多点触控屏幕设计方案。同年贝尔实验室发表了首份探讨多点触摸技术的学术文献,并在1984年制作出了世界上第一个多点触摸屏。从80年代开始到90年代,各种不同实现方案的多点触摸设备逐渐被各个实验室开发出来。较为主流的大部分多点触摸的实现方案(主要是电子和光学解决方案),其原理都在当时已经被提出并进行研究。由于计算机本身的发展尤其是早期个人计算机生产商还是倾向于使用成本较低廉的键盘(以及后来的鼠标)作为输入设备。触摸式的输入设备更多应用在高端以及专业化领域。

进入90年代后,单点触摸设备日趋成熟,电阻式解决方案的产品已经广泛出现在了市场上。事实上这个时候的多点触摸技术也开始随着电子领域的深入成熟而出现了一个里程碑式的研究和相应的产品。这就是Wyane Westman的Finger Works。在Westman于1999 年详细阐述了这个较为完备的单输入式多点触摸设备的实现原理,主要包括硬件对于手指点的识别原理(其中最重要的是判断手指是哪个手指的硬件限制方案与算法)。基于这些理论开发的Finger Works 多点触摸输入设备能够接受十个手指,并且判断到每个触摸于其上手指具体是哪个指。这样的技术突破使得用手势而不是少量的触点组合来进行操作成为可能。Westman团队在此基础上定义了一套基于Finger Works的基本手势库。该手势库包含了前所未有的非常丰富的手势组合。后来Finger Works被苹果公司所收购,Westman团队也致力于为苹果公司开发触摸设备,可以看到今天从iPod到iPhone和MacBook的触摸设备和手势定义方式都有Finger Works的痕迹。直到今天所有的纯输入式多点触摸设备的实现以及手势库的定义都不同程度借鉴了Finger Works。

如果说Finger Works是纯输入式的触摸设备的一个里程碑,另一种形式的触摸设备――触摸屏的发展就具有完全不同的特点。触摸屏本身承担了显示器的输出功能,同时又具有接收触摸信号的输入功能。这里值得一提的是图像分析和处理技术在多点触摸上的应用,由于计算机和摄像机的日渐增强和摄像机精度与帧率的提高,基于机器视觉进行手势捕捉的技术也在21世纪初得到迅速的发展和应用。其主要方法有模板匹配法,神经网络法,动态时间规整模型及隐马尔可夫模型法等。这些方法的共同原理是先提取出图形图像中的手势特征点,然后利用各自不同的方法模型进行训练,从而在实际检测中取到相应的手势。这种计算负担对于一般个人计算机来讲还是比较难以承受。所以后续很多研究转换了思路,并不用传统手势识别的方式提取整个手势,而是借鉴电子解决方案,通过增益接触点的信号来分离未接触部分,从而降低图像提取所需的计算量。

2004年Jeff Han提出了一个创新的低成本的解决方案,即受抑全内反射,简称FTIR。这个解决方案主要是利用不同反射率材质的夹层一个将从侧面发射出的红外光线抑制在屏幕的薄面内,从而大幅度提高接触点与非接触点的对比度,这样通过简单过滤即可将手指点检测出来。这样甚至价格低廉的摄像机和低端的个人计算机配置也可以很好的完成这个任务。另外一个目前比较主流的方案则是DI,也就是Microsoft Surface 所采用的解决方案,该方案不需要像FTIR一样需要工艺苛刻的屏幕才能达到较好的效果,表面也不易损坏。只是需要一个封闭的箱体并且对外界光线较为敏感。

随着这些输入输出一体式的多点触摸技术方案越来越成熟稳定,就需要手势库相对于Finger Works这样的纯输入式多点触摸方案来说,对手势库的设计有着不同的要求。这正是提出新的手势设计方法的前提和目的。2009年Microsoft Research 对于基于用户定义的手势进行了一系列研究,一定程度弥补了这个领域的空白,对于今后的手势设计和定义有着重要的意义。

三、基于用户定义的手势设计过程与探讨

(一)基于用户定义的手势设计方法

为了能够使用户平滑过渡,使得传统计算机用户能够体验到多点触摸的技术优势,基于用户定义的手势设计方法将设计对象定位在把操作系统的常用操作手势化上。研究者提出了一个设计方法,首先向非技术用户的描述一个功能(姿态),先描述这个功能所带来的影响,然后要求用户通过使用触摸式设备自己去实现它。20名参加者一共使用了1080个手势(或单手或双手),这些手势被设计好的程序记录下来,并与原先设定的功能(姿势)进行比对,从中筛选出比较有潜力的用户喜爱的手势映射组合。并且设立一些指标和分类依据,通过统计结果来推测用户的对于手势的语义偏好以及以往使用传统输入设备的操作习惯产生的影响。该实验首先确定了27个常用的功能操作。这些操作是该实验的目标,每一个操作在研究的最后都应该得出一个归纳手势与之相对应。三位研究者对这些操作的复杂程度做出一个主观的分级,然后求平均值与方差。随后请20名被试者在Surface设备前坐下,根据计算机从27个操作中按随机顺序选出的操作指令,用他们自己喜欢的手势来完成这个操作。得到20×27×2=1080个手势样本。研究者又将所得的手势样本按照用户模型行为进行分类。这个分类方式是首创的,结合了人类行为方式与平面式图形界面的特点,根据动作的特征进行分级归类。其中又对较为复杂的一类―自然手势与先前研究者的复杂度主观分级进行回归分析,结果相关性显著。验证了受试者对目标操作的复杂认知与研究着先前的估计基本相符。在这个基础上,根据不同的复杂度,研究者在结合用户偏好的基础上,确定哪些操作应该使用简单手势,哪些操作应该使用复杂手势,并最终挑选出最有潜力的手势映射。

(二)基于用户定义的手势设计方法讨论

这个实验方法不同于一般的方法之处在于,虽用户的自由度很大,但实际上统计和回归的时候却可以比较忠实客观地记录下来(通过对于用户使用时触摸点的跟踪)。这样既可以达到观察法的效果(主观判断),又能够得到非常客观的数据支持。更重要的是,它避免了设计者预先设计的手势对使用者产生的心理暗示。这种更为明确的以用户为中心的设计导向,将使设计者可以从不止是从数据分析结果,更可以从用户行为两者进行比较和判断,为进一步的实验打下良好的基础。然而用这种实验方法得出结论也有其不足之处。即使刻意避免,实验所用的图形设计还是会对用户产生干扰:做同样的动作,同一个用户对屏幕上显示不同形状、不同颜色的物件可能会产生不同的反应;另外,用户在实验环境做出的反应与其在自然地环境下的实际需求可能存在相当大的差异,单个实验得出的结论并不一定有很大的参考价值。

(三)手势库的再设计与改进探讨

基于用户定义的手势库主要只是起到参考作用。因为在其中对于手势的分类主要是基于人类学。事实上由于目前的硬件实现方案与形式多种多样,在不同的手势实现类型具有差别很大的识别精度和准确率。如果在用户自定义测试得出喜好模型中一个识别精度较低的手势较为受欢迎,在实际使用中糟糕的可用性将可能使结果完全颠倒。由于输入与输出一体的设备特点,在诸如拖曳和缩放的动作,位置精度的影响就很明显;又如打钩这样的多时间步手势,则算法和位置精度以及帧率都会干扰检测成功率。此外即便是同类的任务,在不同的应用环境,例如在2D与3D界面中的手势定义,有着完全不同的特点。因此,现阶段有必要将这些软硬件因素以及应用层面的差异设计分别的试验,以探索这个用户定义的手势聚类结果具有多大程度的参考价值。

四、指导意义

基于用户定义的手势库设计在输入输出一体的多点触摸屏幕设备的基础上较为系统和创新地提出了一种切实可行的手势库设计和初步评判的方法,并且针对不同用户群的手势库研究有很大的延续和扩展潜力,是今后对触摸手势库进一步合理化的设计与研究的一个重要基础。

参考文献

[1]W.Westerman.“Hand tracking, finger identification and chordic manipulation on a multi-touch surface,”PhD thesis,University of Delaware.1999

[2]J.Wobbrock, et al.“User-defined gestures for surface computing,”2009