人工智能时代语音信号处理分析

人工智能时代语音信号处理分析

摘要:本文在分析“语音信号处理”课程的传统教学内容结构及特点的基础上,通过拓展理论知识和开展综合创新课程项目,探索融入新理论和新技术的教学方法。激发学生学习的积极性和主动性,培养学生关注新方法和新技术的发展及其应用的能力,加强学生团队分工合作的意识及与教师的互动,提高教与学的质量。

关键词:语音信号处理;理论拓展;综合创新项目

0引言

“语音信号处理”课程是继“信号与系统”、“数字信号处理”课程之后的信息类专业重要的选修课程。它主要是针对语音信号的短时平稳特性,学习语音信号产生的过程、建模、时频域分析和各种处理方法与应用。因此该课程既包含基本概念、模型和方法,又涵盖了识别、增强、编码等很多技术与应用。因此,学生感觉这门课程的基础部分像数学课,首先要掌握短时傅里叶变换的定义和性质,学习同态滤波等很多理论知识。然后将这些理论知识和方法在实际中应用,了解如何解决实际语音信号处理领域中的问题[1~3]。近年来,随着人工智能技术的迅速发展,在语音信号处理的领域里,给语音识别、自然语言处理和语音合成等关键技术带来一个个的突破[4]。因此人工智能时代给“语音信号处理”课程的教学带来了挑战,在传统的课程结构中要引入新的理论和方法,让学生直观感受到基础知识与新技术的结合在语音信号处理中的重要作用,大大提高了学习兴趣,培养了追踪新理论知识应用于实际问题或科学研究的能力和意识。

1传统“语音信号处理”课程的结构及特点

“语音信号处理”课程主要包括三部分内容:①语音信号处理基础:了解语音信号处理的发展概况,掌握语音产生的过程及信号的特性,了解语音信号产生的数字模型。②语音信号的分析:首先讲授时域分析,包括经典的短时能量、过零和相关分析,然后针对语音信号的短时平稳特性,进行短时傅里叶分析。为了能从信号中分离出声门激励信号和声道冲击响应,需要进行同态滤波及倒谱分析。这些分析都是非参数化方法,在此基础上,学习由过去若干个语音信号的抽样组合来预测信号,掌握线性预测这种参数模型分析方法。在此基础上,讲授重要的一种隐马尔科夫模型,这种统计信号模型在语音识别应用中有非常重要的作用。信号要进行存储和传输,矢量量化是一种极其重要的信号压缩方法。③语音信号处理技术与应用:掌握了以上语音信号处理的基本分析和建模方法,可以将其发展到语音编码、合成、识别和增强等应用领域。从“语音信号处理”课程的主要内容可以看出该课程的特点:①基础性强:该课程从语音信号的产生、特性和数字模型这些基本概念开始,慢慢深入到短时时域分析、短时频域傅里叶变换、同态滤波、倒谱分析、线性预测分析、隐马尔科夫模型、矢量量化。这些都是语音信号处理领域的基本概念和基础知识。②理论性强:不管是短时傅里叶变换的定义、性质还是隐马尔科夫模型的建立,都要从数学的角度进行定义、推导和证明,从原理上学习语音信号处理的模型和算法。③应用性强:语音是一种传递和获取信息的重要途径,由于其传输和使用的便利性,因此有非常广泛的应用。学生可以从自己的学习和生活中切实感受到语音信号处理的应用。例如,一部智能手机就包含了很多语音信号处理技术的应用,诸如语音输入识别、语音导航和各种特殊音效处理。因此,“语音信号处理”课程自身的特点导致其重视基础理论知识和实际应用。在人工智能时代,其教与学的过程中要不断跟踪新理论和新技术的发展,并将其融入到“语音信号处理”课程的主要内容中,既能使学生更好地巩固掌握基础理论知识和相关算法,又能培养学生对新理论和新技术的追踪,并将其加以运用。

2人工智能发展带来的改革

针对人工智能发展给“语音信号处理”课程带来的改革,首先在教学内容和时间上做了相应的调整和安排,将传统教学内容的讲授课时减少4学时,这4个学时可以用于新的知识理论和应用的拓展。另外,课外作业主要是以通过完成一个综合创新项目,将课堂理论知识与实际应用相结合,充分锻炼学生的综合能力。

2.1理论知识的拓展

在课程内容的第三部分“语音信号处理技术与应用”中,将深度神经网络引入到语音识别技术中,采用4学时来完成。先从最基本的神经元入手,然后介绍经典的后向传播算法。继而简单介绍几种常用的传统神经网络,最后重点是深度神经网络的原理、结构和学习方法。深度神经网络学习与语音识别融合起来进行。语音识别,也称作自动语音识别,它的作用是使计算机能够“理解”人类的语言。传统的语音识别技术主要有动态时间规整算法、矢量量化、支持向量机,但最常用的还是基于高斯混合模型-隐马尔科夫模型GMM-HMM(Gaussianmixturemodel-hidddenMarkovmodel)的方法。这是由于语音信号可以看作分段平稳信号,或是在短时情况下可以看作平稳信号,这种方法一般采用最大似然估计的方法进行训练[5]。图1是这种方法的框图。这种语音识别系统便于设计且兼具实用性,但是在面对非线性问题和近似非线性问题时会有很大的局限性。传统语音识别模型大都是利用Matlab及C语言实现。在讲授了传统的语音识别方法之后,不能止步不前。学生无论是就业还是继续读研究生从事相关领域的研究工作,都要接触和面对新技术。因此,在传统方法掌握的基础上,需要继续了解和拓展新的理论和技术。随着人工智能的发展,深度神经网络在自动语音识别系统中已有广泛的应用。Mohamed首次将深度神经网络DNN(deepneuralnetwork)取代了高斯混合模型,相对于高斯混合模型,深度神经网络估计隐马尔可夫模型状态的后验概率分布,无需假设语音数据分布,并且能够有效利用相邻语音帧所包含的结构信息[6]。这种方法结合了深度神经网络优越的特征学习能力和隐马尔科夫模型的序列建模能力,在大词汇量连续语音识别任务中表现优于传统的GMM-HMM系统。图2是这种系统的框图,与图1相比,用DNN取代了GMM。卷积神经网络CNN(convolutionalneuralnet-work)随后也被应用于语音识别系统,相较于DNN,它有以下两个优点:①CNN可以很好地利用语谱在时间与频率上的局部相关性,而DNN则难以利用这些信息;②CNN更容易捕获平移不变性,如因为说话人语调、说话风格变化产生的频率变换。一般的CNN方法通常使用两层卷积层。继而,循环神经网络RNN(recurrentneuralnetwork)与HMM相结合,虽然其效果并不如使用深层网络,但是,将RNN运用于端到端的语音识别系统却获得了不错的进展。这种方法利用了RNN相对于HMM具有更好的动态记忆能力,能够对长时时序动态更好建模的优点,并且避免了将可能存在的排序不正确的样本作为训练目标的情况。RNN网络的训练时间通常要比DNN网络更长。另外还有长短时记忆网络也被用于自动语音识别系统也有较为广泛的应用。近年来深度学习技术的飞速发展推动了又一次人工智能研究的热潮,也带动了语音信号处理方向的发展,从已有的研究成果可以看出,基于深度学习的方法相对于传统算法,在处理混响、噪声、复杂的声场环境时都具有相当大的性能优势。但是,尽管深度学习算法在语音信号处理方向已经获得了长足的进步,但是距离人们构造一个能够与人耳听觉系统相媲美的计算机听觉系统的目标还相去甚远,目前还远远无法实现人脑神经网络处理方法的生物学仿真,因此在这一方向上依然需要走很长的路。

2.2综合创新项目的开展

通过以上的分析,可以看出这些新理论和新技术的迅速发展,所包含的内容很多。因此传统“语音信号处理”课程的拓展主要可分三步进行:第一步,先在课堂上进行,由教师从宏观上讲授人工智能给语音信号处理带来的影响,目前这一领域的研究进展等知识。第二步,开展一个综合创新课程项目在课外完成,选择一个具体的方法和具体的应用,按团队协作的方式进行。一个团队相互合作,分工查阅相关资料,学习新的知识,并通过编程仿真验证新的方法。基于深度学习的自动语音识别系统的实现可以使用最近应用比较广泛的Python语言。第三步,团队的合作成果在课堂上进行汇报展示,大家可以相互交流,拓宽自己的知识面,更深入地了解和学习不同的理论。开展这样的创新综合课程项目既锻炼了学生探索新知识的主动性,又加强了学生基础理论的掌握,提升学生的学习、实践、沟通和团队合作能力,培养学生创新实践和应用能力。这样大大提升了教与学的质量。在课程进行的过程中,通过及时与学生进行交流沟通,学生对新理论知识的引入有非常高的学习兴趣,针对课堂上讲的新知识,课后主动查阅相关参考书籍和文献继续学习。在开展综合创新项目的过程中,学生们表现非常积极,从新的编程语言学习到最终项目代码调试和成果验收都取得了很好的效果。但是,目前仍有一点不足,学生们反映新的理论知识讲授得太少。这一点也是受限于目前的总授课课时数有限。目前最好的方案是学生先通过自学或者其他课程学习一些机器学习的基础理论,然后本课程尽可能增加课时讲授新的内容,来取得更好的教学效果。

3结语

本文在“语音信号处理”传统教学过程中引入了新理论和新技术,通过课堂教学和综合课程创新项目实施,以学生为中心,充分激发学生的探索精神。取得了教与学的良好学习效果。通过传统理论与新知识的融合讲授,学生全面理解和掌握这些理论知识,并能锻炼学生自己去查阅和跟踪最新理论和技术的能力,大大提高了教与学的质量。

作者:黄青华 单位:上海大学