歌唱发音质量评估论述

歌唱发音质量评估论述

作者:苗雨 单位:江苏师范大学

一、歌唱声音质量客观评价研究历史追溯

歌唱声音质量客观评价的研究是以声乐艺术科学化研究为前提的,这种科学化的研究始于欧洲,它的研究历史最早可以追溯到18世纪。

(一)轻缓起步阶段

早在1703年,法国医生杜达(Dydart)发表了《发声原理的研究报告》(MemoiresSurlacausedelavoix)一书,提出了“旋涡”(Vortex)理论,从生理学的角度对歌唱发音的科学性进行了开创性的研究①。1854年,西班牙著名声乐教育家和理论家玛努埃尔•加尔西亚(M.P.R.Garcia,1805-1906)发明了喉镜,促进了人们对嗓音生理学的研究,同时也开创了以人体发声机理作指导的新的教学方法(机理教学法),使人类声乐发展史进入了一个崭新时代。1863年德国海德堡大学教授亥姆霍兹(HermannVonHelmholtz,1821-1894)发表了近代世界声学史上划时代的巨著《作为音乐理论生理基础的音的感觉》(又译《声音感觉论》),将基础生理学及解剖学的研究和数学与物理学分析结合起来,驱使吸引人们运用声学的普遍原理去解释歌唱发音的现象,在声乐界产生了强烈反响。经过一个半世纪的发展,对声乐演唱和教学领域的研究,终于从纯粹的以人的主观意识为主的经验主义进入了以生理学和物理学原理为基础的客观科学主义研究的新高度。

(二)快速发展阶段

自20世纪20年代苏联国立莫斯科大学物理学教授尔谢夫金(SergeyNikolayevitchRzhevkin)和卡赞斯基(VladimirSergeyevitchKazansky)发现歌手共振峰以来,西方学者对歌唱声音质量进行实证性评价研究进入快速发展的阶段。美国的巴索洛缪(WilmerT.Bartholomew),威廉•范纳德(WilliamVennard),瑞典的桑德柏格(JohanEmilFredrikSundberg)等是这一研究领域的代表。我国自20世纪80年代开始,包紫薇(1981)、王士谦(1986)、韩宝强(1996)、吴静(2007)、于善英(2010)等学者相继在此研究领域取得了一系列的成果。他们的研究主要是运用频谱分析等技术,为歌唱声音的不同形态找到相对应的声学评价参数,并探索在歌唱评价和声乐教学中的应用价值。这一时期,王建群(2005)、刘加林(2006)等学者还从基频、标准化噪声能量、声强等方面研究影响歌唱发声质量评价的相关参数。以上相关研究为基于人工智能技术的歌唱发声质量客观评价研究奠定了基础。

(三)纵深拓展阶段

21世纪以来,计算机信息处理技术与神经生理学、非线性动力学、模糊数学等学科的快速发展,为基于人工智能技术的歌唱声音质量评价研究提供了更为丰富的研究手段。我国有关基于人工智能技术的歌唱声音质量评价研究始于2007年,迄今成果单薄,其中代表性的成果有:王修信等(2007)、罗兰娥(2008)、李文娟等(2009)、袁剑(2010、2011)。这类研究或利用语音分析技术对艺术嗓音进行声音样本提取,并与标准化声音或专业评委的主观评价进行比较;或制定涉及多项评价标准的评价方案,然后利用计算机、人工智能、模糊数学等知识原理对不同声音评价参数进行分析,最后在此基础上建立歌唱发声质量客观评价机制。以下本文将以主流研究中的两种体系———基于歌唱声音评价参数提取的和基于主观评价标准量化的客观评价机制为研究对象,分别以研究思路和方法、研究内容、研究结果、存在问题等方面对其研究成果作出归纳梳理和评价。

二、基于人工智能技术的两种评价体系

之所以确定为两大体系,是因为前者的研究基础是歌唱声音,后者是建立在主观评价标准量化指标的基础之上的;之所以都确定为客观评价体系,是因为二者均运用了人工智能技术。

(一)基于歌唱声音评价参数提取的客观评价研究

直接以歌唱声音本身作为评价参数的客观研究目前主要采用两种方法———神经网络研究方法和特征匹配研究方法。

1.利用神经网络方法建立评价机制的研究

此种研究方法以广西师范大学计算机科学与信息工程学院的王修信、物理与电子工程学院的罗兰娥为代表。(1)研究思路与内容王修信等先后发表了《几种声学参数在艺术嗓音客观评价中的应用》(2007)、《艺术嗓音歌声客观评价初探》(2007)两篇文章,提取歌声平均能量(表征相同环境下歌声信号的相对大小)、平均频率误差(判别测试者的歌声频率与标准频率中心是否对准)、平均音域误差(表征测试者音域与曲谱音域的偏离程度)作为客观评价的3个声学参数。在MATLAB计算机培养编写程序②环境下,使用BP(backpropaga-tion)神经网络方法③客观评价艺术嗓音歌声质量。后篇文章较前篇文章有所深化,将声源分析样本从36人增加到48人,明确了性别比例(其中女31名,男18名);在分析方法上增加了多元线性回归方法。研究认为,使用BP神经网络方法和多元线性回归方法基本都能正确客观评价歌声质量,且与资深专业教师的主观评价一致。BP神经网络方法误差在4%之内,线性回归方法误差在6%之内,BP神经网络方法(模型)客观评价效果较优。罗兰娥与王修信为师承关系,其研究以王修信的研究为基础。因此,罗兰娥在研究方法和观点上与王修信有不少相似之处,包括如录音环境、录音设备(软件、硬件)、声音样本提取标准、存储格式、MATLAB分析程序的选择等方面。相对于王修信等的研究,该文的创新之处在于:①明确了歌唱声音信号采集的类型,使该研究与歌唱实践更加契合;②声音评价提取的参数由原有研究的3项增加到8项,对被评价声音的反映更加全面;③评价网络建立所依据的类型增加了评价精度更高的小波神经网络。研究认为,神经网络方法能正确客观地评价歌声质量,评价分数最高的歌唱者声学参数呈规律变化;小波神经网络方法较BP神经网络方法评价精度更高;声学参数对评价结果影响度排序依次为第三共振峰、第一共振峰、音域、基频、平均能量、第三共振峰微扰、第一共振峰微扰、基频微扰等。(2)评价及存在问题王修信等的研究在歌唱声音采样时对于录音环境、录音设备(软件、硬件)、声音样本提取标准、存储格式、被录制对象的年龄、人数、唱法等方面都有明确的界定,在规范性和严谨性方面达到了较高的要求。该研究对被录制对象的性别和声部在(2007)中不明确,在(2007)中区分了男女性别,对歌唱者的声部依然未见说明。遗憾的是,两项研究对歌声信号采集类型(单音、练声曲、歌曲片段)及演唱音域未作说明,在歌唱艺术实践中,以上内容都是对歌唱发音评价产生影响的重要因素。罗兰娥(2008)中涉及到一些与音乐相关的概念值得商榷。分析结果中有:“1号歌唱者E、F、G三种调试的第一共振峰均接近450Hz,第三共振峰均接近2500Hz,音域3.5个八度左右,明显宽于其他歌唱者”。这里存在两个问题。首先,这句话中提及到两个音乐概念———“调试”和“音域”。在音乐术语中没有“调试”这个概念,结合多次提到“调试”的上下文可以推断,作者指的应该是“调式”。但“调”和“调式”的概念在乐理中的含义是不同的。一般来说,孤立的一个音或毫无逻辑关系的若干个音无法构成音乐语言,只有把若干个音按照一定的关系组织起来才能塑造音乐形象,表达思想感情。主音与它构成一定的关系(主要是倾向性关系,音程关系与和弦关系)的若干个音所结合成的音的体系叫做“调式”。“调”主要是指主音的音高,亦即整个调式的音高。④作者在文中实际要表达的意思应是用E、F、G三种不同的调来演唱歌曲。其次,此句提到歌唱者的“音域3.5个八度左右”。这个3.5个八度如何解释?以男高音声部为例,理论上说,男高音音域的应用范围一般在C1-C3的两个八度之间。歌唱实践中,因为嗓音条件和高音技术原因,能达到这个音域范围的男高音也并不多见。罗兰娥(2008)的研究中,歌唱声音样本录制对象为音乐学院声乐专业19名21岁-25岁的本科大学生,就国内的声乐教学现状分析,这些学生的演唱音域如果能达到两个八度已经进入优秀的行列了,而结果显示1号歌唱者的音域达到3.5个八度左右是不可能存在的。#p#分页标题#e#

2.利用特征匹配方法建立评价机制的研究

此种研究方法以上海大学影视学院李文娟等为代表。(1)研究思路与内容李文娟等(2009)提出包含3个步骤的研究方案:①提取测试声音样本和相应原声的音强(参数1)、音高(参数2)、气息(参数3)等特征参数;②采用特征匹配方法对各参数进行比较;③由评分机制根据其相似程度给出客观评分。实际操作程序是:在特征提取环节,通过音量强度曲线分析提取参数1,通过对比基频(比对演唱者声音和原声的音高)提取参数2,通过计算测试声音波形的标准差提取参数3;在特征匹配环节,运用动态时间规整法⑤,对被评价的演唱声音与一个标准声音分别进行预处理,提取相应的特征参数进行特征匹配;在给出评分环节,通过公式计算出音强、音高、气息的最佳权值,在Matlab6.5上进行仿真实验,找到计算机和人工评分的最佳映射关系,最后通过评分测试验证评价机制的准确性。此种研究的评分测试主要针对技能训练性练习曲,这类练习曲是声乐演唱训练中最常用的练声曲,主要围绕特定母音、语音音节和技巧性发声进行针对性训练。在实验仿真中,选取了最常见的5个母音(a,e,i,o,u)和男声闭口哼鸣练声曲进行测试分析。研究认为,这种基于特征比较的声乐评价方法算法复杂度较低,其评分结果接近人工评分,较符合人的主观感受;通过分析显示出演唱者声音的波形,以直观方式展示演唱者的不足,可以改善多媒体声乐教学现状。(2)评价及存在问题相对于王修信、罗兰娥等对艺术嗓音歌唱声音质量评价的研究,李文娟等(2009)将研究重点放在评价歌唱者对乐曲旋律把握程度方面,运用a,e,i,o,u5个母音和练声曲作为声音测试形态,这就与声乐演唱和教学的实际更加贴合。但该研究对于被测试声音在特征参数提取环节中涉及的录音环境、设备、采样标准以及被提取对象的唱法、声部类型未作出明确说明;对于“标准声音资料”的概念不明确,标准资料选用的方法和标准交待不清;评价样本测试环节中仅选用两位测试者,并且两位测试者的演唱程度差异很大。这些问题都直接影响到研究结果的准确性和说服力。

(二)基于主观评价标准量化的客观评价机制研究

此种评价机制的研究代表是西安音乐学院计算机教研室的袁剑。

1.研究思路与内容

袁剑在(2010、2011)中,拟订“声乐评价标准方案”,通过专家打分,运用BP神经网络的研究方法,模拟一个稳定的专家打分系统,构建评价模型。传统的声乐评分方法通常采用的是线性分类数学解析表达式,在多个分值中去掉最高、最低分,最终以平均分作为实际得分。该文对传统的评分方法提出质疑,认为传统的声乐评分方法忽视了各评价指标和演唱效果之间的非线性关系,带有强主观性,不能很好地、真实地反映演唱者的水平。研究者首先制订了一套“客观性”的、对声乐评价进行量化表述的标准方案,分为技术、艺术、风格三个大的类别,每个类别中又分成若干子项目。袁剑(2010)中共设有17个子项目,包括技巧8项(歌唱姿势、呼吸的运用、气息支持与稳定程度、音域范围、吐字清晰度、音调准确度、节奏的准确度、曲目难度)、艺术6项(舞台形象、音色的表现、声音自然程度、流畅程度、圆润程度、对旋律的把握)、风格3项(对歌曲情感的表达、情感到位程度、独创性)。在袁剑(2011)中,研究者将具体评价项目上由17项减少到7项,包括技巧3项(气息控制、准确度、曲目难度)、艺术2项(形象、音质)、风格2项(情感的表达、独创性)。其次,聘请声乐专家按照上述评价体系对同一评价样本分别打出分项成绩和总成绩。将分项成绩输入BP神经网络,以总分为参照样本,对网络进行训练、调整,使BP神经网络以调整各层权值的方式学习专家经验,即采用BP网络来模拟一个稳定的专家打分系统,构建评价模型。袁剑(2011)进一步要求评委按照“优秀、较优秀、良好、较良好、合格、不合格”6个评价级别对分项指标进行定性评价,而无需打出具体分数。然后依次使用层次分析法确定评价指标的权值,用模糊矩阵的合成运算求得综合评价的标准化模糊子向量,对归一化处理后的子向量按照等级分值求出被评价对象的具体分数。研究认为,由于BP神经网络能够很好地模拟非线性系统,将评委做出的定性描述合理的转换为定量的分值,因此使用BP神经网络来模拟一个稳定的专家打分系统非常可行。同时认为,由于BP神经网络存在隐层节点个数的确定问题,并在训练过程中有可能陷入局部最优解,因此在一定程度上影响了评价的准确性。

2.评价及存在问题

此种评价机制实际上是主观评价基础上的客观,本质上是介入人工智能技术的主观评价体系。与以往王修信、罗兰娥、李文娟等为代表的歌唱嗓音评价侧重于声音物理属性的评价不同,袁剑的两项研究成果在研究思路上基本一致,就如何改善评委主观给定一个综合分值的现行声乐评价方式,通过“技巧、艺术、风格”3个评价类别中各项评价子项目的设定,对评价对象进行全面的评价。这其中“艺术、风格”评价类别的提出,与以往单纯涉及声音评价的研究相比,更能体现出声乐评价的艺术属性。袁剑(2011)采用的评价标准方案的具体项目较少,使得方案在反映评价对象演唱水平的全面性方面可操作性较低。两项研究中对于被评价对象的唱法、声部类型、性别、年龄、伴奏形式、演唱环境未作具体说明。

三、评价体系呈现特点及建议对策

自王修信等学者2007年开始对歌唱客观评价模式展开研究以来,在研究人员的构成、研究方法和研究内容等方面呈现出独有的特点,同时也存在某些不足和需要改善的问题。

(一)研究人员:专业背景单一化从研究者的专业背景来看,在研究的初始阶段,王修信、罗兰娥等都是来自高校计算机科学、信息工程、物理与电子工程等研究机构,其研究团队少有音乐领域的研究人员,故在“调式”、“音域”等音乐术语与专业知识上出现问题,其研究成果也都发表在《广西物理》《听力学及言语疾病杂志》等理科和医学类刊物上。2009年始,李文娟、袁剑等出自综合艺术院校、专业音乐学院计算机音乐研究机构的研究者开始涉足这一领域。其研究成果从最初在《计算机工程》《计算机数字工程》发表到后期出现在《黄钟》(音乐核心期刊)上,这些研究趋势表明,基于人工智能理论的歌唱发音客观评价研究在我国专业音乐界已渐受关注。歌唱发音评价的研究是一门交叉学科,涉及声乐学、音乐声学、物理学、歌唱生理学、嗓音医学、解剖学等诸多学科的专业知识,因此这一领域的研究需要多种专业背景的研究团队参与,方能真正全面、深入地展开。中央音乐学院嗓音研究中心主任医师、我国艺术嗓音医学的奠基人冯葆富教授也曾指出:“艺术歌唱不同一般言语发声,是超常功能。声乐歌唱行为科学研究需要生理的、病理的、物理的(声学)、心理的、音乐学的等多方面、多学科的合作才能做出成绩。”⑥就目前研究团队人员的专业构成分析,基本上是以计算机科学、信息工程、物理与电子工程的研究人员为主,音乐专业尤其是声乐专业研究者的比例极少,因此在研究思路、研究方法、研究内容等方面出现了不少脱离歌唱发音评价实际要求的问题,如演唱者的唱法、声部、性别的界定,元音、练声曲、歌曲类型的选择以及对音域、调号等专业术语的阐释等。用先进的仪器、软件进行科学性的实证研究有助于我们了解歌唱发音的本质,但这种科学性的研究要以促进和推动歌唱艺术的发展为最终目标。因此对歌唱发音评价的研究在研究内容、研究思路、研究方法等方面要符合声乐艺术的规律,如果一个研究者没有歌唱艺术的实际演唱体会,不了解声乐艺术演唱、传播、欣赏、教学的各个环节和规律,其研究就不可能真正达到歌唱发音评价研究的要求。目前我国对歌唱发音客观评价的研究刚刚起步,作为当代声乐研究领域中一个崭新的研究方向,应该逐步引起声乐界的关注,让更多具有丰富声乐演唱与教学经验的学者成为研究团队的核心力量,才会促使这一学科健康、快速的发展。#p#分页标题#e#

(二)研究内容:重技术分析,声音指标细化不足在基于人工智能技术的歌唱声音评价研究领域,无论是基于歌唱声音评价参数提取还是基于主观评价标准量化的研究,在具体研究方法和研究内容的制定上,都要尽可能考虑到影响研究结果的各项因素和环节。就我国目前研究人员的专业构成来看,容易出现声学专家不熟悉声乐专业特点、欠缺相关音乐理论知识,而声乐专家不了解如何利用仪器进行声学实验等问题。

(三)研究方法:主客观结合,技术性强正如我国著名声乐理论家倪瑞林所说,“在科学技术高度发展的今天,美声唱法的传授与推展,实在应该从经验主义上升到与科学相结合而更见实效、更精益求精的阶段了。”⑦基于人工智能技术的现代科学实证方法正逐步被声乐界接受和理解,目前总的研究方法为:主观与客观相结合,理论与实验相结合。具体采用数据采集、数据分析、实验仿真和主客观对比分析等方法,突出特点为大量运用仪器和相关软件进行数据采集和分析实验。以下图示两种评价模式的研究方法。可以看出,以上两种研究方法存在本质的不同,最主要的区别在于研究基础。基于歌唱声音评价参数提取的客观评价机制研究,建立在被测声音和比对声音的数据采集与分析之上,研究中采用的相关的软硬件设备、被测声音样本等,对后续研究环节和研究结果都产生决定性的影响。这种研究以非主观的数据对比分析为主要依据,思路新颖,具有较强的说服力,但与目前声乐评价的实际模式反差较大。另外,目前的测试仪器和分析软件专业化程度较高,在具体可操作性和实用性方面还有比较大的局限性。只有采用易操作和普及的软硬件进行研究,才能够使研究成果具有更高的推广价值。

基于主观评价标准量化的客观评价机制研究,建立在人工主观评价基础之上,通过对声音评价标准的细、量化,运用人工智能技术建立客观评价机制,从而改善目前声乐界完全由评分人依据主观态度评分的现状。严格地说,这不是纯粹意义上的客观评价研究,是一种“对主观评价机制的客观性改良”。与目前取多个评委评分平均值的评分机制相比,用人工神经网络和模糊数学方法对评委定量、定性评价作出再定量的计算方法,在国内同类研究中具有独创性。该评价项目对“舞台形象”“旋律的把握”“歌曲情感表达”等涉及乐感和表演内容的设定,超越了以往只考察发音技巧的单一研究,与歌唱评价的实际要求更加契合。但此种研究所依据的人工神经网络和模糊数学等人工智能方法,要求具备较高的相关专业知识;研究在评委选择的标准上还比较模糊;与传统评价法的对应性还应提供更多的实验样本,以提高研究结果的可信度。以上相关问题都是在基于主观评价标准量化的客观评价机制的研究中亟待解决的。

结语

基于人工智能技术的歌唱声音质量评价研究,是一种相对客观的研究,其研究结果并不是对传统主观评价的否定,而是为其提供基于客观的评价与验证。客观评价的研究思想是建立在主、客观评价应该相互对应的前提之下的。作为当代声乐领域科学性研究的崭新研究方向,基于人工智能技术的歌唱质量客观评价研究,未来还有很大的研究空间:在评价参数提取和分析环节,除了共振峰、音域、基频、平均能量、频率误差、音域误差等参数,还应尽可能地广泛使用其它更利于研究精化的评价参数,如幅度、过零率、声调、不同共振峰之间关系以及不同频带能量、谐波指数等。目前运用的人工神经网络和多元线性回归等方法主要产生和运用在20世纪80年代,需要大量的试验样本支持并存在不稳定性。而运用半监督学习、模式识别、支撑矢量机(svm)等最新人工智能技术的研究尚无相关成果。研究在歌唱声音数据库的建立、歌唱声音评价特征的选择上还有很大的拓展空间。