语音合成技术范例6篇

语音合成技术

语音合成技术范文1

关键字语音合成,文语转换,语音人机界面

1引言

由人工通过一定的机器设备产生出语音称为语音合成(SpeechSynthesis)。语音合成是人机语音通信的一个重要组成部分。语音合成研究的目的是制造一种会说话的机器,它解决的是如何让机器象人那样说话的问题,使一些以其它方式表示或存储的信息能转换为语音,让人们能通过听觉而方便地获得这些信息。

语音合成从技术方式讲可分为波形编辑合成、参数分析合成以及规则合成等三种。

波形编辑合成,这种合成方式以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进行数字编码,经适当的数据压缩,组成一个合成语音库。重放时,根据待输出的信息,在语料库中取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音。这种合成方式,也叫录音编辑合成,合成单元越大,合成的自然度越好,系统结构简单,价格低廉,但合成语音的数码率较大,存储量也大,因而合成词汇量有限。

参数分析合成,这种合成方式多以音节、半音节或音素为合成单元。首先,按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器。在合成器中,通过合成参数的控制,将语音波形重新还原出来。

规则合成,这种合成方式通过语音学规则来产生目标语音。规则合成系统存储的是较小的语音单位(如音素、双音素、半音节或音节)的声学参数,以及由音素组成音节、再由音节组成词或句子的各种规则。当输入字母符号时,合成系统利用规则自动地将它们转换成连续的语音波形。由于语音中存在协同发音效应,单独存在的元音和辅音与连续发音中的元音和辅音不同,所以,合成规则是在分析每一语音单元出现在不同环境中的协同发音效应后,归纳其规律而制定的如共振峰频率规则、时长规则、声调和语调规则等。由于语句中的轻重音,还要归纳出语音减缩规则。

现在展开大量研究和实用的是文语转换系统[1](Text-To-SpeechSystem,TTSSystem),它是一种以文字串为输入的语音合成系统。其输入的是通常的文本字串,系统中的文本分析器首先根据发音字典,将输入的文字串分解为带有属性标记的词及其读音符号,再根据语义规则和语音规则,为每一个词、每一个音节确定重音等级和语句结构及语调,以及各种停顿等。这样文字串就转变为符号代码串。根据前面分析的结果,生成目标语音的韵律特征,采用前面介绍的合成技术的一种或者是几种的结合,合成出输出语音。

本文所讨论的语音合成应用系统就是一种面向TTS应用的语音系统。该系统的设计目标是作为人机交互的一种反馈手段,用于将计算机中的数据或状态以语音的形式加以输出。该系统的应用背景是作为卫星测试系统的一个子系统用于增强人机交互能力。通过引入语音合成技术,将原本需要测试人员主动观察的数据、状态或指令等内容以语音的形式即时播报出来,相应的测试人员只需被动收听即可,只有在敏感内容出现时才加以主动观察,从而降低测试人员的工作强度,改善工作环境和条件。在这样的应用背景下,对语音合成系统的要求是响应速度快,计算复杂度和存储空间复杂度低,具有良好的可扩展性和合成语音清晰度高、可懂性强,适于科学术语、符号和单位的发音合成等。基于以上系统需求,我们开发了专门针对科学应用特别是航空航天领域内常见的科学术语、符号、计量单位和数学公式等文本分析模块,以及新型的基于规则和参数的语音合成技术。

2系统结构

图1中给出了本文讨论的语音合成系统的结构框图。

从外部接口上看,该系统的输入为文本输入接口,用户将要发声的文本内容通过此接口送入系统,输入的文本不需特别的格式;输出为音频输出接口,系统将合成的声音以某种编码方式由此输出;此外系统中所有语音信息模型均存储于语音模型库文件中,各种符号、单位标注、单词字母以及词汇的发音等均存储于词库文件中,这些库文件作为语音合成系统的内部输入。

图1语音合成系统结构

从内部结构上看,输入的文本主要通过规范化处理和符号转化,将其中的特殊符号、缩写、英文单词以及计量单位等转换为可识别的发声单元标识。在分词模型中,对输入的文本按预置的分词规律进行单词的划分,通过分词处理就基本确定了句子的韵律结构以及多音字的发音。韵律预测决定各词发音;协同发音决定了各词之间的连接关系。选词模块按照韵律要求及词的发音在词库中选择最优的发音,经过语音重构将波形恢复出来。各词的语音波形经过拼接模块在拼接参数的控制下完成最终语句的合成。

3声学单元的选择及生成

为使合成语音具有较高的清晰度、可懂度以及自然度,通常采取基于波形的语音合成技术。波形拼接语音合成中的合成单元是从原始自然语音中切分出来的,保留了自然语音的一些韵律特征。根据自然语言的语音和韵律规律,存储适当的语音基元,使这些单元在确定的存贮容量下具有最大的语音和韵律覆盖率。合成时经过声学单元选择、波形拼接、平滑处理等步骤后输出语音。通过精心设计语料库,并根据语音和韵律规则从音库中挑出最适合的声学单元,使系统输出高质量的语音。

常见的语音单元候选可以有词组、音节、音素和双音素等。就词组而言,无论是中文还是西方语系,都和确定的语义相对应,因此使用词组作为声学单元可以比较容易的解决合成语音的可懂度问题[2],但是由于词组的类别非常多,而且在不同韵律环境下有着明显不同的表现,这样会造成所需的声学单元趋向于无穷大。所谓音节,一般都是由元音和辅音构成的,元音是音节的主干部分[3]。以汉语为代表的一些东方语系,音节数目较少,而且音节基本上是“辅音-元音”结构,但是对于一些西方语言,音节数目较多,结构比较复杂,而且使用它并不但不能避免大多数协同发音的影响,而且会引起音库容量的急剧增大。音素是最小发音单位,可以使语料库设计时的灵活性好,但由于音素受相邻语音环境的协同发音影响很大,对这些影响考虑的不合理时,就会造成音库在语音和韵律上的不平衡。另外在挑选单元时,由于音素的声学变体很多,所选择的样本不合适时,会导致相邻音素间存在基频和共振峰上不连续,需要采用谱平滑法进行处理,这必然会降低合成音质。

综合上述对音节、词组、音素的分析可以知道,它们各有优缺点,因此在构造波形拼接所需要的语料库时,可以结合不同类型样本的优缺点,例如对于自然语流中经常出现的一些协同发音强的音素、音节组合,在通过波形拼接形成目标语音时,应该尽量避免在这些协同发音影响大的音素组合之间进行拼接,否则单元挑选的稍有不合适,就会造成听觉上的难以接受。所以在构造实用合成系统时所采取的声学单元的类型和长度都将是不固定的[4]。

在选择声学单元构造语音库时,通常利用某种损失度函数来描述具有相同大小语音库的合成能力。一个典型的损失度函数可以表达为:

(1)

其中f为当前声学单元的词频,d为声学单元的预测时长,c为该单元中所包含的音素之间协同发音的大小[4]。在不考虑韵律条件下,构造由声学单元组成的语音库时,应使由(1)表示的损失度函在该语音库上的取值最小为目标。用于拼接的声学单元通常由连续语流中切分获得。通过检索含有大量航天、电子通信、计算机以及卫星领域内关键字的文献,并通过对这些文献进行文本处理,将文献切分成词和句。通过对词汇的统计可以得到词频信息,并在词频信息的指导下挑选由文献获得的句子,使得选出的句子对高频词具有较好的覆盖,这些挑选出来的句子成为稍后需要录制的脚本。

挑选合适的播音员,对照脚本进行合理朗读,并且录音。将录音所得的语音波形数据按脚本以及声学单元的划分进行切分,通常对于汉语可以切分为词、字(CV结构)而英文通常需要切分到词以及少量音素或双音素,从而构成发声单元库。对切分得到的声学单元按其在原句子中的位置(前中后)以及前后相连的字词进行标注。这些标注信息对选词模块的判决提供依据。

4韵律的生成

韵律的声学参数一般包括基频、时长、能量,对于一个TTS系统,韵律生成和控制是十分重要的。韵律参数对于控制合成语音的节奏、语气语调、情感等具有重要意义,而对汉谱普通话,基频是和声调直接相关的物理参数。汉语的构成原则可归结如下:由音素构成声母或韵母,韵母带上声调后成为调母,由单个调母或由声母与调母拼接成为音节。汉语有阴平、阳平、上声、去声、轻声5个调,1200多个有调音节。一个音节就是一个字的音,即音节字。由音节字构成词,最后再由词构成句子[5]。

基于规则的韵律生成。通过对汉语语音学和语言学的研究总结一些通用的韵律规则,利用这些先验知识,可以建立一个基于规则的韵律生成系统。通常规则系统包括两个方面:一是通用规则,比如四个调的基本形状,上声连接的变调规则,时长变化,语气语调的音高变化等;二是目标说话人的特定韵律规则,比如个人的基本调高、调域、语速和停顿等。此外在连续语流中,每个字的发音是会相互影响的,连续语流中一个字的发音的声调与这个字单独发音时的声调会有所不同,在合成的连续语流中,只有具有这种声调变化才能使合成的语音具有较好的可懂度,否则将只会是单字语音的生硬连接。汉语普通话语句中的变调以二字词的变调最为主,因为二字词所占比例约为74.3%。它的调型基本上是两个原调型的相连的序列,但受连读影响使前后两调或缩短、或变低。

基于机器学习的韵律生成。虽然目前已经得到了许多关于韵律的规则,但这些规则对于形成非常贴近自然的韵律还相差很远。为能够发觉隐藏而且难以描述的韵律规则通常利用机器学习的方法来实现韵律的生成。常用的算法模型有隐马尔可夫模型(HMM)、人工神经网络(ANN)、支持向量机(SVM)以及决策树等[5][6]。

基于参数化模型的韵律生成。基于机器学习的韵律模型提取一些人工无法分析的细则,大人降低人工参与分析的工作量,但这种方法同时也存在如下问题:首先,一般的学习算法都要求比较多的数据资源,特别是属性特征比较多的时候;其次,如果己有数据资源分布不均匀,将造成训练的整体偏差,影响分析结果;再次,专家知识没有很好的结合利用进来,是一种信息浪费;第四,训练模型没有和语言特征和人的感知挂钩,无法进行转移和调整。基频和时长是影响人的韵律听感的直接声学参数,两者都是随时间变化和环境变化的。参数模型利用先验知识,先分析基频时长和语言特征、人的听感的关系,对此关系建摸,提取基频时长和语言特征及人的听感直接相关的参数。这样的模型有效利用了专家知识,就可以用不多的数据训练出文本语言特征和参数的关系,同时通过调整模型参数就可以达到改变听感的韵律特征的目的[7]。

Fujisaki模型是一种广泛使用的基频参数化模型[8][9],它主要通过模拟人的发音机理来预测基频的变化。Fujisaki认为基频的改变主要有两个原因:韵律短语边界(Phrase)的影响和音节调(Accent)的影响。基频曲线的产生是按照声带振动的机理,以Phrase和Accent作为预测系统的输入,以基频曲线作为系统的输入,其中以脉冲信号的形式产生Phrase形状,以阶梯函数产生Accent形状。在该模型下基频曲线可以表示为:

(2)

其中函数Gpi(t)以及Gaj(t)的表达式分别为:

(3)

(4)

在表达式(2)、(3)及(4)中各参数含义如表1中所示。

表1Fujisaki韵律模型参数

Fmin基频最小值αi第i个Phrase命令控制系数

IPhrase元素数量βj第j个Accent命令控制系数

JAccent元素数量θAccent命令最大值参数

T0i第i个Phrase命令的时间标记Api第i个Phrase命令幅度

T1j第j个Accent命令开始时间Aaj第j个Accent命令幅度

T2j第j个Accent命令结束时间

Fujisaki模型的机理很简单,对于每个phrase命令,就是以一个脉冲信号通过phrase滤波器,相应的基频值上升到最大点,然后逐渐衰减。对于连续的phrase命令,基频曲线则产生连续的波动。Accent命令由一个阶梯函数初始化,因为accent滤波器的参数α远大于β,使得Accent元素很快达到其最大值,然后迅速衰减。

5系统实现及应用

整个语音合成系统由一系列动态链接库构成,分别对应图2中的各组成部分,各动态库由C语言书写。这种动态库的使用方便未来对局部进行修改。通过对动态库的加载,可以方便的将该语音合成系统集成到任何应用环境中。该合成系统输入以汉语为主,允许混合少量英文单词、希腊字母以及其它通用符号。

声学库中的语音波形分别采样AMR及MFCC两种编码方式,此外MFCC编码后再进行矢量量化处理,由此形成多种码率的声学单元库。采用不同的单元库将获得不同音质的合成结果输出。系统的录音为女声,可以通过一定的算法,如基音同步叠加技术(PitchSynchronousOverlapAdd,PSOLA)算法,在输出端对音色进行修改。

该系统作为我所研制的卫星测试系统的一个关键技术在实际应用中取得了良好的效果。通过该系统所构造的VoiceUI提供了一种全新的人机界面。计算机通过语音将卫星的实时状态汇报给监视人员,极大的降低了监视人员的观察强度,提高了人机系统的工作效率。

参考文献

[1]D.H.Klatt,Reviewoftext-to-speechconversionforEnglish,J.Acoust.Soc.Am.,82(3):737-793,1987

[2]R.Linggard,ElectronicSynthesisofSpeech,CambridgeUniversityPress,Cambridge.1985

[3]J.Allen,M.S.HunnicuttandD.Klatt,FromTexttoSpeech:TheMITalkSystem,CambridgeUniversityPress,Cambridge,1987

[4]陈永彬,王仁华.语言信号处理.中国科学技术大学出版社,1990

[5]陶建华,蔡莲红.汉语TTS系统中可训练韵律模型的研究.声学学报,2001

[6]初敏.自然言语的韵律组织中的不确定性及其在语音合成中的应用.第七届人机语音通讯学术会议,厦门,2003

[7]倪晋富,王仁华.模型化F0曲线中的升降模式控制机制.声学学报,1996

语音合成技术范文2

什么是语音技术?

语音技术在计算机领域中的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势。

最早的语音技术因“自动翻译电话”计划而起,包含了语音识别、自然语言理解和语音合成三项主要的技术。语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,此后研究者们逐步突破了大词汇量、连续语音和非特定人这三大障碍。

语音技术的方式

语音技术方式讲可分为波形编辑合成、参数分析合成以及规则合成等三种。

这种合成方式以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进行数字编码,经适当的数据压缩,组成一个合成语音库。重放时,根据待输出的信息,在语料库中取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音。这种合成方式,也叫录音编辑合成,合成单元越大,合成的自然度越好,系统结构简单,价格低廉,但合成语音的数码率较大,存储量也大,因而合成词汇量有限。

参数分析合成

这种合成方式多以音节、半音节或音素为合成单元。首先,按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器。在合成器中,通过合成参数的控制,将语音波形重新还原出来。

规则合成

这种合成方式通过语音学规则来产生目标语音。规则合成系统存储的是较小的语音单位(如音素、双音素、半音节或音节)的声学参数,以及由音素组成音节、再由音节组成词或句子的各种规则。当输入字母符号时,合成系统利用规则自动地将它们转换成连续的语音波形。由于语音中存在协同发音效应,单独存在的元音和辅音与连续发音中的元音和辅音不同,所以,合成规则是在分析每一语音单元出现在不同环境中的协同发音效应后,归纳其规律而制定的如共振峰频率规则、时长规则、声调和语调规则等。由于语句中的轻重音,还要归纳出语音减缩规则。

语音技术的发展方向

1.提高合成语音的自然度

提高合成语音的自然度仍然是高性能文语转换的当务之急。就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大。基于语音数据库的语音合成方法有望进一步提高语音合成的自然度。但由此产生了一系列新的需要研究的问题。无论用哪种合成方法,韵律规则的总结,特别是连续语音的韵律规则总结,尽可能将定性的规则描述定量化,对自然度始终有最重要的影响。

2.丰富合成语音的表现力

目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感彩。随着信息社会的需求发展,对人机交互提出了更高的要求,人机口语对话系统的研究也提到了日程上。

3.降低语音合成技术的复杂度

语音合成技术正在走向市场。为了适应社会的需求,扩大文语合成的应用场合,除了解决好上面两个问题,提高合成语音的质量和增强语音合成的表现力以外,在其他实用化方面也有要加以改进的地方。就目前汉语文语转换系统而言,减小音库容量就是一个重要课题。

4.多语种文语合成

语言是人们交流的工具,不同民族有自己不同的语言,不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要,多语种的文语合成有着独特的应用价值。理想的多语种合成系统最好是各种语言共用一种合成算法或语音合成器,但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的,所采用的算法及规则都是和某种语言密切相关的,因此很难推广到其他的语种。

智能语音市场现状

据了解,当前中国智能语音市场主要有两大类公司,一类是传统的IT巨头,如微软、IBM、苹果等;一类是专业语音技术厂商,如科大讯飞、中科信利、中科模识和捷通华声等。“作为最便捷的方式,利用语音技术实现人机交互已经成为行业未来发展的大趋势之一。”科大讯飞研究院院长胡郁表示。而中投证券行业分析师王鹏也认为,随着3G网络和智能手机的普及、智能家电的兴起以及语音交互技术的成熟,智能语音行业发展“万事俱备,东风已到”。

面对苹果、谷歌、微软三大IT巨头在智能语音市场的积极布局,国内企业选择抱团迎战。2012年8月1日,由科大讯飞、华为、联想、中国移动、中国联通、中国电信等19家企业联合发起的中国语音产业联盟在北京成立。多位业内专家和企业人士向媒体表示,目前,苹果、谷歌、微软三大IT巨头凭借各自优势已在智能语音产业纷纷布局,面对三巨头的强势,国内企业通过成立产业联盟,能够有效整合产业链上下游资源,有助于在竞争中占据主动。

语音识别在移动终端上的应用最为火热,语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用。在我们周围,最熟悉的就是苹果的siri系统,这是一个很炫的功能,但真正使用这个语音系统的用户,却寥寥无几。

语音技术在智能家居领域的应用前景

Siri语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

在智能家居系统中也早已有厂家将语音控制引入其中,但其产品在实际应用中,由于语音识别技术本身的缺陷,存在以下一些问题:

1.对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。

2.语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。

3.语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。

4.单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等。

5.环境噪声和干扰对语音识别有严重影响,致使识别率低。

语音合成技术范文3

选择语音云,厂商的理由无外乎以下三点:第一,这是一种新的服务方式,以更低成本提供更高效便利的语音服务;第二,可

以通过这种方式吸引更多的用户,积累更多的语音数据,丰富语料库,提高识别率;第三,只要有用户量,很多商业机会就有了。

记者通过采访发现,科大讯飞、捷通华声、百度、云知声都做语音云,但因运营思路不同,各自的语音云特点也各不相同。

科大讯飞:全方位立体语音云

科大讯飞于2012年10月28日首个提供移动互联网智能语音交互能力的“讯飞语音云”平台,并持续升级优化,于2012年推出了新一代语音云平台。新一代“全智能语音云开放平台”专门针对广大开发者的开发需求进行了深度优化,除具备语音合成、语音搜索、语音听写、语音评测等基础能力外,还进一步集成了自然语言理解、个性化语音识别、个性化语音合成、声纹识别等创新语音能力,将能够为各类移动互联网创业者和创新性企业提供无门槛、更全面、更全能的语音技术服务。迄今为止,基于讯飞语音云平台已相继诞生了“讯飞输入法”、“讯飞语点”、“灵犀”等一系列示范性应用,围绕平台的开发伙伴超过1万个,并推动了各类语音应用深入到手机、电脑、汽车、家电、玩具等各大领域,服务数亿用户。

“讯飞语音云用户总量已经超过四亿,活跃用户规模也在不断的提升。我们自建语音云平台,在北京、合肥、广州三个物理节点,目前共有2000多台服务器,是现在业界容量最大,响应最快,开发规模最大的语音交互智能平台。”

――科大讯飞信息科技股份有限公司副总裁 江涛

云知声:动态灵巧语音云

云知声2012年9月云知声语音云,是完全免费开放的语音云。它支持大词汇量连续语音在线识别,在云计算平台下,借助深度神经网络、自适应训练、大规模网络动态解码等技术和大规模语料支持,中文连续语音识别的准确率达95%以上,实时率0.2倍实时。基于云知声语音云平台开发的包括搜狗语音助手、联想乐云记事、触宝输入法、酷我音乐、易信、微信语音输入等在内的各类应用每日为数以百万计的移动互联网用户提供顺畅的语音服务。

“云知声语音云已经有几千万用户,可支持上亿用户。现在云知声语音云平台上每天都至少新增几百小时的语音数据,极大地丰富了我们的语料库。我们自己搭建了一套比较完整的云服务平台,包括负载均衡、处理运算、备份等。在识别性能、识别速度、稳定性和动态扩展能力方面,云知声语音云都表现出色。特别值得一提的是,作为对开发者的一个开放平台,云知声语音云为开发者提供的SDK只有几十K,这对开发者来说是很重要的一点,因为用户如果看到应用太大就会放弃下载。”

――北京云知声信息技术有限公司CEO 黄伟

捷通华声:灵云套餐

捷通华声2011年推出全方位人机交互感知云――灵云。灵云不止是语音云,而是一个全方位人机交互感知云,整合了语音交互、图像识别、语义理解、生物特征识别等HCI技术,终极目标是让人机交互就像人和人的交互一样简单自然。灵云语音合成(TTS)技术卓越,合成效果自然流畅、清晰,支持中文普通话、粤语、维语、英语、日语、德语、法语等多语种,支持平台级和嵌入式语音合成;灵云语音识别(ASR)技术的识别率达95%以上,识别速度快,可定制,支持云端和本地识别;灵云手写识别(HWR)技术支持单字识别,中文识别率高达99%,单字识别支持92种语言,支持混合输入中文、字母、数字;灵云光学字符识别(OCR)技术支持文档识别、票据识别、证照识别、条码识别、车牌识别等多种应用领域;灵云自然语言理解(NUL)技术中文分词准确率达97%以上,已广泛应用于智能客服、车载导航、智能家居、可穿戴式设备等领域。

“基于我们自建云平台的捷通华声灵云是一个全方位的智能交互云,是套餐,不是只有语音。它可以用语音、手写、拍照、手势,将来甚至可以用脑波等智能识别手段来实现与手机、计算机等数字设备的交互。”

――北京捷通华声语音技术有限公司董事长 张连毅

百度:开放语音云

2013年8月,百度正式宣布向开发者开放语音生态系统,包括底层的语音识别技术应用程序开发接口(API)、百度语音助手软件开发工具包(SDK)。百度的语音识别技术采用数万小时声学训练语料,百度搜索引擎技术积累的海量文本语料,线上语言模型体积达100G,百度有更精准的基于听觉感知DNN声学建模技术,识别率更高,另外百度高速动态WFST一遍解码技术是中国最快的语音输入法产品技术。在语义理解方面,百度语义理解开放平台支持语义意图理解,支持语义结构化表示,支持天气、日历、音乐等35个垂直领域的定制化解析,准确率平均85%,支持用户上传语料,辅助改善解析效果。百度开放的语音云更有丰富的后端资源支持,可集成搜索、地图、音乐、百科、知道、贴吧、文库、开放平台等百度所有产品和服务。百度语音已经有小米系统级语音引擎方案、中兴驾驶助手、京东全系统企业级语音解决方案、去哪儿语音订票、陌陌语音阅读功能、魅族语音输入法和海尔智能家电等多项应用。

语音合成技术范文4

今日投资个股安全诊断星级:

科大讯飞(002230)

语音技术产业快速增长

语音是人类沟通和获取信息最自然最便捷的方式。在社会信息化、网络化、智能化的发展趋势下,人们对信息获取和信息沟通方式提出了越来越高的要求。

语音技术正以其独特的魅力越来越多地进入到人们日常生活和工作的方方面面:让电脑、手机、玩具等各种机器设备像人一样“能听会说”,提供全新的人性化操作方式;把网上信息和金融、交通、旅游等各行业海量、动态信息朗读出来,供人们随时随地用电话查询;用语音软件进行语言教学、盲人阅读、文稿校对等等。

语音技术产业是信息技术的前沿领域,其最大的潜在市场是机器人等高端的人工智能产品,由于技术难度高,语音技术仍然处于不断完善与发展中,短期内还难以形成爆发性增长态势。但仍会保持比较高的增长速度,因为作为全新的技术,语音技术的应用领域在随着技术的成熟而不断的拓展,新领域的成功应用总是会带来新的市场。与那些成熟的技术和市场相比,语音技术市场仍然是一个能够不断拓展出新的空间,带来新的惊喜的市场。

科大讯飞(002023)正是拥有国际领先的语音核心技术的上市公司,在语音合成,识别,评测三大技术领域均形成了一定的技术优势,并成为中文语音交互标准制定的组长单位.在技术推动型的产业中具备明显的技术领先优势,成为公司稳定快速发展的基石。而公司擅于借助外部力量推进企业发展和新技术的产业化,是公司能够将技术优势转变成为经济效益的关键,也为公司取得了国内语音产业发展主导权。

与多方携手共享发展

新技术的应用与推广,必然需要借助产业链上下游各个环节的力量。新兴产业的发展也离不开各方力量的共同推动。尽管公司属于研发型公司,脱胎于高校,且从事的语音技术行业属于前沿性技术。但公司并没有沉浸在阳春白雪中自我陶醉,而是积极利用各种外部资源来解决企业发展过程中面临的资金、技术、市场各个方面的问题。这使得公司在经营的各个环节都拥有很多牢固的合作伙伴和机构。

在研发上,公司与中国科技大学、中国社科院语言研究所和清华大学等多个在语音研究领域享有盛誉的国家重点研究机构都分别成立了联合实验室,从源头上聚拢了国内最专业的语音核心技术研究队伍。公司还与全球领先厂商NUANCE成立了联合实验室,紧密跟踪全球技术前沿与发展趋势。

在资金上,公司股东中不乏上海广信、联想控股、盈富泰克等国内知名的风险投资机构,而发展过程中还曾经接受过英特尔的投资。这些知名机构的进入,不仅给公司带来了资金,还带来了很多社会和市场资源。

在市场开拓上,公司倡导“携手合作,共享产业成就”的合作理念,始终坚持获取语音核心价值、不与开发伙伴直接竞争的原则,与众多伙伴精诚合作,共同推动语音产业的早日形成。目前公司拥有的开发伙伴超过500家,实际应用案例超过6000个,公司技术已经广泛应用在金融、电信、邮政、电力、政府和企业等各个重要行业和领域。公司在各个领域的客户和合作伙伴均是国内外相关领域的主导企业,如电信级语音平台业务上,华为、中兴通讯、电信盈科、恒生电子,手机厂商宏达电、导航设备全球份额最大的TOMTOM、学习机领域的好记星等、中国联通、中国移动均与公司建立了稳固的合作关系,三星等手机主导厂商也已经在与公司合作开发相关产品。正是由于公司善于借助外部的力量推动语音技术的产业化,使得在国内语音市场上公司始终保持较高的市场占有率。

稳健增长中蕴含爆发点

从业务构成来看,公司在整个价值链中从语音基础研究起步,基于基础研究所掌握的核心技术向开发商提供语音支撑软件。在语音支撑软件基础上,公司一方面帮助开发商进行语音应用集成,一方面也针对特定行业应用自主提供语音应用整体解决方案。目前公司的语音支撑软件业务主要包括电信级语音支撑平台和嵌入式语音软件两大业务,而行业应用业务则包括了语音搜索电信增值业务、计算机辅助普通话水平测试系统和iFLYTEK-C3支撑平台业务。

另外,公司抓住有利时机,已经开发出了有声教具产品“畅言”,主要用于农村等基础教学条件较差地区的教学,目前已取得教育部的高度肯定,年内有望形成上千万元左右的订单,09年预计订单将超过5000万元。这将成为公司2-3年内业绩快速增长的主要推动力量。

安信证券电子行业分析师侯利预测公司08-10年EPS分别为0.68、1.0和1.38元,对应08、09年PE分别为27.8和18.9倍,目前软件与服务类上市公司的08、09年平均的动态PE分别为23.6和15.8倍。他们认为,公司所处的语音软件行业是软件技术的前沿,其正处于市场启动期,潜在发展空间巨大,并且公司是国内软件上市公司中为数不多的技术水平处于国际领先的公司,并且公司经营基本不受经济周期影响,因此给予公司一定的估值溢价是合理的,我们给予公司09年25倍PE,对应目标价格为25元,给予增持-A的投资评级。

语音合成技术范文5

捷通华声作为我国智能人机交互(HCI)技术领域领军企业,也步入了投身HCI领域技术研发与产品化的第十个年头。多年来捷通华声语音、手写识别等HCI技术领域的发展积累大量宝贵的经验,也可以说对HCI领域的感受颇多,尤其是对我国HCI技术的发展与市场前景更是洞若观火。

近期,随着雅虎、微软两大巨头在海外相继高调推出语音搜索应用,语音识别再次成为国内外业界关注的热点话题之一。这标志着自动化语音识别应用进入了产业化、市场化的新时期。

陷入怪圈的朝阳行业

人们都在翘首盼望,随着科学的进步计算机能够与人无障碍的沟通交流,事实上,这也是IT产业的一个发展趋势。很多人为之倾注全部心血,理所当然,市场回报也十分优厚,以其2000亿美元的市场规模让人垂涎。

语音识别特点可以用三个“大”字概括:用户期望大、研发投入大、从理论到技术转换的困难大。这个三“大”特点,使语音识别的发展走进一个怪圈:因研发投资大,故而产品价格不菲,然而质量却无法满足用户过高的期望,从而影响了市场与应用规模扩展。

所以时下流行的大型IVR(互动式语音应答)服务仍然以菜单式问答、用户按键式输入为主,以TTS(语音合成)应答重复率高和答案较标准的问题。语音识别似乎成了一只美味的螃蟹,羡慕者众,但是敢于食之者寥寥。

譬如采用IVR技术的企业呼叫中心,它考虑选择语音识别产品,必定要考察其使用价值;如果语音识别的效果可靠,可以把语音识别作为人工坐席的替代资源,在附加了自己的其他劳动之后最终向客户提供新的使用价值。

如果语音识别产品的使用价值和人工坐席的旗鼓相当,那么投资语音识别即可以替代坐席的价值投入,也即“等值替代”。然而问题就出在其中,尽管ASR能够为买家带来长期的成本大幅下降,却在使用价值上无法实现与人工坐席的等值替代,这就是为什么很多客户不愿做第一个食蟹者的主要原因。

语音识别面临最残酷的现实是,即使是世界顶尖的技术,距离完全替代人工坐席也相去甚远。对公司而言,为研发某产品投入了几百个工程师人年的价值,除了增加风险之外没有太多实际意义,因为价值的尺子掌握在客户的手里。

但是,价格是抓住市场的一个保证。暂时忘记研发成本,用相对过硬的技术开拓市场蓝海,语音识别才能看到胜利的曙光。技术的进步不是闭门造车,无法一蹴而就,它与实际应用必然是交替前进的模式,语音识别如要进一步发展壮大,首先要用有诱惑力的价格吸引用户体验新科技带来的便捷与高效,再由市场回报与反馈中汲取养分,重新注入到技术中,如此形成良性循环,才能够向前迈进。

此外,由于我国对ASR技术的认识相对滞后,对语音识别的认识还存在一定的误区与不理解。

ASR,风雨兼程

语音识别无法提提升客户服务

不少人认为古老的按键式系统已经够用了,语音识别无法提高客户服务。这让人不禁产生疑问:“消费者是否也这样认为呢?”。当然具体问题还要具体分析,要看客户的实际需求而定。如果仅仅是实现功能相对单一的自动化功能,而且客户的业务并没有太多与消费者交互内容的话,那么按键式系统或许已经足够。

然而,当今消费者往往不满意按键式系统。首先,传统的按键模式所能提供的菜单选择有限,使来电者不得不费劲地猜想自己的问题属于哪个类别,且菜单层次往往非常复杂,而来电者在厌烦听取繁琐的菜单选项或者得不到确切的结果后,更乐于直接选择咨询人工服务。其次,传统的按键模式非常不受手机使用者的欢迎,当消费者使用手机拨打号码时,必须频繁地将手机拿开以便按键,这无疑增加了使用者的操作时间与繁琐程度,于是使用者再次直接选择了人工服务。这就无形中增加了人工坐席的工作量,而人工坐席不得不完成一些不必要的工作,IVR系统的效率被大大降低。

借助于语音识别技术的应用上述问题迎刃而解,使用者不必再听候冗长的菜单选项,不必再使用繁琐的按键操作,只需在提示问题的引导下,更加自由的用声音进行操作。这样,不仅避免了使用者猜想自己问题的类别,而且大大节省了操作的时间,从而使其更加集中精力在他所关心的问题。

语音识别技术同时还具备如复杂的拼写输入等传统按键模式所不具备的功能,简化互动和提高整体的客户体验。尤其是当使用者正处在如驾驶状态等不方便按键的环境中时,语音识别技术所带来的便捷,是可想而知的。

语音识别无所不能

鼠标与键盘的输入方式,因其标准化的输入本质所达到的所输即所得的境界,对于评价自由度大大提升的语音输入来说是不切实际的。

长期以来,人们对语音识别技术的期望值过高,认为“语音识别技术应该听得懂一切”。这其实是一种理想的状态,也是科学家与技术人员所一直追寻的终极目标。然而,切合实际的想一想,对于这一目标人们只可能无穷尽地接近它,却无法达到它。举个简单的例子来说, 人与人之间的语言沟通,往往都还会因为语法、口音、噪声、俚语、语种等诸多因素的影响而使彼此听不懂对方在说些什么,对于计算机当然也不能奢望太多。

因此,没有哪种语音识别技术能够百分百准确无误地理解用户的任何语音。当然,可以通过语音提示、纠错与信息确认等方式来弥补语音识别的不足。

中国的语音识别技术落后

正如前文所述,语音识别技术因其自由度的大幅提升导致其技术开发难度增大,国外语音技术虽然起步较早,但其发展速度由于市场成熟度、相关技术发展速度等诸多因素的制约一直进展比较缓慢,且面临的最大技术难题就是的“自然语言”识别,即所谓的“语音识别听得懂一切”,也是迄今为止全球语音识别界无法逾越的鸿沟。

我国对于语音识别技术的研究与产品开发相对国外起步较晚,但追赶的步伐却很快。目前语音识别技术水平已经与国外的技术水平相差无几,而在中文语音识别领域更是由于其强烈的地域特征和得天独厚的条件而领先于国际。

语音识别非常昂贵

相对于国外大公司高昂的研发、运营、维护、广告成本而言,国内语音识别技术含量并不低,同时拥有着更为实际、更有竞争力的价格。在为客户有效降低成本的前提下,带来比国外公司更高的投资回报率,还能让客户在一个更加合理的价位上提高服务质量,让消费者更多地感受语音识别技术带来的便捷。只有这样才能进一步拉近语音识别技术与产品化应用的距离,拉近语音识别技术与消费者之间的距离,进一步促进语音类增值服务的繁荣发展。

洋玩意儿总是好的

不可否认,总体上来说,国外厂商的优势还是非常明显的,其发展较早、资金实力雄厚。然而一味地盲目崇拜国外也是不可取的,俗话说“适合的才是最好的”。

对于语音识别领域来说,正是在这“适合”二字上,国内企业有着国外公司所不具备的、得天独厚的优势。首先,中文语音识别技术是大部分国外厂商所不具备或者不完善的,而对中文语言特点的理解与中国人语言习惯的熟悉正是中国企业的优势之首。其次,高性价比也毋庸置疑地成为国内企业最大的优势之一。再有,国内企业对国内客户的企业文化和业务流程有着良好把握,并提供灵活多样化的产品与合作模式、及时周密的服务、充分的培训、行业特色的解决方案。国外公司在中国的技术研发力量不足、甚至没有;培训人员、服务支持往往要远渡重洋不够及时;解决方案陈旧不符合中国国情,不了解行业特色;产品改造牵扯太多不够灵活主动。最后,国内企业在借鉴吸收国内外大量资源的基础上,结合中国国情、行业特色、集百家之长,逐渐形成了商业的“中国模式”厚积薄发。

打造ASR的“中国模式”

随着中国经济的腾飞,以往单纯的“拿来主义”已经不能满足中国消费者的需求,由于文化背景、民族习惯、知识水平、行业特色、政府政策、法律法规、管理方式等诸多方面与国外的差异,形成了具有中国特色的客户需求。而各行业的商家看准这一市场需求,在原有的基础上加以变革或者干脆原有不合理的东西,推出更加符合中国客户需求的产品、方案、制度、服务、商务合作等一系列的内容就形成了今天大家经常谈及的“中国模式”。

当今企业善用“中国模式”取得成功的案例不胜枚举,如联想、华为、阿里巴巴等知名企业还将“中国模式”成功地改良应用于海外市场,并获得了成功。

作为中国语音识别的领军企业,这些年来捷通华声一直奉行“质量至上、服务第一;薄利多销、份额制胜”的发展宗旨。为了让语音识别应用面积扩大起来,不妨打价格战。同时,研发人员走到用户中去,和他们一起研究问题,以实用为目的,灵活定制。要用坦诚和热情服务赢得客户的理解和支持。服务中不是扔给客户一大本参数手册叫客户去费力调试,如果效果没有达到产品宣称的百分之九十几就归咎于用户的参数没有调节好。而是通过和用户之间的紧密配合,共同发现问题,进行最佳参数配置,进而进行必要的定制。

捷通华声凭借拥有自主知识产权的多项HCI技术(语音合成、语音识别、手写识别)优势和多年的市场经验积累,建立了相对完善的、更加符合中国客户需求的产品、服务与技术支持体系,为ASR在CTI、嵌入式等领域的行业应用铺平了适合“中国模式”的发展道路。

语音合成技术范文6

 

关键词:自然语言处理 语言翻译 人工智能  

一、引言  

近年来随着计算机技术和人工智能的快速发展,自然语言信息处理技术已取得了长足的发展。于此同时人们在快速信息检索、语言翻译、语音控制等方面的需求越来越迫切。如何将自然语言处理中取得的研究成果应用于文本、语音等方面已成为目前应用研究的一个关键。论文将从自然语言信息处理的基础出发,系统的论述它在语音和文本方面的广泛应用。  

二、自然语言信息处理技术简介  

自然语言信息处理技术产生于上个世纪40年代末期,它是通过采用计算机技术来对自然语言进行加工处理的一项技术。该技术主要是为了方便人与计算机之间的交流而产生的。由于计算机严密规范的逻辑特性与自然语言的灵活多变使得自然语言处理技术较复杂。通过多年的发展,该项技术已取得了巨大的进步。其处理过程可归纳为:语言形式化描述、处理算法设计、处理算法实现和评估。其中,语言形式化描述就是通过对自然语言自身规律进行研究,进而采用数学的方法将其描述出来,以便于计算机处理,也可认为是对自然语言进行数学建模。处理的算法设计就是将数学形式化描述的语言变换为计算机可操作、控制的对象。处理算法实现和评估就是通过程序设计语言(如C语言)将算法实现出来,并对其性能和功能进行评估。它主要涉及到计算机技术、数学(主要是建模)、统计学、语言学等多个方面。  

三、智能应用  

通过多年的研究,自然语言信息处理技术已经取得了巨大的进步,特别是在应用方面。它主要被应用于文本和语音两个方面。  

(一)自然语言信息处理在文本方面的智能应用  

在文本方面,自然语言处理技术主要应用在语言翻译、字符识别、文本信息过滤、信息检索与重组等方面。其中,语言自动翻译是一个十分重要并具有极大现实意义的项目。它涉及到计算机技术、数学建模技术、心理学以及语言学等多个方面的学科。通过近些年的努力已得到了一定的发展。自然语言处理技术已在多个方面提升了翻译的效率和准确性。如自然语言处理中的语言形态分析与歧义分析对翻译技术来说十分重要,可以很好的处理翻译中的多意现象和歧义问题,从而提高翻译的准确性。字符识别具有广泛的商业应用前景,它是模式识别的一个分支。字符识别的主要过程可分为预处理、识别以及后期处理。目前,字符识别已得到了广泛的应用,并且效果良好,但还存在识别不准确的问题,其主要问题就出在合理性上,其中后期处理就涉及到采用词义或语料库等对识别结果进行合理性验证,通过该技术就能很好的解决识别不准确的问题,当出现识别不准确、出现多个识别结果时可以通过合理性验证技术高效的过滤掉异常选项,从而实现快速、准确的识别。目前自然语言信息处理技术在文本方面应用最广的就是文本检索。通过采用自然语言信息处理技术,一方面能快速分析用户输入信息并进行准确理解为检索提供更加准确的关键词,并且可以扩展检索输入的范围,让其不仅仅局限在文本输入方面,如采用语音输入或基于图像的输入;另一方面,通过采用自然语言信息处理技术可以对搜索到的信息进行处理让用户获取的是更加有效、准确的信息而不是海量的信息源(如许多网页)。因为将自然语言处理技术与文本重组技术相结合就可以极大的提高检索的效果,缩小答案的范围,提高准确性。当然,还可以提高检索的效率。目前,在中文全文检索中已得到了广泛的应用,并且效果良好。  

如果能进一步的研究自然语言信息处理技术,将能实现信息的自动获取与重组,这样将能实现自动摘要生成、智能文本生成、文件自动分类与自动整理。若能进一步结合人工智能技术,将能实现文学规律探索、自动程序设计、智能决策等诸多方面的应用。这样可以减轻人类的工作强度,让我们从繁琐的基础工作中走出来,拥有更多思考的时间,从而能更加有效的推动技术的进步。

(二)自然语言信息处理在语音方面的智能应用  

在语音方面,自然语言处理技术主要应用在自动同声传译、机器人聊天系统、语音挖掘与多媒体挖掘以及特定人群智能辅助系统等方面。其中,自动同声传译主要涉及到语音建模、识别以及语言翻译等方面,采用自然语言处理技术可以对自动同声

[1] [2] 

传译的每个方面都能得到提高,最直接的部分就是语言翻译部分,同时还可能涉及到语音与文本的转换。特别是在语音和文本的转换方面,目前在中文出来中出现的一个问题是音似问题,即音似字不同的情况,对这种情况如果能采用自然语言处理技术来对其进行校验,将能提高其转换的效果,从而提高转换的质量和准确性。机器人聊天系统涉及到更加广泛的内容,如自动回答系统。在机器人聊天系统中不可避免的涉及到语音与文本的转换、自动回答以及逻辑推理,通过自然语言处理技术将能在意义理解、逻辑推理和知识应用等方面得到明显提高,从而使得应答的速度和回复的针对性和准确性等方面都得到一定的提高,从而提高聊天系统的应用性。在语音挖掘与多媒体挖掘方面,自然语言处理技术的应用主要体现在增强意义理解和提高检索速度这两个方面。通过该技术一方面能根据准确的获取语音所包含的意义,从而为搜集信息提供基础。同时,由于采用该技术也有助于数据挖掘中的对相关信息的检索和归纳。  

随着人工智能、计算机视觉等技术的快速发展、自然语言处理技术将能应用于诸如自动场景解说系统等。也就是自然语言处理技术再结合图像理解技术和逻辑推理技术,就能准确的描述当前场景发生了什么事情,如果能和上一个场景进行比较就能及时的描述场景的变化,并通过有效的组织就能实现对场景的自动描述。再进一步利用人工智能技术、知识库及语音生成技术就能实现场景的自动解说,甚至能实现如自动足球运动这样快速场景变换的解说。同时,还能对特定人群提供辅助,如为盲人提供辅助的系统,帮助盲人识别物体以及其他的一些帮助。也可以应用于语音控制,语音控制目前也具有广泛的需求,可以应用在很多方面,将自然语言处理技术、语音建模技术、计算机技术以及控制技术相结合就能实现语音控制,甚至能应用于工厂的智能控制和管理。  

四、结论