分享到:

炎黄之声SinoSonic

近年来,对于语音合成技术TTS(Text toSpeech),我国很多科研院所已经进行了大量的研究,其中清华大学、中国科技大学、中科院声学所等都取得了很好的成绩。不久前,炎黄新星网络科技有限公司与清华大学合作建立的华意语音研究中心,研制出了第二代汉语语音合成产品──炎黄之声SinoSonic。它采用先进的数据驱动技术,体现了自然语言的特性。$$炎黄之声SinoSonic的系统构成分为:用户编程接口和TTS内核两大部分。其中,内核部分又可以按照系统运作的不同过程分为多个子模块,包含了训练模块、文本分析模块、韵律生成模块、语音合成模块以及与语料库之间的通信协议等。同时,SinoSonic还考虑了不同类型用户对TTS系统功能的需要,提供了丰富的编程接口。整个系统的框架如图所示。$$炎黄之声SinoSonic所涉及的关键技术包括:适合汉语语音合成的汉语语料库的设计、语料标注及标注工具的研发、基于统计方法汉语文字处理模块的设计、基于神经网...  (本文共2页) 阅读全文>>

《科技风》2017年22期
科技风

语音合成技术发展综述与研究现状

1语音合成技术的发展早在两百多年以前,就开始有人进行关于语音合成技术的研究。但是受限于当时的科学技术水平以及客观条件,研究并未获得有实际价值的成果。后来随着计算机和数字信号处理技术的发展,语音合成技术才得以真正应用。语音合成技术大致经历了以下四个发展阶段:1.1物理机理语音合成从本质上来讲,物理机理语音合成是从人说话发音的机理上尝试实现。关于物理机理语音合成方面,最早的记录是1779年Kratzenstein实现的,他通过一套声学共振器模拟人类声带的振动来发出声音,即模拟人类的发声。[1]此共振器的形状和大小均与人类的口腔类似,以此来实现模拟的效果。此套共振器几乎可以完美的发出a、e、i、o、u这五个元音。虽然通过这种方法可以直接地实现简单音素的语音合成,但是此方法的后续研究过于困难。究其原因是人类的发音机理过于复杂,想要模仿并准确记录发音时人类口舌和牙齿等部位的行为特别困难,为这些物理机构建立模型也太过复杂。1.2滤波器语音合...  (本文共1页) 阅读全文>>

《通讯世界》2018年09期
通讯世界

基于语音合成的语音提醒器研究

前言随着科技的发展,语音合成技术的应用范围越来越广泛,目前国内主要流行的技术为KD-863汉语文转换系统,现在应用于办公自动化,工商语音查询,电影配音等各领域。但目前还存在一部分的技术难题,这其中就包括语音合成后的语音自然度和多音字的识别等。而未来最有可能在多音字识别这个方面进行优先的发展。现在主流的合成方法是将文本语义符号化,再将符号化的文本合成语音。本文主要基于对语音合成技术(Text to Speech)的应用,随时将短信从文本格式转至电话的语音提醒的方式。1语音合成的发展概述语音合成的研究历史已有两百多年,语音合成技术的前身是1930年贝尔实验室开发的声音编码器。直到20世纪60年代末,世界上第一个完整的语音合成系统——TTS完成了。在语音合成技术发展的早期是以参数合成的方法为主,这其中共振峰语音合成又是参数合成中比较成功的一种。比如1973年Holmes设计的并联共振峰合成器、1980年Klatt设计的串/并联共振峰合...  (本文共2页) 阅读全文>>

《计算机工程与设计》2017年04期
计算机工程与设计

改进参数控制的可视语音合成方法

0引言可视语音[1]合成方法可以分为两类[2,3]:数据驱动方法和参数控制方法,比较而言,参数控制的方法适用性更强,使用也更广泛。对于参数控制的方法,合成质量很大程度上取决于控制参数能否模拟真实发音过程中发音器官的动态变化特征。也就是说,需要连续的视位参数变化曲线用以描述一个音位发音时发音器官动作的完整变化过程,这个视位参数变化曲线能否模拟真实发音过程,决定了可视语音合成的质量。许多人采用线性插值算法[4,5]或余弦插值算法[6,7]计算各个关键帧视位之间的视位参数。这种简单插值方法没有考虑协同发音对视位参数的影响,所以该方法较少使用。为了考虑到协同发音对视位的影响,还有一些人根据双音素或三音素来定义视位[8-10],而这必然会增加视位的数量给后期视位参数估计增加困难。现在许多人对协同发音的处理是基于Cohen和Massaro提出的用指数函数控制视位参数变化的协同发音处理模型[11],模型的不足是模型参数太多且确定困难。基于协同...  (本文共7页) 阅读全文>>

《现代计算机(专业版)》2014年20期
现代计算机(专业版)

情感语音合成综述

0引言人工制作声音称为声音合成,它是人机交流的重要组成部分。其目的是合成出晓畅、清晰、自然,富有表现力的声音。普遍意义上来看,人类的声音包含两类信息:一是语言信息(Linguistic Information),遵循特定的语言规则,用于描述语音对应的文本内容和语义完整的通信;另一是副语言信息(Paralinguistic Information),它与语音和语言没有任何关系,用来表达说话者的态度和交流情感。情感语音分析与合成是近年研究的热点,人们一直在研究如何将富有表现力的情感加入到语音合成中。随着人类语音合成系统智能化程度不断的提高,其对增强语音自然度的要求也日益凸显。研究发现,以语音的韵律和声学特征为指导因素是现有情感语音合成的主要方向。情感语音合成的研究,必须解决以下三个基本问题:(1)如何确定语音的情感声学特征参数和情感状态;(2)如何建立情感声学特征与情感状态的映射,从而构建综合控制模型;(3)如何建立将文本分析与场景...  (本文共7页) 阅读全文>>

《电声技术》2005年10期
电声技术

情感语音合成的研究

1引言语音是人类交际的最重要的工具之一。语音信号处理作为一个重要的研究领域至今已有几十年历史了。人类的说话中不仅包含了文字符号信息,而且还包含了人们的感情和情绪的变化。然而在传统的语音信号处理中往往忽略了包含在语音信号中的情感和情绪因素。在现代语音信号处理中,分析和处理语音信号中的情感特征,判断和模拟说话人的喜怒哀乐等是一项意义重大的研究课题[1]。由人工制作出语音称为语音合成(Speech Synthe-sis)。语音合成是人机语音通信的一个重要组成部分。语音合成技术分为3大类:参数合成方法、波形编辑合成方法和规则合成方法[1]。参数合成技术的算法复杂,并且在压缩比较大时,信息丢失亦大,合成出的语音总是不够自然、清晰。而波形编辑技术用于语音合成时,不存在参数提取的问题,它通过选取音库中采取自然语言的合成单元的波形,对这些波形进行编辑拼接后输出。规则合成法是一种高级合成方法。它通过语音学规则产生语音,可以合成无限词汇的语句。情感...  (本文共4页) 阅读全文>>