分享到:

语音转换的关键技术研究

语音转换是要改变一个说话人的语音,使之听起来象是另外一个人的语音。语音转换是语音信号处理领域的一个较新的分支,具有很重要的理论价值和实用价值。语音转换用于文-语转换系统中,可以容易地合成出不同说话人个性特征的语音;它也可以用于电影配音、极低速率语音编码、语音通信的说话人加密、语音的说话人模拟等。语音转换的研究对语音分析、语音编码、语音合成、语音增强、语音识别、说话人识别等语音信号处理的其它各个领域有重要的促进作用。本文主要围绕语音转换中的基音周期变换和谱包络转换两项关键技术进行研究,研究了基于小语料库训练的语音转换系统。对基音周期变换方法的研究:在基于宽带TD-PSOLA基音周期变换方法的研究中,发现分析窗长取源语音和目标语音两者较小基音周期两倍的效果优于取两者较大基音周期两倍的效果,对其原因进行了分析研究。FD-PSOLA中的压缩-扩展法在进行基音周期变换时,会引起相位谱压缩或扩展现象,从而使相位变化率发生变化,这会引起基音周  (本文共177页) 本文目录 | 阅读全文>>

国防科学技术大学
国防科学技术大学

基于频率规整的语音转换技术研究

语音转换技术是现代社会一项重要的语音处理技术,它能够保留语音的语义信息,同时改变语音包含的辨识身份的特征。然而,对语音的任何修改都会对它的感知特性造成影响。特别是对于特定人语音转换技术,语音的谱包络转换和韵律转换都会引起音质的显著下降,随着人们对转换相似度要求的提高,音质问题变得愈发显著。如何使转换效果能够兼顾相似性和音质,已经成为语音转换技术中亟待解决的问题。现有技术中,基于频率规整的谱包络转换方法能够提供较好的转换音质,但与目标语音相似度较低。本文研究基于频率规整的谱包络转换方法,主要工作分为以下三点:(1)提出了一种新型的基于共振峰二元映射的频率规整语音转换方法。针对传统的频率规整语音转换方法单纯处理频率拉伸导致相似度低的缺点,本文提出了基于共振峰二元映射的频率转换方法,能够对谱包络共振峰频率及相应谱包络振幅进行二元映射,与传统频率规整方法相比,该方法的转换频谱包络对目标频谱包络契合程度较高,有更好的相似度效果。(2)提出...  (本文共71页) 本文目录 | 阅读全文>>

哈尔滨工程大学
哈尔滨工程大学

基于LPAC-PSOLA合成算法语音转换系统

语音转换是一项改变说话人声音特征的技术,是将源说话人声音转化为具有目标说话人特征信息声音的方法。语音转换是语音信号处理领域的一个较新的分支,涉及信号处理、声学语言学、人工智能、模式识别和计算机科学等学科领域,它的研究对语音分析、语音编码、语音合成、语音增强和语音识别等语音信号处理领域有重要的促进作用。语音转换研究语音模型中各特征参数的变化规律,对语音参数的合成、语音编码技术的进步、说话人加密和模拟技术的发展有着重要的促进作用;同时它在电影、电视节目中的配音、数字化的娱乐等多媒体方向、医学领域、刑侦及保密通信等方面也有着广泛的应用。语音转换技术是对说话人识别和语音合成技术的丰富和延拓,有着良好技术发展前景。因此语音转换技术的研究具有广阔的应用前景和重要的理论研究和实用价值。本论文采用线性预测分析系数波形-叠接合成法实现语音转换,是基于提取源语音和目标语音特征的线性预测系数转化的线谱对频率,建立联合参数的高斯混合模型训练法,采用最大...  (本文共73页) 本文目录 | 阅读全文>>

燕山大学
燕山大学

基于AHOcoder及GMM模型的语音转换研究

语音转换技术实现的是两个不同说话人声音个性特征之间的转换,即通过改变源语音的声学特征使之具有目标语音的声学特征,同时保留语义信息不变。语音转换技术可以提供个性化语音,用于文语转换终端,辅助医疗完善病人声音,丰富智能化人机交互等。另外,语音转换技术的研究有助于推动语音信号处理其它领域的不断发展,比如提高语音合成质量,降低说话人辨识难度等。所以,语音转换具有深远的应用前景和较大的理论研究价值。基于AHOcoder语音声码器及GMM模型的语音转换,主要工作如下:首先,从语音产生原理入手,描述发音系统的数学模型及常用的语音特征参数,分析特征参数对语音产生的影响,并对语音转换模型进行介绍。给出用于语音分解、特征参数提取与合成的AHOcoder语音声码器,该声码器可将语音信号分解并提取出对数基频、梅尔频率倒谱系数等参数并在转换之后基于特征参数进行语音合成。其次,重点研究基于AHOcoder语音声码器和GMM的语音转换系统。为了改善GMM造成...  (本文共65页) 本文目录 | 阅读全文>>

南京邮电大学
南京邮电大学

基于改进的BLFW下平行和非平行文本的语音转换算法研究

在语音信号处理领域,语音转换是指将一个说话人(源说话人)的语音转换成听起来像另一个说话人(目标说话人)的所发出的语音,同时保持语义不变。语音中包含着丰富的信息,包括语义信息、个性信息、语言信息和情感信息等,而语音转换主要关注点在于语音的声学本质特征:频谱特性和韵律特征。在语音转换的多种应用场景中,如娱乐和跨语言转换应用中,需要语音转换系统能够提供高质量的语音和实现非平行文本下的语音转换。现有的语音转换系统面临着两个主要问题:一方面是转换后的语音不能同时获得较高的相似度和较好的音质效果,而不得不在转换后语音的相似度和音质上权衡,另一方面是转换函数的训练依赖于平行语料,限制了语音转换系统的通用性。首先为了实现较高音质和相似度转换的语音转换,本文提出基于自适应高斯分类的双线性频率弯折加幅度调节算法,它采用自适应高斯分类更好地对语音的声学特征分布建模,在实现合理分类的基础上进行语音转换。经过主观和客观评价,本文提出的方法比固定的分类数的...  (本文共73页) 本文目录 | 阅读全文>>

南京邮电大学
南京邮电大学

非平行文本下基于变分自编码模型和瓶颈特征的高质量语音转换研究

语音是说话人发声时产生的信号,其中包含语义信息、说话人个性信息和情绪等多种自然信息,具有易于采集的特点。语音转换技术就是对源说话人的个性特征参数进行转变,使其具有目标说话人的个性特征信息,并保持语音的语义信息不变。近年来,深度学习概念的提出和国内外在深度学习研究上的火热,深度学习的方法受到了国内外语音研究者的高度关注,有一部分研究者利用深度学习的方法在语音转换的研究上进行了尝试,并取得了喜人的成果。由于深度学习中的各种模型具备解析复杂信号各种本征特征的能力,这大大提高了研究者们在做语音转换研究的效率,且随着深度学习研究的不断深入,各种新概念和模型被应用到语音转换的研究中,解决了在语音转换中的各种实际问题。将深度学习的方法应用到语音转换技术的研究中,有助于推动语音信号处理其他领域不断向前发展,可以大大提高各种语音智能设备,以及智能化人机交互的效率。因此,利用深度学习的方法对语音转换进行研究前景广大、且具备深远理论研究价值和实践价值...  (本文共67页) 本文目录 | 阅读全文>>