分享到:

基于声门特征的说话人识别研究

说话人识别技术被认为是最自然的生物认证技术,它是一项根据语音中反映的说话人生理和行为特征的语音参数,自动识别说话人身份的技术。目前,说话人识别的主流特征往往只反映了说话人的声道频率特性,而忽略了声门的振动信息,以及声门振动对于声道的潜在影响。在详细分析说话人识别的主要特点和最新进展,特别是基于声门特征的说话人识别研究现状的基础上,本文针对如何更好的在说话人识别中利用声门特征进行了大量的尝试,提出了相关的模型和算法。本文的主要工作集中在以下三个方面:第一,针对声门和声道之间的相关性,提出了消除声门振动对说话人倒谱特征影响的模型和补偿算法。我们认为未受到声门振动影响的倒谱特征更具有说话人区分性,并且在说话人识别中同时使用长时(long-term)和短时(short-term)的声门特征,得到“补偿”过的倒谱特征。算法在理想环境下提高了说话人识别系统的性能。另外,鉴于声门特征的相对鲁棒性,我们将该倒谱补偿算法推广到复杂多通道的环境中,  (本文共81页) 本文目录 | 阅读全文>>

杭州电子科技大学
杭州电子科技大学

基于声门信息的说话人确认方法研究

语音是人类最自然最重要的交流沟通方式,将语音信号中说话人的信息提取出来,即说话人识别,也称为声纹识别,是目前语音信号处理中的一个重要研究方向。随着智能计算、网络安全需求的迅速发展,可提供生物特征识别的声纹识别技术受到越来越多的关注,正在走向实用化。经过多年的研究,实验室环境下的说话人识别系统已经较为成熟。然而,从实验室走向现实环境仍有一定的问题。问题主要集中在说话人识别的鲁棒性与计算量上。说话人识别系统可以粗略的分为特征提取与模式识别两部分。在经典的文本无关说话人识别技术中主要采用梅尔倒谱系数与UBM-MAP-GMM模型作为特征提取与模式识别。UBM-MAP-GMM模型尽管考虑了测试语音与训练语音失配的问题,但在实际情况下,该模型的运算量与存储需求仍较大,鲁棒性离实用还有一些距离。本文从研究语音信号中不同类型的信息如何混杂、如何提取入手,引入语音高层信号分析,对增强声纹识别鲁棒性、减少计算量进行了研究。本论文的主要研究内容如下:...  (本文共70页) 本文目录 | 阅读全文>>

太原理工大学
太原理工大学

情感语音识别与合成的研究

情感语音识别与合成技术是当前语音信号处理研究的热点问题,目的是使计算机既能够听懂人类语言所携带的情感成分,又可以说出人类语言,实现人机智能通信,使计算机与人的交流畅通无阻。情感语音识别是语音识别技术的一个新的分支,由于情感本身概念的不确定性及语音中情感特征的模糊性,使得情感语音识别成为一个难点问题。语音合成技术一直以来研究者众多,但是,如何能够构建出一个存储量小,自然度高的合成系统一直是需要重点解决的问题。本文紧紧抓住情感语音识别的难点和语音合成的重点,提出了基于人耳听觉特性模型的情感语音识别特征,并用声门特征对基于人耳听觉的情感语音特征进行了补偿优化;实现了基于隐马尔科夫模型的语音合成系统,在此基础上,对系统合成的语音进行了参数分析和修改,将情感特征加入了合成语音,实现了基于隐马尔科夫模型的情感语音合成。本文的主要工作和创新性成果如下:(1)在深入研究情感理论的基础上,分析了韵律特征在不同情感中的表现,构建了包括“高兴”、“生...  (本文共150页) 本文目录 | 阅读全文>>

苏州大学
苏州大学

耳语音说话人识别的研究

耳语音说话人识别是指根据包含在耳语音中的同说话人有关的信息来自动识别说话人,可以应用于电话银行、特殊场合的身份确认、公众场合下的通讯和国家安全的某些特殊需要等方面。它是一个较新的课题,有许多问题有待解决。因为耳语音发音方式与正常音不同,所以两者在说话人识别上有着很大的差异。本文建立了基于GMM模型的说话人识别系统,通过研究文本无关的说话人辨认,比较了耳语音和正常音的区别并通过特征的修正优化了耳语音说话人识别系统。本文的工作主要体现在以下方面:建立了22人的耳语音库和正常语音库,使用Mel倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、差分Mel倒谱系数(ΔMFCC)、差分线性预测系数(ΔLPCC)和组合特征MFCC+LPCC作为特征参数,比较了正常音和耳语音的说话人识别效果。利用耳语音库和正常语音库,本文比较了MFCC维数的变化对正常音和耳语音的说话人识别的影响。实验中正常音的说话人识别率在16维最高,而耳语音的说话人识别率...  (本文共69页) 本文目录 | 阅读全文>>

苏州大学
苏州大学

基于联合因子分析的耳语音说话人识别研究

说话人识别,作为生物特征识别的重要组成部分,可广泛应用于公安司法、生物医学工程、军队安全系统等领域。随着计算机和网络技术的迅速发展,说话人识别技术已取得了长足的进步。耳语发音方式是一种特殊的语音交流形式,在很多场合应用。由于耳语音与正常音之间存在较大差异,耳语方式下说话人识别无法照搬正常音说话人识别的方法,尚有很多问题亟待解决。本文以与文本无关的耳语说话人识别为研究对象,进行了较为深入的探索。耳语音说话人识别所面临的问题主要包括:耳语数据库的不完善,对于正常语音,美国国家标准技术局给出了统一的数据库资源用于开展说话人识别研究,而耳语音在这方面的资源较为匮乏;耳语音特征表达问题,耳语音由于其发音的特殊性,有些常用的特征参数无法提取,其频谱参数的获取较正常音也更加困难;耳语音是气声发音,声级较低,较易受噪声干扰,且耳语音往往在手机通话时使用,易受信道环境影响;同时,耳语发音时,受发音场所制约,情感表达受限,且发音状态、心理因素都会产...  (本文共151页) 本文目录 | 阅读全文>>

西北工业大学
西北工业大学

说话人识别系统鲁棒性研究

说话人识别技术因其独特的方便性、经济性和准确性,在生物特征识别领域中具有广阔的应用前景。现有的说话人识别技术在理想条件下效果很好,但在实际环境中却由于各种因素的影响,识别效果明显下降。因此如何提高识别系统的鲁棒性已经成为本领域的研究热点。说话人识别系统的鲁棒性问题涉及系统的各个部分。本文从噪声下的语音检测、鲁棒性特征、训练数据不足和噪声下的说话人建模技术、信道失真补偿等几个方面进行了深入研究,取得了以下具有创新性的成果:(1) 提出了一种基于置信度的动态多特征检测方法。该方法能够根据置信度,动态地选择最佳的检测参数对噪声下的语音信号进行检测。试验结果表明,新方法的检测能力比其它已有的三种检测方法更为稳健,在不同噪声下均表现出较好的检测精度:(2) 提出了一种基于多相滤波器组的基频检测方法。该方法首次将音频压缩中常用的多相滤波器组技术应用到基频检测中,并采用了一种新的清浊音判定方法。对比实验证明,该方法能够比其它常州方法更精确地检...  (本文共128页) 本文目录 | 阅读全文>>