分享到:

多通道说话人检索算法研究

本文的主要内容是开放环境下的多通道说话人检索技术的研究,最终目的是构建一个特定说话人检索引擎,用于实现基于特定说话人的音频搜索引擎。说话人检索可以认为是自动说话人识别(ASR)技术的一种具体应用,然而,说话人识别技术应用于实际环境,还存在着很多难点,鲁棒性不足是其中最重要的部分之一。针对互联网的多样性和开放性以及语音环境的巨大差异,本文设法区分不同的语音环境并减弱环境和通道的影响,从而改善检索性能。第一.建立基准说话人检索引擎:通过对说话人检索和说话人识别的等方面研究,实现了一个基准的说话人检索引擎,用以在稳定的环境下进行说话人检索,并在保证整体正确率的基础上提高召回率。第二.基于动态决策机制的说话人检索技术研究:说话人检索和说话人确认相似的地方在于:都必须对测试音频进行接收和拒绝,因此需要确立得分的阈值,得分高于阈值的音频则接收,得分低于阈值的音频则拒绝。基本方法就是获取特定说话人的充足样本,统计样本的得分分布范围,从而得到我  (本文共73页) 本文目录 | 阅读全文>>

华南理工大学
华南理工大学

基于说话人转换的语音识别方法

说话人转换是语音信号处理领域中一个前沿的研究分支。说话人转换就是对一个说话人(源说话人)的语音信号进行修改,在保留语音信号所表达的语义信息的前提下,使得修改后的语音信号听起来像另外一个说话人(目的说话人)所说的。说话人转换对语音分析、语音编码、文语转换、说话人识别和语音识别等领域都有重大的促进意义。语音处理中广泛使用的正弦+噪声模型具有易于参数修改、合成音质高的特点。该模型通过参数修改的方法,能够较为方便地对语音信号各种特征的进行修改。本文从正弦模型参数所体现的说话人特征着手,基于统计的方法,研究了基于正弦+噪声模型的说话人转换的方法,并将研究结果应用到语音识别中的说话人适应领域,引入了基于说话人转换的语音识别方法。说话人转换的关键之处是从语音信号中提取可分析合成的说话人特征。本文利用正弦+噪声的语音分析模型,进行说话人特征的基础性研究。结合统计分析的方法,着重分析了正弦模型中频率参数概率分布(FPD)和幅度参数加权的频率概率分...  (本文共83页) 本文目录 | 阅读全文>>

浙江大学
浙江大学

多层次说话人分割及相关算法研究

说话人识别技术被认为是最自然的生物认证技术,它是一项根据语音中反映的说话人生理和行为特征的语音参数,自动识别说话人身份的技术。说话人检索可以认为是自动说话人识别技术的一种具体应用,然而,说话人识别技术应用于实际环境,还存在着很多难点,说话人分割技术的不成熟是其中的重要原因之一。本文主要针对说话人分割中存在的困难和现有说话人分割方法中的不足,即说话人分割时可用信息过少、说话人分割易受噪音和通道等局外变量的影响以及基于距离的分割和基于模型的分割方法本身的不完善,提出了一种多层次的说话人分割框架,并对其中的相关算法进行了研究。本文的主要工作包括:第一、提出了一种多层次的说话人分割框架,利用分层的结构特点和各层引入的辅助信息,解决说话人分割时可用信息过少的问题;利用语音检测和通道聚类消除噪音和通道的干扰;用预分割和分治的方法来弥补分割方法本身的不完善。第二、研究语音和非语音的特征分布及其突变规律;介绍和提出了一种基于x~2分布的突变检测...  (本文共81页) 本文目录 | 阅读全文>>

《心智与计算》2010年02期
心智与计算

基于说话人的音频分割与聚类

1引言随着IT技术的发展,各类音频文档的获取途径越来越丰富,数据量呈爆炸式增长,从而对音频文档的管理也越来越困难。近年来,人们开始研究音频检索技术①,对电话语音、广播语音以及会议语音等多媒体语音文档进行管理。其中,对会议语音的检索难度最大,因为会议语音文档中包含有多个信道、更多的说话人。基于说话人的音频分割与聚类,就是将一段有多个人在说话的语音分割成多个片段,并将每个片段标上该段语音对应的说话人身份的标签②的技术。图1展示了说话人分割聚类任务。它实际上包含了两个过程:说话人分割,即检测说话人身份发生变化的点;说话人聚类,即将说话人身份相同的片段聚成一类。其中,说话人聚类是一个无监督的过程,因为没有音频文档中的说话人数目、说话人身份以及声学条件等先验知识。图1说话人分割与聚类任务Fig.1The task of speaker segmentation and clustering广义地来说,说话人分割与聚类系统可以分为两类,即在...  (本文共9页) 阅读全文>>

《语文教学通讯》1994年06期
语文教学通讯

巧用语言逆效应教学

人们表达思想传递信息 最重要的工具是语言。交际 中,说话人所传达的、听话人 所获得的往往是语言的正值 信息。如果语言表达的这种 效果叫语言的正效应,那么, 听话人获得负值信息,或者 说,语言在交际中产生的是 与其正值信息相反的效果, 则叫做语言的逆效应。马克 思曾说过:“市场上叫卖得最 响亮的人,是想把最坏的货 物推销出去。”“叫卖得最响 亮”的商人,其叫卖的语言的 正值信息一定是“货真价 实”、“物美价廉”,但马克思从中获得的信息值却是“最坏的货物”,商人叫卖的语言在马克思那里产生的效果。就是逆效应。 对于语言的逆效应.日人影山寿曾举例论述过: 如果要求对方:“请你向右看,不向左看!’,那么对方自然会想到:左边可能有什么东西不让看吧!于是他便千方百计地向左看。(《人生的探求》) 语言的逆效应正是由信息接受者这种逆反心理或逆向思维造成的。假如大家都在查找工作中的失误,有一人竖起拇指说:“只有我是一位伟大的先觉、永远不会犯错误的国...  (本文共2页) 阅读全文>>

《数据采集与处理》2017年01期
数据采集与处理

基于变分贝叶斯改进的说话人聚类算法

引言随着信息处理技术的不断提升、互联网的普及,人们获取各种音频的途径越来越广泛,然而在音频数据爆炸式增长的同时,如何合理有效地管理和存储这些海量数据是迫切需要解决的问题[1]。传统的基于文本形式的音频检索方式已经满足不了人们对海量数据的检索需求,采用人工标注的方式不但成本昂贵、效率低,而且很容易加入个人的主观色彩。于是,基于内容形式的音频检索应运而生,并成为多媒体研究领域的热点问题。然而实际上大多数的语音信号不仅仅包含文本信息,也同样包含说话人信息,这种基于内容的处理方法会使说话人的信息丢失,存在一定的缺陷。为此,文献[2]使用说话人分离技术,构造和建立说话人索引,为在更高语义层次上实现音频检索提供基础。说话人聚类是说话人分离技术中的一个重要环节,其关注的是如何将杂乱无序的说话人片段通过一种无监督的聚类方式,自动地组合在一起。理想情况下,聚类后每个类别的片段仅属于同一个说话人,而不同类别中的片段属于不同的说话人。说话人聚类在语音...  (本文共8页) 阅读全文>>