分享到:

广播语音的音频分割

本文的广播电视新闻的分割系统分为三部分 :分割、分类和聚类。分割部分是采用本文提出的基于检测熵变化趋势的分割算法来检测连续语音音频信号的声学特征跳变点 ,从而实现不同性质的音频信号的分割。这种检测方法不同于传统的需要门限的跳变点检测方法 ,它是以检测一定窗长的信号内部的每一个可能的分割点  (本文共6页) 阅读全文>>

北京邮电大学
北京邮电大学

广播语音的自动标注系统

近年来,随着计算机技术、网络技术和通讯技术的快速发展,人们可方便快捷地获得图像、视频、音频等多媒体文件,全球多媒体数据出现爆炸式的增长,其中音频信息占有十分重要的地位。如何对海量级的多媒体资源进行有效的索引和信息检索成为当前一个研究热点,一种基于内容的音频检索方法对当今的大词汇量语音识别系统提出了更高的要求。在众多多媒体数据中,广播新闻是被大多数的多媒体研究课题重视的代表性音频数据,因为广播语音包含静音,音乐,说话人语音和噪音背景等音频要素。要提高广播语音识别的性能以及鲁棒性,需要大规模精确标注的语料库。众所周知,为大规模语音语料库添加标注需要大量人力、物力,而由于广播语音识别的性能还不够高,现阶段的标注工作还只能通过人工手动来完成。如何自动完成语音音频的文本标注是降低语音识别系统成本的重要方向。在这一背景下,本文研究搭建一个广播语音的自动标注系统。由于多数情况下,广播语音的音频文件和其相应的文本可在互联网找到,所以,本文的研究...  (本文共70页) 本文目录 | 阅读全文>>

西华大学
西华大学

基于语音识别技术的调频广播保障系统研究

广播保障是指通过对广播频段的监测及频道信号分析,了解广播频段的日常使用状况,并采用技术手段发现和查处异常广播。“黑广播”,即未经相关部门批准、擅自设置并利用广播频率向社会进行播音宣传的广播电台,是目前最主要的异常广播。黑广播具有极其严重的安全隐患,对黑广播的查处一直是各地无委无线电管理工作中重要的一环。为了改变广播监测中黑广播发现困难、费时费力的问题,本文研究当前广播保障工作流程及黑广播查找方法,设计了一个基于语音识别与关键词检索的黑广播自动发现方法,并利用EM100数字接收机、HE600接收天线及普通PC机搭建硬件平台,实现了调频广播的自动保障功能。系统设计与实现主要解决了以下问题:1.工作流程自动化。广播频段监测主要是了解两方面的内容:频段使用状况(频段扫描),频点使用状况(中频测量)。本系统设计实现了在频段扫描过程中,设置阈值线、求信道占用度完成广播频段中信号点的自动发现,并设置适当的监测时间,完成频段扫描与中频测量任务自...  (本文共67页) 本文目录 | 阅读全文>>

解放军信息工程大学
解放军信息工程大学

广播新闻音频结构化技术研究

广播新闻音频结构化是指将广播新闻音频切分为一个个内容相对独立、稳定的结构单元,再通过对音频数据的分析获得不同音频结构单元所对应的音频场景。广播新闻音频结构化不仅有利于广播新闻音频的深入分析和处理,而且对基于内容的广播新闻视频分析与检索也可起到重要的辅助作用。本文主要研究广播新闻音频结构化的相关技术,包括音频特征提取、音频分割和音频分类。主要取得了如下研究成果:首先,在音频特征提取方面,提取了基于全局背景模型(Universal Background Model, UBM)映射的MFCC段级特征以及帧内和帧间标准方差均值两种音色段级特征。实验结果验证了新特征的有效性。采用正交实验设计法进行音频特征选择,为不同广播新闻音频类别下具体场景的识别构造各自最佳的识别特征集。其次,在音频分割方面,提出了一种基于可信度变化趋势检测的音频分割算法。新算法采用定长滑动窗检测结构,以减少累积错误;窗内计算各音频帧的可信度,再根据可信度的变化趋势检测...  (本文共76页) 本文目录 | 阅读全文>>

北京邮电大学
北京邮电大学

广播语音的分割与分类研究

当今的大词汇量的语音识别系统,在安静的实验室语音情况下已经获得了很高的识别率。但是,想要把语音识别推入到更加广阔的应用空间中区,需要对系统的鲁棒性,计算速度上提出了更高的要求。广播语音,作为一种实际语音,有其复杂性,和一般的实验室语音有一定的区别,比如:广播语音包含各种音频要素,比如人声,音乐,长的静音段,噪音等。如何提取音频中的结构化信息和音频内容,是音频信息深度处理,基于内容检索和提高系统鲁棒性的基础。目前对于广播语音的分割与分类研究是当前的研究热点之一。本文主要研究了语音和音乐之间的区别,通过抽取特定的特征搭建了一个基于支撑向量机的语音、音乐的区分系统,完成语音、音乐两种最主要的音频要素的分类。另外,本文就一种最常见的特征基音频率进行了一定的研究,并将之用于区分语音、音乐的系统中去,完成了一些实验。除此之外,本文总结了当前国际上主要的音频分割的方法。使用其中贝叶斯信息准则应用到以距离为基础的检测法,搭建了一个说话人跳变点的...  (本文共63页) 本文目录 | 阅读全文>>

西北大学
西北大学

基于内容的音频检索技术研究与实现

如何有效地对海量数据尤其是诸如音频之类的多媒体数据进行分析、存储和检索是一个亟待解决的问题。由于原始音频数据的非结构化特性,音频检索受到极大的限制。相对于日益成熟的图像与视频检索,音频检索相对滞后。基于内容的音频检索已成为多媒体检索技术的研究热点。本文对基于内容的音频检索的关键技术展开分析,主要在以下几个方面开展了工作:1、音频信号特征提取与表达。音频检索是多特征组合检索,对音频信号的感知特征如响度、亮度、音调等;物理特征如过零率、Mel倒谱系数、线性预测系数等进行了分析,不同的特征组合应用于不同类型的音频检索。2、音频分割与识别。将音频分层分割算法改进为基于模板的音频分割算法,利用隐马尔可夫模型的良好的随机时序性以及不依赖于具体的应用阈值的优势,使分割识别准确率有较大提高。随着MPEG压缩格式成为多媒体编码主流,研究了直接对MP3格式的音频信号提取特征,基于MPEG压缩域特征音频分割。3、基于内容的音频检索。从音频示例查询的角...  (本文共58页) 本文目录 | 阅读全文>>