分享到:

基于人脸识别和语音识别的教学系统方法与技术研究

近年来随着信息技术和计算机技术的飞速发展,对于实验室教学系统的安全性与智能性提出了更高的要求。由于现有的实验室系统在登录的方式上过于传统,并没有充分利用人脸等生物特征,而且缺乏语音识别交互命令功能,在教学演示的智能性上有待提高。所以,针对这一研究现状,研究了基于人脸识别与语音识别的教学系统,重点在人脸识别登录以及语音识别交互方面进行了改善与题号。相较于传统的实验室教学系统,基于人脸识别和语音识别的教学系统的功能更加全面,设计更加合理且智能,效率更高,可以充分提高实验室教学系统的登录安全性与教学演示的灵活性。首先,针对实验室教学系统的实际需求,探索人脸识别与语音识别的研究背景以及对于实验室教学系统的研究意义,分析国内外人脸识别与语音识别的研究现状,并对人脸识别与语音识别所存在的问题进行总结与分析,进而制定基于人脸识别和语音识别的教学系统的相关研究内容,并确定系统所需的相关技术。其次,设计了融合主成分分析技术的人脸识别模块。分析传统  (本文共55页) 本文目录 | 阅读全文>>

安徽工业大学
安徽工业大学

车载噪声背景下的语音识别中减噪技术研究

语音识别技术是实现机器智能化的一项关键技术,它能让机器分辨并了解人类说出的语言。如今的语音识别技术虽然应用广泛,但系统中部分关键技术仍需要进行进一步的改进与优化,提高系统识别率依然是现今研究的重点。本文着重研究语音识别系统在车载噪声背景下的实用性与有效性。阐述了包括预处理、语音减噪、特征提取等关键技术的基本原理及系统构成,并对识别系统中的部分关键技术做了以下改进:提出一种基于模糊控制的小波包多阈值语音减噪新算法。该算法采用改进的多阈值选取方式来代替传统的阈值选择,应用一种新阈值函数对经小波包变换后的最底层小波包系数进行量化处理以确保噪声尽可能地被滤除。模糊控制器可对重构后的新信号进行自适应模糊滤噪优化处理,得到最终语音。一种基于小波包邻域能量分段加权平均的MFCC特征提取方法。此算法依据语音中清音与浊音在频域中的不同分布特性,将经小波包变换后的系数按频率大小重新排序。分别对高频区与低频区的相邻小波包系数能量进行加权平均计算,最终...  (本文共76页) 本文目录 | 阅读全文>>

中央民族大学
中央民族大学

基于主动学习的藏语语音识别在在线教育中的应用

随着科学信息技术以及互联网技术的不断发展,在线教育凭借其跨越时空限制,优质教育资源共享的特点,在我国的国民教育中发挥着重要的作用。而我国藏族地区因地域、历史等因素影响,教育资源与中东部沿海地区优秀教育资源存在一定的差异。在线教育所特有的优质教育资源共享、跨越时间和空间的特色可以在一定程度上解决藏族地区在教育资源上的不足,缩小与中东部沿海发达地区在教育上的差距,实现教育公平,加速藏族地区教育现代化进程。在线教育平台中教学视频的语音识别是网络中视频结构化处理必不可少的模块。但是在我国以学堂在线、网易公开课、中国MOOC网、可汗学院等为代表的在线教育平台语音识别以普通话和英语为主,以藏语为主的语音识别相对匮乏。由于藏语属于小语种语言,现有藏语语音识别建模大部分采用有监督学习的方法建立语音识别模型,为了建立高准确率的语音识别模型,这种学习方式需要大量带标注的语音语料,而语音语料的标注是一件极其费时费力的工作,并且由于地域历史等原因,藏语...  (本文共67页) 本文目录 | 阅读全文>>

北京外国语大学
北京外国语大学

语音识别软件对口译学生汉英同声传译的影响研究

学生译员能否使用语音识别软件所生成的文字来帮助自己减少记忆压力、提高口译信息完整度呢?为了回答这一问题,笔者进行了口译实验和问卷调查,以便探查语音识别软件对口译学生中英同声传译的影响。本实验共使用了四篇语体、速度、内容不同的中文演讲稿,供两组水平相当的口译学生分别参加有语音识别和无语音识别的同声传译。在同传后,对所有受试者进行了问卷调查。实验显示本研究所用的语音识别软件,即讯飞语记,在不同的语速和内容下,识别结果清晰易读,准确率高达98%以上。识别结果对改善数字口译的准确度尤其明显。但是,软件的识别延迟却并不稳定,依发言速度发生变化:在发言速度较快时,延迟总体过长,对同传的帮助较小,甚至产生消极影响。就译出信息的完整度而言,两组受试者整体并无显著差别。但在个体层面,差异存在。笔者发现,在实验组中,对于视译能力较强的口译学生,软件能够提供积极的帮助,而对视译能力较弱的学生,软件主要产生了消极的干扰:学生常常精力分配紊乱或过于依赖软...  (本文共63页) 本文目录 | 阅读全文>>

北京外国语大学
北京外国语大学

讯飞语音识别对英汉交传笔记的影响

近年来,语音识别等一系列人工智能技术的盛行,打破了很多原有的工作模式,更让人们积极寻求借助前沿科技提升工作效率的可能性。口译是一项脑力强度极高的劳动,口译员压力极大,因此可尝试将语音识别技术引入口译实践当中。交替传译相对同声传译来说对即时性要求较低,有更加充足的信息接收及处理时间,但译员的短期记忆负担较大。对于母语为中文的译员来说,将英文源语译入中文的组合符合口译的通行国际惯例;同时,英文的辨识、转化与记忆比源语为中文的口译任务挑战更大,因此本研究选择英汉交传作为实验及分析对象。目前市面上的语音识别系统基本可以达到90%以上的正确率,科大讯飞的语音识别产品讯飞听见甚至可以达到98%以上,可以考虑作为英汉交传的辅助工具,减轻译员的笔记压力,进而为将来探索用于提高口译质量提供了可能性。通过对九名已获得人社部翻译资格水平口译二级证书的学生译员进行模拟语音识别对照实验后发现,在有讯飞语音识别辅助的情况下,译员们倾向于减少笔记上的信息,同...  (本文共67页) 本文目录 | 阅读全文>>

中国科学技术大学
中国科学技术大学

基于神经网络的语音识别声学模型压缩研究

自动语音识别是人机交互与通信的关键组成部分,其主要目的是使机器“听懂”人类所说的语音,将语音信号转变为文本信号。声学模型在语音识别系统中占据着重要地位。传统的语音识别系统主要使用基于高斯混合模型和隐马尔可夫模型(Hidden Markov Model,HMM)的声学模型。近些年来,随着深度学习的迅速发展,与传统的高斯混合模型相比,基于深度神经网络(Deep Neural Networks,DNN)的声学模型给性能提升带来了突破性进展。然而,基于深度神经网络的声学模型包含大量的模型参数以及显著的计算复杂度,这给深度神经网络应用于资源受限的移动端设备造成了巨大的困难。因此,基于深度神经网络的声学模型压缩技术是为了降低模型的参数量与计算复杂度,从而促进语音识别系统应用于资源受限的移动端设备。本文是主要围绕基于深度神经网络的声学模型,进行模型压缩技术的研究。首先,从模型参数量角度,针对基于DNN和全卷积神经网络(Fully Convol...  (本文共72页) 本文目录 | 阅读全文>>