分享到:

机器翻译应用

机器翻译(Machine Translation)系统的应用可以按照它的使用模式和其预期用户进行分类。前者通过全自动,通过计算机前编或计算机后编的全自动化达到互动。同时也要简要地提  (本文共3页) 阅读全文>>

中国科学技术大学
中国科学技术大学

面向神经机器翻译的数据增强方法及应用

近年来,神经机器翻译取得了飞速发展,并取代传统的统计机器翻译,成为目前机器翻译应用和研究中的主流范式。然而,神经机器翻译系统严重依赖于大规模高质量的平行语料,导致其在低资源和特定领域的翻译任务上表现不佳。为了解决神经网络训练中的数据稀疏问题,数据增强是一个非常具有前景且有效的方法。这类方法已经在计算机视觉和自然语言处理领域上广泛应用并取得很好的效果,但目前仍然没有很好地应用到神经机器翻译领域。本文旨在探索数据增强方法在神经机器翻译领域的应用,为此分别研究了针对半监督、有监督以及无监督等三种不同翻译场景下的数据增强方法,以提升神经机器翻译模型的性能:·提出一种在半监督场景下能高效地开发大规模单语数据的数据增强方法。通过扩展反向翻译方法,本文设计了一种新型联合训练框架,并利用联合期望最大化算法来同时训练源语言到目标语言和目标语言到源语言这两个翻译方向的神经机器翻译模型。整个训练过程一开始使用平行语料来预训练神经机器翻译模型,然后再利...  (本文共122页) 本文目录 | 阅读全文>>

电子科技大学
电子科技大学

基于回复式神经网络的机器翻译技术研究及应用

机器翻译是指利用计算机将源语言语句转换成目标语言语句的过程,机器翻译突破不同语言之间沟通交流障碍,应用广泛且需求量大,是自然语言处理领域中的一个重要应用方向。回复式神经网络是一种既包含前馈通路又包含反馈通路的网络,其前馈通路相似于传统前馈神经网络模型,反馈通路可将某一些神经元的输出在之后时刻反送到自身作为新时刻的输入。这种特殊结构使得网络能够较好地捕获时序性信息,针对机器翻译技术中无法很好地捕获上下文信息的缺陷,提升传统机器翻译效果。但是基于回复式神经网络的机器翻译技术仍然存在诸多不足,包括长句翻译缺陷、可读性缺陷和漏译缺陷等。本文基于实际应用数据特性,设计数据处理方法实现由原始数据到机器翻译模型输入数据的转换;针对现阶段基于回复式神经网络的机器翻译技术中存在的缺陷,提出新的机器翻译模型,提升机器翻译效果。主要工作如下:(1)分析应用数据的形式和数据中存在的诸多不足,提出基于语言模型和语句相似度的数据处理方法。该方法包含对原始应...  (本文共75页) 本文目录 | 阅读全文>>

内蒙古师范大学
内蒙古师范大学

单语数据在蒙汉神经机器翻译中的应用方法研究

近年来,随着深度学习的快速发展和对大规模平行语料库的使用,神经机器翻译领域的研究取得了丰富的研究成果。然而蒙汉双语训练语料库稀缺使得蒙汉神经机器翻译模型性能难以提升,本文研究了单语数据在蒙汉神经机器翻译中的应用,利用单语数据构建蒙汉伪平行语料的方式,有效缓解在蒙汉神经机器翻译任务中平行语料库稀缺问题。本文的主要工作有如下三个方面:1.提出了一种基于BERT数据增强技术的蒙汉神经机器翻译方法首先利用BERT训练中文语义相似度计算模型,然后使用该模型计算从蒙汉初始翻译模型翻译蒙古语后获得的中文译文与原始中文句子之间的语义相似度,并利用相似度选择增强的数据有效扩充了蒙汉训练语料库,最后使用扩充的训练语料库训练了基于Transformer的蒙汉神经机器翻译模型,缓解了蒙汉神经机器翻译任务中平行语料库稀缺问题。我们选择在原始蒙汉训练语料库上训练的Transformer蒙汉神经机器翻译实验作为基线实验,将基于扩充语料库训练的Transfor...  (本文共56页) 本文目录 | 阅读全文>>

《河南科技大学学报(自然科学版)》2021年03期
河南科技大学学报(自然科学版)

人工智能在机器翻译中的应用研究

针对人工智能在机器翻译中的应用现状和发展趋势,探讨了人工智能对于提高机器翻译效率、促进行业发展的新路径。首先,分析了人工智能在机器翻译行业中的发展趋势,并阐释了具体的应用方式...  (本文共9页) 阅读全文>>

武汉邮电科学研究院
武汉邮电科学研究院

基于深度学习的维汉机器翻译模型研究与应用

传统的维汉机器翻译主要是利用维汉平行语料库,基于词对齐、短语对齐的流程,完成双语词典和语言模型的训练,并且实现最终的翻译。维吾尔语是少数民族语言,也属于词素变化较为丰富的黏着语言,现实中严格意义的维汉平行语料库相对匮乏。本文针对很难获取大量的维汉平行语料库以及现有维汉机器翻译模型并未充分利用维汉语言之间共通性的问题,主要进行了两个部分的研究工作。其一,本文利用时间、空间、主题三种维度从互联网上爬取到相对多的具有一定相关性的维汉语料,通过从多个维度组织编排并构建了维汉弱平行语料库;并以此作为本文的研究基础,利用现有的神经网络技术,训练基于弱平行语料的维汉机器翻译模型,完成维汉翻译任务;其二,本文引入局部权值共享的思想对翻译模型的编码器模块进行改进,将编码器模块前5个子层参数进行共享,更好地利用了维汉语言之间语法、语义等方面的共通性。基于本文所构造的维汉弱平行语料库,通过实验训练了相应的翻译模型并开展实证分析,验证了本文所提出的模型...  (本文共72页) 本文目录 | 阅读全文>>