分享到:

基于枢轴语言的汉越神经机器翻译伪平行语料生成

低资源型的汉越神经机器翻译中,数据稀疏问题是影响翻译性能的主要原因,目前缓解该问题的途径之一是通过语料扩充方法生成伪平行数据,并用于机器翻译模型的训练,伪平行数据生成方法主要有基于词的替换、单语数据回译和枢轴翻译3种。目前的研究集中于3种方法的单独使用,缺少方法间融合利用方面的研究工作,针对此问题,提出了融入  (本文共9页) 阅读全文>>

昆明理工大学
昆明理工大学

面向汉越神经机器翻译的伪平行语料生成方法研究

神经机器翻译要想取得了良好的翻译效果,需要大规模的训练数据,而低资源语言由于训练数据稀缺导致其翻译性能不佳。汉语-越南语是典型的低资源语言对,训练数据不足极大的影响了汉越神经机器翻译的性能。目前利用现有小规模数据进行数据增强是提升低资源语言神经机器翻译性能较为有效的方法,当前已经有多种进行数据扩展的相关研究,例如基于词的替换、单语数据回译和基于枢轴语言三种生成式方法,但这些方法依然存在相应的问题,为了提高生成式数据扩展方式在汉越翻译任务上的应用,本文主要在以下三个方面开展了进一步的研究:(1)提出一种基于短语替换的汉越伪平行句对生成方法。考虑到汉越词级替换中易存在一词多译问题,所以对基于更大粒度的替换进行了研究,提出了一种基于短语替换的汉越伪平行句对生成方法。利用小规模双语数据进行短语抽取构建短语对齐表,并通过在维基百科中抽取的汉越实体词组对其进行扩充,在对双语数据的汉语和越南语分别进行短语识别后,利用短语对齐表中与可替换短语相...  (本文共81页) 本文目录 | 阅读全文>>

昆明理工大学
昆明理工大学

基于枢轴语言的汉越神经机器翻译方法研究

目前神经机器翻译的翻译效果,取决于训练数据的质量与规模,但是目前汉语-越南语的神经机器翻译因平行语料规模较小,导致了汉越神经机器翻译的性能不够理想。如何利用互联网中的资源丰富的语种来改善低资源机器翻译的性能是当前的研究热点之一。采用基于枢轴语言的方法可以有效利用资源丰富的语种的数据,以此提升低资源语言神经机器翻译的性能。本文利用资源丰富的语种为前提进行研究,采用基于枢轴语言的方法,将大互联网中存在着大规模的汉英、英越平行语料引入汉越神经机器翻译的训练过程中,从而提升汉越神经机器翻译的性能,本文主要在以下几个方面开展了进一步的研究:(1)汉-英、英-越、汉-越平行语料库构建。汉语-越南语是典型的资源稀缺型语言对,由于训练数据不足极大的影响了汉越神经机器翻译的性能。因此,为了提高汉越神经机器翻译任务的性能,本文主旨研究的是基于枢轴语言的汉越神经机器翻译方法研究。为了本文的实验所以构建汉-英、英-越、汉-越平行语料库是非常必要的。本章...  (本文共68页) 本文目录 | 阅读全文>>

《计算机应用》2021年06期
计算机应用

融合单语语言模型的汉越伪平行语料生成

神经机器翻译在资源丰富的语种上取得了良好的翻译效果,但是由于数据稀缺问题在汉语-越南语这类低资源语言对上的性能不佳。目前缓解该问题最有效的方法之一是利用现有资源生成伪平行数据。考虑到单语数据的可利用性,在回译方法的基础上,首...  (本文共7页) 阅读全文>>

《计算机工程与应用》2021年04期
计算机工程与应用

带标记音节的双向维汉神经机器翻译方法

近年来,基于神经网络的机器翻译成为机器翻译领域的主流方法,但是在低资源翻译领域中仍存在平行语料不足和数据稀疏的挑战。针对维-汉平行语料不足和维吾尔语形态复杂所导致的数据稀疏问题,从维吾尔语的音节特点出发,将单词切分成音节,同时融入B...  (本文共8页) 阅读全文>>

《产业与科技论坛》2021年04期
产业与科技论坛

基于神经网络机器翻译下的医学词条翻译途径研究

针对目前神经网络机器翻译质量参差不齐的状况,如何进行评测和改进显得尤为重要。鉴于此,在梳理了神经网络机器翻译发展情况以及其优势和缺陷的基础上,本文以百度神经...  (本文共3页) 阅读全文>>

《东方翻译》2021年01期
东方翻译

机器翻译素养:内涵与意义——《机器翻译与全球研究》介评

第二次世界大战结束以来,科学技术迅猛发展,学术交流日益频繁,英语作为一门通用语言(universallanguage)的地位得以确立。在自然科学领域,国际顶尖的科学引文索引(Science Citation Index,...  (本文共5页) 阅读全文>>