分享到:

基于词缀特征的汉蒙统计机器翻译系统

在当今世界,随着信息的急剧增加,国际交流的日趋频繁,机器翻译的潜在需求越来越大。机器翻译方法按照其使用理论不同可以分为基于规则的、基于语料库的和混合翻译方法三种。不同的机器翻译方法有各自的优点和局限性。基于规则的方法可以很准确的描述语言特征规律,但是它很难覆盖所有的语言现象;基于实例的方法译文质量非常高,但是命中率非常低,对语料库的要求也非常严格;统计翻译方法可以缓解知识获取的瓶颈问题,但是它所采用的N元语法模型无法解决长距离依存问题,并且还存在着语料库标注体系不完善、语料库数据稀疏等问题。因此不管采用哪种翻译方法,总是不能取得理想的效果。所以基于混合策略的机器翻译方法成为当今机器翻译研究的焦点,从而可以避免每种翻译方法的不足,达到翻译结果的最优化。由于蒙古语属于黏着语,它的构词和构形都是以词根、词干上连接不同的词缀来完成的,从句子的基本语序看,属于SOV(主宾谓)型语言。单从译文方面来分析,词形变化方面的错误以及句子语序混乱问  (本文共60页) 本文目录 | 阅读全文>>

新疆大学
新疆大学

基于统计机器翻译的汉维词对齐研究

词对齐技术的研究在自然语言处理领域中对语料库的建设、语音识别、双语词典的编撰、信息检索等提供基础性建设。目前,汉英词对齐技术的研究已取得了准确率90.0%,召回率88.2%的成果,然而汉维词对齐技术的研究起步相对较晚。本文的主要工作就是研究句子一级的汉维词对齐,采用的基于噪声信源信道模型的统计机器翻译方法。本文利用IBM Model1-3和Och的Heuristic优化算法构建一个基于统计机器翻译的汉维词对齐系统。系统分为两个模块:预处理模块和词对齐模块。词对齐过程是:首先利用IBM Model1-3实现句子对齐一级的汉维一对一和一对多等词对应关系,然后结合Och等人提出的Heuristic优化算法,实现汉维多对一和多对多词对应关系。实验结果表明该方法可行,达到了初级阶段所预期的,对后续汉维词对齐技术研究提供了有力的平台。  (本文共51页) 本文目录 | 阅读全文>>

《现代图书情报技术》2012年04期
现代图书情报技术

统计机器翻译中文分词优化技术研究

研究分词在统计机器翻译中的影响因素,分析不同分词对机器翻译词...  (本文共6页) 阅读全文>>

《中文信息学报》2011年04期
中文信息学报

汉蒙统计机器翻译中的调序方法研究

在基于短语的汉蒙统计机器翻译系统的研究中,我们发现存在着严重的语序错误。该文在对汉语和蒙古语句子语序进行研...  (本文共5页) 阅读全文>>

《计算机工程与应用》2010年14期
计算机工程与应用

基于短语的汉蒙统计机器翻译研究

基于短语的统计机器翻译是当前统计机器翻译的主流方法。研究了利用现有技术和资源搭建一个基于...  (本文共5页) 阅读全文>>

上海交通大学
上海交通大学

连续空间模型下的统计机器翻译

自然语言(人类语言),是指一个基于文化特点的,用于正式场合正式场合的交流系统[1]。自然语言处理(计算语言学)是指应用于学习、理解和产生自然语言的计算技术[2]。统计机器翻译是指利用机器学习为主要手段,用统计的方法来将一种语言翻译成另一种语言。作为目前自然语言处理中最流行的方向之一,区别于基于规则的机器翻译,其翻译范式是基于统计模型对平行双语语料的分析。其中,基于短语的机器翻译长时间被认为是最为有效的机器翻译方法。近年来,随着计算机性能的提升,以神经网络为代表的基于连续空间的机器翻译开始流行,在不同方面提升了机器翻译的表现:比如语言模型,翻译模型和一体化端对端的机器翻译模型等。虽然连续空间模型在机器翻译中得到了效果的提升,但是其也有显著的缺点,其中最为代表性的是:1)由于采取了非线性的模型,虽然很多工作着力于优化相应模型,但是训练和运算时间相对于线性模型仍然较慢。2)以神经网络模型为代表的连续空间模型往往采用特征自动学习的方法,...  (本文共127页) 本文目录 | 阅读全文>>