分享到:

机器翻译的自动评测技术

机器翻译领域最困难的任务之一就是对给定的翻译系统或者翻译算法进行评价,我们称其为机器翻译评测。由于机器  (本文共2页) 阅读全文>>

北京交通大学
北京交通大学

机器翻译评测技术研究

机器翻译评测是机器翻译领域研究的重点和难点,对研究人员、系统开发者和用户均具有重要的指导意义。但是随着机器翻译的实用化,传统的基于参考译文的自动评测方法已很难满足技术发展和广大用户的需求,因此本文提出一种无需参考译文的自动评测方法。取得的主要成果包括以下三个方面:一是着眼于译文流利度,使用n-gram语言模型计算译文困惑度的倒数,作为其流利度评分。并将该评分与人工评测结果进行比较,获得二者的相关系数为0.27。二是考察译文的忠实度,将翻译视为源语言单词转化为目标语言单词的过程,首先使用双语词典在原文与译文间构造单词对齐,得到准确率与召回率,然后计算F测度值作为译文的忠实度评分。实验结果显示该评分与人工评测结果的相关系数为0.24。三是重点比较了融合流利度、准确率、召回率三种评分的两种方式:基于网格搜索算法的融合与基于机器学习的融合。实验结果表明基于机器学习的融合效果更显著,融合后评分与人工评测结果的相关系数已超过BLEU的水平,...  (本文共59页) 本文目录 | 阅读全文>>

北京工业大学
北京工业大学

英汉机器翻译系统自动评测方法的研究与实现

机器翻译的评测对机器翻译技术的研究以及市场的推广具有重要的推动作用。评测的方法可以分为人工评测和自动评测,其中人工评测是指参照一定的标准和规范由人对机器翻译系统给出的候选译文进行评分;自动评测则是利用机器来完成这一打分过程,但要求打分的结果尽可能与人的评分相一致。本文的主要工作是对英汉机器翻译系统的自动评测方法进行细致的分析和研究。传统的机器翻译自动评测方法有很多,其中主要包括三种:BLEU、NIST、WER。BLEU的基本思想是通过统计翻译系统给出的候选译文和参考译文中共现n元词的个数和精度来计算评价分数。NIST在BLEU方法的基础上,提出了另外一种基于共现n元词的统计方法,它认为如果一个n元词在参考译文中出现的次数越少,那么该n元词包含的信息量就越大,就应该赋予更高的权重。WER方法的实质是通过对候选译文到参考译文之间的编辑距离进行某种归一化处理来对翻译系统的性能进行自动评测。尽管这三种方法给出的评测结果常常能够达到令人满...  (本文共60页) 本文目录 | 阅读全文>>

沈阳航空工业学院
沈阳航空工业学院

基于短语的统计机器翻译系统的研究与应用

机器翻译是自然语言处理领域中的一个热点和难题,机器翻译的研究对国际间交流合作、学术上和商业上都具有十分重要的理论和实践意义。本文在调研了国内外机器翻译研究历史与现状的基础之上,分析了目前统计机器翻译的相关理论,实现了一个统计机器翻译系统,并将其应用于航空领域标题的翻译,取得较好的翻译效果。本文的创新点在于整合了国际上一些公开的工具,改进了翻译模型模块,搭建了一个基于短语的统计机器翻译系统。从语料的预处理,模型参数的训练,翻译过程的执行,到最后翻译结果的自动评测,实现了一个完整的翻译流程。主要的工作包括以下几个方面:第一,语料的预处理。语料的加工程度直接影响翻译结果。统计机器翻译通常都采用双语语料,本文分别对中英文两种语言的语料进行了预处理。第二,在对统计机器翻译的相关理论进行了研究的基础之上,利用一些现有的资源和工具,补充了短语翻译模型模块,实现了一个基于短语的统计机器翻译系统。并介绍了系统工作的基本原理,系统实现,系统运行环境...  (本文共58页) 本文目录 | 阅读全文>>

内蒙古大学
内蒙古大学

基于词缀特征的汉蒙统计机器翻译系统

在当今世界,随着信息的急剧增加,国际交流的日趋频繁,机器翻译的潜在需求越来越大。机器翻译方法按照其使用理论不同可以分为基于规则的、基于语料库的和混合翻译方法三种。不同的机器翻译方法有各自的优点和局限性。基于规则的方法可以很准确的描述语言特征规律,但是它很难覆盖所有的语言现象;基于实例的方法译文质量非常高,但是命中率非常低,对语料库的要求也非常严格;统计翻译方法可以缓解知识获取的瓶颈问题,但是它所采用的N元语法模型无法解决长距离依存问题,并且还存在着语料库标注体系不完善、语料库数据稀疏等问题。因此不管采用哪种翻译方法,总是不能取得理想的效果。所以基于混合策略的机器翻译方法成为当今机器翻译研究的焦点,从而可以避免每种翻译方法的不足,达到翻译结果的最优化。由于蒙古语属于黏着语,它的构词和构形都是以词根、词干上连接不同的词缀来完成的,从句子的基本语序看,属于SOV(主宾谓)型语言。单从译文方面来分析,词形变化方面的错误以及句子语序混乱问...  (本文共60页) 本文目录 | 阅读全文>>

沈阳航空航天大学
沈阳航空航天大学

对齐技术的研究及其在译文自动评测中的应用

进入21世纪以来,随着Internet等基础设施的迅速发展,以及信息产业的快速发展,世界经济一体化进程空前加速,世界的联系日益紧密,在这种浪潮下,人们对获取用非母语表达的信息和知识的需求空前增长,以跨语言检索和机器翻译为代表的相关研究成为了新的热点。词语对齐技术就是这样一种从现有的语言资源中通过学习的方式找到词汇级的对译关系,是机器翻译的一个基础的课题,也是自然语言处理领域一个非常有用而又比较困难的研究课题。本文在对当前主流的词对齐方法进行实验分析的基础上,综合考虑了各种因素,提出了基于启发式统计规则和词典相结合的方法,该方法充分利用现有资源,同时考虑到了后续的应用问题。实验表明,该方法在训练语料规模较小的情况下,取得了较好的对齐结果。自从上世纪80年代以来,由于机器翻译有了一定的科研基础,开始出现了一些实用性的翻译系统。机器翻译的研究开始面向应用,尤其是最近十几年,统计机器翻译获得了长足的发展,标志着机器翻译进入了一个崭新的阶...  (本文共57页) 本文目录 | 阅读全文>>