分享到:

基于CRF的英文命名实体识别研究

命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别就是要判断一个字符串是否代表一个命名实体,并确定它的类别,即发现命名实体和标注命名实体。命名实体识别的研究广泛应用于诸多自然语言处理任务中,如机器翻译、文本分类、信息检索和自动文摘等,所以它的研究成果必将推动自然语言处理领域的相关研究。本文主要对英文命名实体识别进行了研究。分别利用了改进的隐马尔可夫模型(Hidden Markov Model , HMM)和条件随机域模型(Conditional Random Field, CRF)两种方法进行英文命名实体的识别,并对实验结果进行了分析。本文首先使用改进的HMM模型对英文命名实体识别进行了实验。通过对结果的分析,发现虽然其效果要比传统的HMM模型有明显的提高,但是对文本中的上下文信息、词汇的语义信息等各种特征的结合能力还不是很理想。然后本文使用了条件随机域模型结合多种特征的方法对英文命名实体识别进行了实验。通过对特  (本文共57页) 本文目录 | 阅读全文>>

哈尔滨工业大学
哈尔滨工业大学

统计机器翻译中命名实体处理研究

随着信息技术的发展,不同语言之间的沟通和交流变得越来越重要,在此背景下机器翻译等自然语言处理技术得到长足发展。作为当前研究热点之一,命名实体识别及翻译技术正广泛应用于诸多自然语言处理任务中,如机器翻译、信息检索、文本分类以及自动文摘等。在机器翻译中命名实体的识别和翻译也成为影响机器翻译性能的重要因素之一。本文主要针对统计机器翻译中的命名实体识别和翻译进行了研究,针对层次短语统计机器翻译模型中结合语言知识的规则抽取改进方法进行了探讨,然后提出了结合命名实体识别和翻译的规则抽取改进方法。具体研究内容主要包括以下几个方面:1.研究并实现了基于条件随机域的实体类命名实体识别方法,该方法将命名实体识别看作一个序列标注问题,利用条件随机域算法分别训练出英语和汉语命名实体识别模型,然后使用该模型进行命名实体识别。实验表明,这种方法取得了较好的识别准确率。2.提出了命名实体翻译的总体框架,将实体类命名实体识别和翻译与数字和时间表达式识别和翻译联...  (本文共83页) 本文目录 | 阅读全文>>

湖南大学
湖南大学

中文电子病历信息提取方法研究

信息技术的迅猛发展推动了医院信息化建设,国家政策的支持为电子病历系统等相关医学信息系统的建立奠定了坚实的基础,系统的普及带来了海量的医疗数据,其中电子病历受到广泛关注。电子病历是在医疗活动过程中产生的重要临床信息资源,包含了大量与患者健康状况密切相关的医疗知识,从电子病历中抽取有用的信息将大大推动医疗事业的发展。本文首先介绍电子病历信息抽取的国内外研究现状,然后对电子病历信息抽取进行了概述,分析了中文电子病历的语言和结构特点并总结了信息抽取的主要方法,并在此基础上提出了一种中文电子病历命名实体识别方法和一种实体修饰识别方法。本文的主要工作如下:(1)设计了一种CRF和规则相结合的中文电子病历命名实体识别方法。首先,针对目前可用于研究且公开的电子病历数据集匮乏的问题,本文从互联网上收集整理了 200份大内科下的典型电子病例,基于《中文电子病历命名实体和实体关系》标注规范,组织人力对病例中的实体和实体的修饰类型进行了标注。然后提出了...  (本文共74页) 本文目录 | 阅读全文>>

战略支援部队信息工程大学
战略支援部队信息工程大学

英文武器装备名构造规律与自动识别研究

军事文本的自动化处理是军事信息化的重要组成部分,军事类命名实体识别是军事文本自动化处理的基础性工作,英文武器装备名就是一类重要的军事类命名实体。英文武器装备名构成成分种类复杂,构成模式数量繁多,再加上军事领域标注语料的稀缺,使得英文武器装备名识别较为困难。同时,英文武器装备名具有明显的领域特征,可以为英文武器装备名自动识别提供支持。本文以英文武器装备名自动识别为具体任务,论证领域特征在特定领域实体识别中的有效性。本文主要研究内容和创新点如下:(1)本文首先展开对英文武器装备名的构造规律研究。在揭示英文武器装备名这一特定语言现象命名规律的同时,得到了英文武器装备名构成要素词典与构成模式集两大领域知识库。在两大领域知识库的支持下,本文设计了规则识别算法分别对英文武器装备名词条与文本中的英文武器装备名进行识别。前者的目的在于验证本文构建的英文武器装备名构成成分分类体系的描写能力,以说明本文英文武器装备名构造规律研究的科学性;后者的目的...  (本文共104页) 本文目录 | 阅读全文>>

南京师范大学
南京师范大学

中文命名实体识别与浅层句法分析研究

命名实体识别和浅层句法分析是中文浅层分析的两个基本问题,它们是许多自然语言处理任务的基本要求,如句法分析、信息抽取和机器翻译等。近些年来,对这两个基本问题的研究受到了广泛的关注,有多种不同的模型与方法先后被提出。然而,现有的大多数解决方案都是基于序列化标注的模型和方法。序列化标注方法的一个重要不足是许多有用的片段层(segment-level)的特征在模型中并不能自然地加以应用,从而制约了模型的表达能力。基于当前的研究现状,本文提出应用一种新的联合切分与标注学习算法(以下称“联合学习算法”)实现命名实体识别和浅层句法分析任务,并探讨了各种有效的片段层特征的应用。本文的工作可以概括为以下两个方面:(1)本文提出了采用联合学习算法进行中文命名实体识别,利用感知器和beam-search算法实现了命名实体识别联合分析方法,将命名实体的边界确定和实体类别确定以及分词看成是一个联合任务,这样使得信息可以在各个子任务之间共享,同时允许有效的...  (本文共72页) 本文目录 | 阅读全文>>

广西民族大学
广西民族大学

基于CRF的古籍地名自动识别研究

命名实体识别是自然语言处理的重要内容,它的研究和实现具有重要的理论意义和实用价值。但目前这方面的研究多集中在现代文献领域,古籍中命名实体的识别是古典文献信息化进程中的关键所在,是一个值得探索研究的问题。本文以《三国演义》为例对基于条件随机域(Conditional Random Fields,CRF)的古籍地名自动识别做了一些探索,本文的结构和主要内容安排如下:第一章、绪论首先说明了本文研究的目的、意义。再围绕本文中心任务介绍了相关的基础理论和研究背景,主要是自然语言理解的含义和思想,还简述了古代文献电子信息化的研究现状和前景。第二章、命名实体的识别及其方法先引出命名实体识别这个问题,然后介绍了命名实体识别的意义和方法,重点在基于统计的方法。第三章、CRF模型CRF模型是本文中研究古籍地名自动识别的主要方法,本章就是从理论上对CRF模型的介绍,重点讨论了该模型应用于命名实体识别时的情况。第四章、基于CRF模型的古籍地名自动识别—...  (本文共55页) 本文目录 | 阅读全文>>