分享到:

汉语最长名词短语的自动识别

通过对包含 5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析 ,提出了两种有效的汉语最长名词短语自动识别算法 :基于边界分  (本文共7页) 阅读全文>>

沈阳航空工业学院
沈阳航空工业学院

汉语最长名词短语的自动识别与分析

最长名词短语作为名词短语的一个特殊类别,在句子中一般充当主语和宾语,因此自动识别出句子中的最长名词短语,不仅有助于浅层句法分析,并且最长名词短语的识别和分析对于自然语言处理领域中的许多应用研究,如信息检索、信息抽取、机器翻译等,都具有重要的应用价值。本文在分析国内外研究现状的基础上,通过对不同方法的实验对比,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法,并实现了最长名词短语的短语结构语法分析,主要工作包括以下两方面:1.最长名词短语的识别研究:首先对最长名词短语的识别任务进行了形式化描述,转化为序列标注问题,采用两种通用统计模型,最大熵和条件随机场模型分别进行了实验,对比分析后选定条件随机场作为识别系统的统计模型;在此基础上通过分析错误识别结果建立后处理规则库对识别结果进行基于规则的后处理,识别系统开放测试结果中F值达到了90.0%。2.最长名词短语的分析研究:通过对短语结构语法树的层次抽象,将其转化为层次标注问题,...  (本文共62页) 本文目录 | 阅读全文>>

南京师范大学
南京师范大学

含“的”最长名词短语的自动识别

最长名词短语的识别能够为自动句法分析、机器翻译系统提供有力的支持。以往的研究着力于短语边界的发现,而对于最长名词短语本身缺乏深入的探讨。汉语语法研究指出,多数偏正结构,可以根据是否带“的”,分为粘合式偏正结构和组合式偏正结构。从内部看,由于“的”字短语的存在,这些组合式偏正结构能够容纳更多的词类和句法结构;从外部看,两者的句法表现也有一定差别。因此,汉语最长名词短语可以进一步划分为含“的”最长名词短语和不含“的”最长名词短语。本文在全面调查含“的”最长名词短语的内部结构、句法分布、线性分布的基础上,提出了“先识别右边界,识别成果再参与左边界识别”的研究策略,系统地研究了该短语的自动识别问题。本文的研究内容主要包括两个部分:一部分是含“的”字短语的最长名词短语的自动识别,全面分析了该短语左右边界的不同特征,并基于边界分布概率的方法分别识别了其右边界和左边界;另一部分是含“的”字偏正结构的最长名词短语的自动识别,同样探讨了该短语的边...  (本文共77页) 本文目录 | 阅读全文>>

《中文信息学报》2008年06期
中文信息学报

统计和规则相结合的汉语最长名词短语自动识别

在分析汉语最长名词短语特点的基础上,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法:通过实验词及词性的不同组合选择特征集合,基于该特征训练得到条件随机场(C...  (本文共6页) 阅读全文>>

哈尔滨工业大学
哈尔滨工业大学

中文最长名词短语识别研究

名词短语是文本主要的组成部分,很好的识别出名词短语可以很大程度上帮助把握文章所表达的主要意思。而中文最长名词短语亦是如此。中文最长名词短语应用于诸多自然语言处理任务中,如信息检索、文本分类、自动文摘、指代消解等,因此对于中文最长名词短语的研究是有必要的。本文对中文最长名词短语的识别作专门的研究,分别使用了隐马尔可夫模型和条件随机域模型对中文最长名词短语进行识别。本文先使用隐马尔可夫模型对中文最长名词短语进行识别。分别使用了传统的隐马尔可夫模型和二阶隐马尔可夫模型对文本进行中文最长名词短语进行识别。因为二阶HMM考虑了前一个状态的信息,增加了可预见性,所以二阶隐马尔可夫模型的结果好于传统的隐马尔可夫模型。但是总体的试验结果并不理想。这主要是由于隐马尔可夫模型的一些自身特点造成最长名词短语识别的效果不理想。针对隐马尔可夫模型的缺点,本文使用了条件随机域模型来对最长名词短语进行识别。相对于隐马尔可夫模型较强的独立假设等缺点,条件随机域...  (本文共66页) 本文目录 | 阅读全文>>

沈阳航空工业学院
沈阳航空工业学院

基于层叠条件随机场的汉语句法分析技术的研究

汉语句法分析是中文信息处理的关键技术,是对汉语进行深层次理解的基础。句法分析性能的提高对于机器翻译、信息检索、信息抽取等应用技术性能的提高都会有巨大的推动作用。目前汉语句法分析技术还不能满足中文信息处理的要求,所以对汉语句法分析的研究具有重要的实际意义。本文提出了一种基于最长名词短语前处理的统计句法分析方法,将最长名词短语的识别与分析从句法分析中独立出来,同时使用基于语料库的统计学习方法,对汉语句法分析技术进行了探索。本文工作分三部分进行,具体内容如下:首先,进行了对最长名词短语的分析工作。最长名词短语是名词短语中最重要的一类,它的识别与分析可以更好的帮助人们理解自然语言中的句子。由于传统的句法分析对最长名词短语的处理不够理想,本文对最长名词短语进行专门处理,以降低句法分析的复杂度。根据汉语最长名词短语的句法特点,本文提出了一种基于chunk parsing的最长名词短语分析方法,有效的提高了最长名词短语的分析效果,解决了最长名...  (本文共77页) 本文目录 | 阅读全文>>