分享到:

基于词联接的自然语言处理技术及其应用研究

随着人类社会信息化程度和计算机软硬件水平的提高,自然语言处理(NaturalLanguage Processing,简称NLP)技术逐渐成为计算机应用和人工智能研究的热点,其基本技术目标是让计算机具有类似人的语言智能,例如能够象人一样听、说、读、写。围绕NLP技术逐渐形成了一个专门的学科——计算语言学。该学科属于交叉学科,涉及到语言学、心理学、心理语言学、脑科学、计算机科学、哲学、逻辑学、人工智能、数学、信息论、文学、美学等诸多学科或领域。从上个世纪中叶以来,虽然不同学科和领域的无数研究者投入了大量的研究资源,探索出了一些有效的技术,取得了一定的成果,但离实现基本技术目标还显得非常遥远。值此世纪之初,有必要从更高、更深的层面重新审视NLP技术的研究背景、目标和途径,在继承现有技术的基础上大胆创新,探索出切实可行、面向未来的新技术。本文在这个方向上作出了努力,以抛砖引玉,促进NLP技术的发展。在国家自然科学基金项目“计算机辅助文学  (本文共140页) 本文目录 | 阅读全文>>

复旦大学
复旦大学

最大熵方法及其在自然语言处理中的应用

近年来,计算机技术得到了飞速的发展,机器的存储量越来越大,运算速度越来越快,而价格却越来越便宜,这样的客观条件推动了基于语料库的统计自然语言处理方法成为目前自然语言处理研究领域的一个热点。最大熵方法是一种基于统计的机器学习方法,近10年来,成功应用于自然语言处理的许多领域,并且都接近或达到最佳水平。所谓最大熵方法就是遵循最大熵原则建模,也就是选择这样的一个统计概率模型:在满足约束的模型中选择熵最大的那个。最大熵方法的优点在于它有简单的哲学原理以及数学推理作为基础,在最大熵模型这个统一的框架下,非常方便的使用多种特征,而且特征之间没有独立性假设,模型表达能力强。它的缺点是训练速度非常慢,耗资源。在这篇论文中,我们首先介绍最大熵方法的基本原理,数学推导和基本算法。然后分别从训练和执行两个方面提出快速方法:选择性增益计算方法和稀疏特征树方法。选择性增益计算是一种快速的特征选择方法,它能使特征选择的速度提高2到3个数量级。稀疏特征树是一...  (本文共91页) 本文目录 | 阅读全文>>

重庆大学
重庆大学

计算机辅助诗词创作中的风格辨析及联语应对研究

作为中国文化传承和精美艺术品的诗词曲联作品,在信息时代面临着重新整理和信息挖掘的问题,而立足于当代,需要运用信息处理工具进行深入分析和智能模拟,由于语料库技术和机器学习技术的发展,解决了海量数据的结构化存储和机器自动处理的问题。在机器学习的框架下,传统诗词的问题得到探索分析的条件已经初步具备,相对而言传统的文学分析能在信息技术的提携下,获得处理理念和视角上的一次更生,使得海量而又错综棘手的古典文学分析研究,在机器辅助下,其结果更加易懂明了,其处理更加自动化。本文是在国家自然科学基金项目“计算机辅助文学艺术创作——诗词曲联(上)(项目编号60173060)的支持下,进行的是应用驱动型的研究,即“诗词风格的机器评判和联语(对仗)语句的生成”。在本文的研究中,对诗词采用向量空间模型表示,并用基于机器学习中的Na?ve Bayes 等方法,首次提出了古典诗词的豪放和婉约风格辨析计算模型,并用遗传算法等方法对模型进行改进,取得较好的诗词风...  (本文共127页) 本文目录 | 阅读全文>>

西南交通大学
西南交通大学

基于场景化知识表示的自然语言处理及其在自动文本校对中的应用

自然语言处理就是用计算机处理自然语言,以理解自然语言中表达的知识和含义,或者将知识用自然语言表达出来。因而综合知识表示的自然语言模型是自然语言处理研究的一个核心问题。然而目前尚缺乏一种从知识的语言表达的角度而设计的自然语言模型。本文从分析人使用语言表达知识的自然过程出发,提出了一种知识语言表达的总体模型,并据此提出了场景化知识表示体系。同时,将该语言模型和知识表示体系应用于基于语义的特殊领域文本校对中,取得了良好的效果。我们认为,人使用自然语言表达其认知的一个核心步骤是提取认知中的关键信息。这些关键信息同样也是人进行逻辑思考的基础。我们分析了自然语言表达知识时所需要的各类关键信息,并采用场景的形式来组织这些信息,从而形成了场景化知识表示的结构。从知识中提取出关键信息被称为知识的场景化分析。它主要包括三个步骤,即:组成识别、特征识别和场景识别。它们分别提取出知识的组成信息、知识的组成元素的特征信息以及它们在特定场景中的角色信息。在...  (本文共155页) 本文目录 | 阅读全文>>

北京邮电大学
北京邮电大学

汉语指代消解及相关技术研究

大量出现在篇章或者对话中的指代,是自然语言中常见的语言现象,它使得句子更加简明,主题更加鲜明突出,但这也给计算机理解自然语言增加了难度。指代消解就是为解决这一问题而形成的文本信息处理中的一个重要任务分支。随着篇章处理的相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理领域的研究热点。它在信息抽取、机器翻译、自动文摘、问答系统等许多自然语言处理应用领域中发挥着重要作用。本文针对汉语指代消解及相关技术,包括汉语基本名词短语识别、机器学习等进行了深入系统的分析和研究,主要取得的成果如下:1、提出了一种基于规则的汉语基本名词短语识别算法——基于扩展词性模板算法。该方法通过对基本名词短语上下文环境中词汇的统计和分析,将词性模板和上下文环境信息构成扩展词性模板,用扩展词性模板对标注结果进行修正。由于采用的扩展模板较为合理和准确,使得识别的正确率达到94.48%。2、提出了一种基于规则和统计相结合的汉语基本名词短语识别算法...  (本文共111页) 本文目录 | 阅读全文>>

中国科学院研究生院(计算技术研究所)
中国科学院研究生院(计算技术研究所)

汉英双语语料库自动对齐研究

自然语言处理是对自然语言的形、音、义等信息进行操作和加工的一门学科。当今社会,随着计算机的日益普及,信息化程度的日益提高,人类交流的日趋频繁,对自然语言理解技术的需求也越来越大。自然语言处理包括两种基本的研究方法:理性主义研究方法和经验主义研究方法。根据它们在实际的自然语言处理中的不同表现,它们又通常可以称为基于规则的方法和基于语料库的方法。由于这两种方法之间可以取长补短,所以将这两者相结合成了当前自然语言研究的趋势之一。具体地,这种趋势表现为,许多研究开始着重于从大规模语料库中抽取语言知识的规律,然后利用这些规律来指导自然语言处理的过程。根据所含语言种类的多少,语料库可以分为单语语料库和多语语料库。前者只含有单独的一种语言的文本,而后者却含有多种语言的对照互译文本。多语语料库中最典型的就是包含两种语言互译文本的双语语料库。由于双语语料库含有两种语言之间的互译对照信息,因此它对于这两种语言之间双语方面的自然语言处理具有极其重要的...  (本文共142页) 本文目录 | 阅读全文>>