分享到:

中文词的自动办理

本文综述了中文词处理方面的进展,并系统地科学地提出了最新的分词算法思想:利用切割标志,将中文切割成一些词段  (本文共11页) 阅读全文>>

《心理科学》1991年05期
心理科学

中文词认知研究综述

词是语言的建筑材料。由于语言在人类社会生活和人的心理发展中的重要作用,词成为传递信息的一种重要工具。词的心理学研究一直就是心理学家热衷的课题。中文词的心理学研究,可以说自1916年刘廷芳于美国哥伦比亚大...  (本文共6页) 阅读全文>>

中国科学技术大学
中国科学技术大学

基于深度学习的中文词表示学习技术研究

随着中国国力的日益增强,中文信息处理(CLP,Chinese Language Processing)受到越来越多的重视。目前基于深度学习的自然语言处理的研究主要集中在字母语言(Alphabetic Language)领域,中文基于深度学习的自然语言处理方法大多借鉴自字母语言。无论在词法、句法、语义等不同的层面上,还是在词汇、短语、句子和篇章等不同的语言单位上,中文与英语等字母语言相比即有共性也存在差异。字符级(Character-level)信息处理方法能够有效解决未登录词(Out of Vocabulary)问题和低频词(Low frequency Words)问题,现阶段中文信息处理并没有将处理粒度拆分到足够细的程度,因此中文依然面临未登录词和低频词的困扰。由于汉字种类繁多,无法与其他字符进行统一处理。由于汉字编码的问题,数据处理开销较大。本文通过对中文词的构造特性以及汉字内部特征,构造了中文特有的基于笔画的中文词向量表示...  (本文共115页) 本文目录 | 阅读全文>>

北京邮电大学
北京邮电大学

中文词向量表示学习研究

文本表示是自然语言处理中的基础工作。传统的独热表示存在稀疏问题且不能抓住词之间的语义关系。分布式语义表示利用连续空间内的低维稠密向量来表示词,解决了传统独热表示的问题,已经成为了自然语言处理中最常用的词表示方法。中文作为一种表意文字,它有着独特的语言特点。本文对中文词向量表示学习的方法进行了系统的总结分析,并提出了改进的词向量表示技术,具体工作如下:一、中文词向量表示技术对比分析。本文对现有的流行的中文词向量表示方法进行了系统的理论分析与实验对比:已有的中文词表示模型忽略了不同词对上下文语义有不同程度的语义贡献且次词语素去歧的方法存在较大的局限性;综合了多种评估方法对词向量进行了全面的定量实验评估,并对提出的改进模型作了详细的定性分析。二、基于多种Attention的联合训练词向量表示模型。本文联合了词、字、字的组件等多种粒度的语素信息,提出了基于多种Attention的多粒度语素联合训练的词表示模型:利用Self-Attent...  (本文共66页) 本文目录 | 阅读全文>>

大连理工大学
大连理工大学

基于神经网络的中文词表示方法研究

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,词的语义表示是自然语言处理中的基础工作,传统的one-hot表示方法,把每个词表示为一个很长的01向量,这种方法仅仅将词符号化,不能捕捉任何语义信息。随着深度学习和表示学习的发展,基于神经网络的分布式词表示技术得到了越来越多的关注。分布式词表示,即词嵌入,将词表示为低维实值向量,这种方法不仅可以捕获词的语义信息,同时也能解决词的歧义问题。现有的中文词表示技术大多直接沿用英文的解决思路,直接基于词的层面建模。然而不同于英文,中文词常常由多个字组成,中文词的语义信息也通常由词的内部字及其上下文共同决定。考虑到中文的特点,最近的一些研究也证明了词的内部字对中文词表示有很好的提升作用。本文同时考虑词的内部字及其上下文字信息,提出了一个新的基于字词联合训练的中文词表示模型ECWE。该模型通过对加强对汉字的有效建模,使得汉字之间以及汉字同词之间的关系得到加强,同时丰富了词的上下文信...  (本文共58页) 本文目录 | 阅读全文>>

《济宁学院学报》2017年05期
济宁学院学报

大数据环境下中文词库动态更新系统模型研究

文本分词以及语义相似度地计算大都依赖于中文词库,而网络的飞速发展产生了很多未收录词库的新词,进而影响了分词的效果和相似度计算...  (本文共4页) 阅读全文>>