分享到:

非独立同分布词语相关度计算方法研究

词语相关度计算,即度量两个词语表达意义的近似程度。它是自然语言处理领域的一项基础性研究,对文本分类、自动问答、词义消歧、机器翻译等上层任务有着重要的影响。词语的表示学习是词语相关度计算中一项基础而核心的工作,获取高质量的词语表示是提高词语相关度计算结果的有效方式。本文试图从提高词语的表示学习质量这一角度出发进行相关研究,在非独立同分布学习理论(not independent and identically distributed learning,简写non-IID learning)的指导下,充分挖掘概念之间的耦合关系,生成高质量的概念向量,再通过概念映射将词语与概念关联起来,利用概念向量计算词语相关度,进而改善文本分类、自动问答等上层应用的效果。本文的主要工作和贡献体现在下述三个方面:(1)针对传统的词语相关度计算方法混淆语义概念信息且忽视概念耦合关系的问题,本文提出了基于非独立同分布学习的词语概念表示方法和词语相关度计算方  (本文共71页) 本文目录 | 阅读全文>>

北方工业大学
北方工业大学

中文短文本分类方法的设计与实现

近年来随着互联网的快速发展,网络信息呈现出飞速增长的趋势,其主要表现形式为短文本。如何从中找到有价值的信息并对其进行准确分类已成为学者们关注的焦点。短文本具有字数少,维度高等特性,无法照搬长文本分类方法。针对这些问题本文对短文本分类的相关技术展开研究。首先设计了短文本特征扩展算法STFE,使短文本的有效特征增多再进行分类其准确性有一定提升。然后提出CAS-CNN网络结构,在词向量层引入注意力机制,从不同角度丰富词向量的特征,从而提升分类效果。具体研究工作有以下三点:(1)提出了短文本频繁特征词集挖掘算法SP-Apriori,解决了单机模式下Apriori算法挖掘频繁特征词集效率低的问题。该算法结合Spark的优点,降低SP-Apriori算法执行的时间并提高了挖掘频繁特征词集的效率。(2)提出了采用频繁特征词集的短文本特征扩展算法STFE,缓解了短文本特征不足的问题。首先采用SP-Apriori算法挖掘语料库的频繁特征词集,筛选...  (本文共67页) 本文目录 | 阅读全文>>

西安理工大学
西安理工大学

基于特征向量构建的文本分类方法研究

文本是多样信息的来源,由于其非结构化特性,从中获取见解耗时过多且相对困难。文本分类是自然语言处理领域中的经典主题,是根据内容分配预定义标签或类别的过程。神经网络作为处理文本分类的主流技术,是一种自动化预测分析方法。基于神经网络模型来构建特征向量的文本表示方法能够准确获取词义、语义信息,但易呈现高稀疏性,且文本分类模型中针对特定情况常会出现分类性能不佳的情况。面对上述问题,本文进行了如下研究:(1)文本表示方面。针对GloVe模型在词向量表示训练过程中存在大批量无关词的问题,本文提出了一种基于WT-GloVe的词向量加权模型。首先,借助基于词间距和类间贡献度的特征加权算法进行特征词提取;其次,根据GloVe模型的自身缺点提出了一种过滤无关词方法,以提高词向量训练质量;最后,结合基于词间距和类间分布的特征加权算法以及无关词过滤后的GloVe共同生成了加权词向量模型,有效获取特征词的重要程度及语义信息,构成新的词向量加权模型。实验结果...  (本文共70页) 本文目录 | 阅读全文>>

《计算机应用研究》2017年04期
计算机应用研究

基于自身特征扩展的短文本分类方法

短文本具有特征稀疏、描述概念信号弱等特点,传统方法对短文本进行分类很难取得较好结果。针对上述问题,提出了一种基于自身特征扩展的短文本分类方法 SC...  (本文共3页) 阅读全文>>

《计算机工程与设计》2017年08期
计算机工程与设计

利用类-项权重和类-项密度的文本分类方法

为获得更加准确的文本分类结果,讨论分类器对文本分类的影响,提出一种基于类-项权重和类-项密度的文本分类方法,使用SVM和k-NN分类器进行研究。类-项权重是指包含项的文件总量与包含项的类文件总量的比率,类-项密...  (本文共5页) 阅读全文>>

《计算机与网络》2012年17期
计算机与网络

网络的简监督文本分类方法

传统的基于规则或统计的文本分类方法存在许多问题。本文利用词语相关度网络提供的大量词语语义知识设计一种"简监督"文本...  (本文共3页) 阅读全文>>