分享到:

基于决策树和K最近邻算法的文本分类研究

文本分类是文本挖掘的重要内容,是对信息的一种最基本的认知形式。目前的文本特征降维算法、改进或创造适应文本数据的分类算法、抽取文本分类规则等方面的研究仍远远不能满足实际的需要。本文主要研究了文本特征空间的降维问题、利用决策树抽取文本分类规则问题和改进KNN算法以适应文本分类问题。本文提出了三种特征降维方法:一种是基于模式聚合和改进χ~2统计量的文本降维方法,有效地降低文本维数并可提高分类精度;一种是基于CHI值原理和粗糙集理论的属性约减的文本降维方法,据此提出的基于决策树的文本分类规则获取方法,可获得分类精度较高且易于理解的文本分类规则;第三种是基于神经网络的特征抽取方法,此方法根据灵敏度将特征进行排序,采用二分法的方式去掉部分特征,降低了神经网络特征提取的计算量。本文提出了两种基于模糊决策树的模糊文本分类规则抽取方法。第一种方法采用分枝合并减少了分类规则,第二种方法提出了一种基于类信息熵和密度分布函数的数据模糊化方法,降低了数据  (本文共127页) 本文目录 | 阅读全文>>

《出土文献》2012年00期
出土文献

清華簡文本復原——以《清華大學藏戰國竹簡》第一、二輯為例

狹義的文本指由書寫(或印刷等)而固定下來的任何話語,是語言的實際運用形態。文本通常具備載體、符號、内容三個要素。清華簡是戰國末期產生的文本,其形態爲竹質...  (本文共9页) 阅读全文>>

《现代传播(中国传媒大学学报)》2019年11期
现代传播(中国传媒大学学报)

召唤、整合与摧毁:群体传播时代网络叙述的副文本

网络叙述的副文本虽处于正文本的周边位置,属于正文本的辅助性文本,但却通过叙述空白策略对正文本的内容和意义产生召唤、整合与摧毁的叙述效用。副文本可使网络叙述从个体...  (本文共4页) 阅读全文>>

《复旦学报(社会科学版)》2020年01期
复旦学报(社会科学版)

古义、真义与大义:以诠释范式为中心看中国古代思想文本的意义生成

中国哲学史的研究是在传统的思想文本中发现和汲取面对当代学术问题的思想资源,重新诠释当代学术问题的内涵与思考进路,从而实现从传统到当下的连接,说明不同世代的思想体系的共同基础。因此,哲学史就是不断向传统思想文本的回归,而具体哲学研究工作则是围绕着对思想文本的解说和分析展开的。思想文本的诠释者是以"本义"或"真实内涵"为目标的文本分析,并有意或无意地完成自身思想观念的表达。在关于文本存在着"原初内涵"、"思想...  (本文共8页) 阅读全文>>

《计算机应用》2019年S2期
计算机应用

广义文本情感分析综述

近年来,随着互联网、社交媒体、电子商务以及移动终端的高速发展,越来越多的人将自己的观点、心得、意图和评论分享到互联网上,可获取的带有情感倾向性的文本数据急剧增加,文本情感分析也越来越受到研究者的关注。主要从广义的文本情感分析的研究背景和研究价值入手,对当前国内外研究现状进行分析。首先,介绍广义文...  (本文共9页) 阅读全文>>

《语文建设》2020年03期
语文建设

非连续性文本教学要聚合与实用

非连续性文本由"国际学生评估项目"(简称PISA)提出,是相对于以句子和段落组成的连续性文本而言的阅读材料。...  (本文共4页) 阅读全文>>