分享到:

基于模式聚合和决策树的文本分类规则抽取

本文首先提出一种改进的χ2统计量,以此衡量词条对文本分类的贡献。然后根据模式聚合理论,将对各文本类分类贡献比例相近似的词  (本文共5页) 阅读全文>>

天津大学
天津大学

基于决策树和K最近邻算法的文本分类研究

文本分类是文本挖掘的重要内容,是对信息的一种最基本的认知形式。目前的文本特征降维算法、改进或创造适应文本数据的分类算法、抽取文本分类规则等方面的研究仍远远不能满足实际的需要。本文主要研究了文本特征空间的降维问题、利用决策树抽取文本分类规则问题和改进KNN算法以适应文本分类问题。本文提出了三种特征降维方法:一种是基于模式聚合和改进χ~2统计量的文本降维方法,有效地降低文本维数并可提高分类精度;一种是基于CHI值原理和粗糙集理论的属性约减的文本降维方法,据此提出的基于决策树的文本分类规则获取方法,可获得分类精度较高且易于理解的文本分类规则;第三种是基于神经网络的特征抽取方法,此方法根据灵敏度将特征进行排序,采用二分法的方式去掉部分特征,降低了神经网络特征提取的计算量。本文提出了两种基于模糊决策树的模糊文本分类规则抽取方法。第一种方法采用分枝合并减少了分类规则,第二种方法提出了一种基于类信息熵和密度分布函数的数据模糊化方法,降低了数据...  (本文共127页) 本文目录 | 阅读全文>>

东北大学
东北大学

基于决策树中文文本分类技术的研究与实现

随着互联网技术的迅速发展,网上的文档数据在飞速增长,在这些海量的Web结构页面中蕴藏着巨大潜在价值的知识,如何快速、有效地发现潜在知识,成为数据挖掘技术一个重要的研究方向。文本分类是Web知识发现的一项重要的内容。有了文本分类的工具,用户可以更加方便地阅览Web内容,而且通过限制搜索范围,可以在互联网上尽快查找自己感兴趣的内容。文本分类是对信息的一种最基本的认知形式。目前的文本特征降维算法、改进或创造适应文本数据的分类算法、抽取文本分类规则等方面的研究仍远远不能满足实际的需要。本文主要研究文本特征空间的降维问题、决策树分类算法、决策树剪枝及利用决策树抽取文本分类规则等问题。本文对文本分类中所涉及的特征降维方法、决策树分类、剪枝、文本抽取规则进行了研究。首先,针对文本特征降维提出了一种基于模式聚合和改进卡方原理的降维方法,有效地降低文本维数并提高了分类精度;其次,在决策树常用C4.5分类算法上提出了新的DC4.5分类算法,同时也对...  (本文共69页) 本文目录 | 阅读全文>>

天津大学
天津大学

基于粗糙集的数据及文本挖掘方法研究

数据挖掘和文本挖掘是当前信息技术中的一个重要研究领域;将软计算方法之一的粗糙集理论应用于数据及文本挖掘方法研究,具有较大的理论意义和实用价值。本文研究了基于粗糙集的数据挖掘和文本挖掘方法,主要包括数据挖掘和文本挖掘中的属性约简问题、聚类问题;文本挖掘中的分类规则抽取问题;以及粗糙集同模糊集相结合的数据挖掘方法。所做主要工作内容包括:将粗集和遗传算法相结合成功应用于文本模糊聚类。在聚类过程中,将权重参数的设定也通过编码由遗传算法确定,从而使得权重参数的设定具有科学性和可操作性。给出了近似规则的定义,并对χ~2值的意义进行了讨论。在此基础上提出了一种将特征选取和粗集方法相结合的文本分类规则抽取方法。该方法大大提高了文本规则抽取的效率,并使其更趋实用化。对相关文献中隶属函数的定义进行了改进,并且利用隶属函数的性质提出了一种从定量决策表转换为定性决策表的转换规则,利用此转换规则可以将原来的定量决策表转换为一个同样大小的定性决策表,这样大...  (本文共105页) 本文目录 | 阅读全文>>

大连理工大学
大连理工大学

文本特征降维与分类规则抽取方法研究与应用

随着信息量爆炸性的增长,人们很难从大量的信息中迅速有效的提取出所需信息,出现所谓的“信息迷向”的现象。如果计算机能够在信息的辨识和处理方面,对用户提供适当的支持和帮助,那将能够极大的改善目前用户面临的困境和提高信息使用效率。而大部分信息都是以文本的形式存在的。因此,文本分类的问题成为近期的研究热点。本文从文本分类的具体的每个工作环节出发,研究了文本分类的各个具体环节。首先,从特征降维方面,针对传统的特征权值计算的不足,针对特征与文本之间的实际相关度,在传统的CHI值计算方法基础上添加了正负相关度的因子,将特征与文本的正负相关度得到很好的体现。然后,针对传统特征降维阶段只采用单一的特征选择或者特征抽取,本文采用的特征降维方法,综合了特征抽取和特征选择两个过程。首先采用模式聚合理论进行特征抽取,将对文本分类具有相似贡献的特征合并,映射为新的特征空间。在此基础上,将文本表示为粗糙集的决策表模型,采用粗糙集的属性约简算法进行特征选择,即...  (本文共60页) 本文目录 | 阅读全文>>

《河北大学学报(自然科学版)》2005年03期
河北大学学报(自然科学版)

基于词条聚合和决策树的文本分类方法

根据词条聚合和决策树原理,提出了一种文本分类的新方法.决策树分类方法具有出色的数据分析效率和容易抽取易于理解的分类规则等优势,但...  (本文共5页) 阅读全文>>