分享到:

基于改进KNN的文本分类方法

本文针对VSM (向量空间模型)中KNN (K最近邻算法)在文本处理环境下的不足,根据SOM (自组织映射神经网络)理论、特征选取和模式聚合理论,提出了一种改进的K  (本文共5页) 阅读全文>>

天津大学
天津大学

基于决策树和K最近邻算法的文本分类研究

文本分类是文本挖掘的重要内容,是对信息的一种最基本的认知形式。目前的文本特征降维算法、改进或创造适应文本数据的分类算法、抽取文本分类规则等方面的研究仍远远不能满足实际的需要。本文主要研究了文本特征空间的降维问题、利用决策树抽取文本分类规则问题和改进KNN算法以适应文本分类问题。本文提出了三种特征降维方法:一种是基于模式聚合和改进χ~2统计量的文本降维方法,有效地降低文本维数并可提高分类精度;一种是基于CHI值原理和粗糙集理论的属性约减的文本降维方法,据此提出的基于决策树的文本分类规则获取方法,可获得分类精度较高且易于理解的文本分类规则;第三种是基于神经网络的特征抽取方法,此方法根据灵敏度将特征进行排序,采用二分法的方式去掉部分特征,降低了神经网络特征提取的计算量。本文提出了两种基于模糊决策树的模糊文本分类规则抽取方法。第一种方法采用分枝合并减少了分类规则,第二种方法提出了一种基于类信息熵和密度分布函数的数据模糊化方法,降低了数据...  (本文共127页) 本文目录 | 阅读全文>>

安徽大学
安徽大学

基于改进哈希算法的快速KNN文本分类方法

网络的日益普及和人们对技术的日益依赖,使得数据越来越多的以电子的形式存储在计算机中。在当今高节奏社会,无论是在大型的企业数据中,还是在网络上,如何迅速有效的找到所需要的数据已经成为一个重要的话题。对此,国内外的专家提出了各种各样的技术,如数据库技术、关键词匹配技术和文本分类技术等。对文本进行分类能够有效的降低搜索感兴趣内容的时间,并且提高结果的准确率,在一定的程度上提高了用户的体验度。常用的分类技术如贝叶斯分类技术、支持向量机分类法、决策树等需要大量的时间来训练分类器,如果更新训练用的语料库的话,需要重新训练文本分类器。传统中的KNN分类器的一大优点在于其能够在语料增加的情况下,不用重新训练分类器,同时分类准确率也比较高,因此一直很是受欢迎。但是,KNN算法也有其瓶颈:需要计算待分类文本与所有训练文本之间的相似度,这会浪费大量的时间。本文提出了一种改进的KNN文本分类方法,根据具有最小方差的若干个特征建立相应的文本列表,搜索近邻...  (本文共61页) 本文目录 | 阅读全文>>

西南大学
西南大学

基于粗糙集的Web文本KNN分类方法及在金融中的应用研究

随着金融市场的全球化发展以及计算机网络技术的广泛应用,全球金融市场已经开始走向金融网络化。与此同时,互联网业已成为企业、机构和个人获取金融信息的主要来源;作为专业金融信息服务提供商或是个人,在面对如此海量、繁杂的互联网金融信息资源时不可避免会遇到一个巨大的挑战,即如何从互联网中实时、快速地分类和处理金融数据,如何提高Web金融数据获取效率和质量,从而改善公司金融信息服务质量,提升公司在金融信息服务行业的核心竞争力,这也成为当今学术界研究的重点问题之一。随着信息技术和通讯技术的发展,自动信息分类技术已经成为人们有效的金融信息分类工具。当今,Web文本分类的中文信息处理是一个重要的研究领域。其目标是分析文本内容的基础上,分配一个文本到更合适的类别,以便提高文本检索应用程序的处理效率。目前有许多方法应用到此技术中去。目前,K最近邻算法(KNN)被认为是向量空间模型下最好的分类算法之一。KNN算法也是文本自动分类领域中的一种常用算法,对...  (本文共61页) 本文目录 | 阅读全文>>

《计算机与现代化》2012年02期
计算机与现代化

基于粗糙集与改进KNN算法的文本分类方法的研究

KNN算法是文本自动分类领域中的一种常用算法,对于低维度的文本分类,其分类准确率较高。然而在处理大量高维度文本时,传统KNN算法由于需处理大量训练样...  (本文共4页) 阅读全文>>

《微型机与应用》2011年18期
微型机与应用

基于改进KNN算法的中文文本分类方法

介绍了中心向量算法和KNN算法两种分类方法。针对KNN分类方法在计算文本相似度时存在的不足,提出了改进方案。新方案引入了中心向量分类法的思想。通过实...  (本文共4页) 阅读全文>>