分享到:

基于SVM的中文网页自动分类技术研究

随着互联网迅速普及和发展,网络信息资源呈爆炸式增长,用户从中选择自己感兴趣的信息,给用户带来了方便,然而网络给人们提供足够丰富信息的同时,也带来了新的问题。面对繁杂的网页内容,很难找到所需的信息,如何方便快捷地找到这些网页信息,并有效管理和组织供用户进行选择是当前信息分类面临的一大挑战。“信息过载”是影响信息收集效率的一个主要原因,网上众多不相关的信息默认为是相关的,则非常容易发生“信息过载”的现象,虽然使用“信息过滤”和“信息检索”等方法可以解决这个问题。然而,大部分“信息过滤”和“信息检索”的方法不能够明确的说明用户需求。面对网上的海量信息,传统的处理方式先是人工对网上信息进行分类,然后再组织和整理分类结果。这种人工分类的做法不仅耗费大量的人力、物力和财力,而且存在分类结果一致性不高的问题。因此,对网页自动分类技术进行研究,使网页能够自动进行分类,为用户提供方便快捷的信息,具有重要的现实意义。本文结合中文网页文本分类的研究背  (本文共66页) 本文目录 | 阅读全文>>

云南师范大学
云南师范大学

基于SVM的中文网页多类分类问题研究及实现

随着Internet技术的快速发展,人们从信息缺乏的时代过渡到信息极为丰富的数字化时代。在这个数字化的时代里,人们可以获得越来越多的数字化信息。这些信息大都是半结构化或者是非结构化的数据,想从其中迅速有效地获得所需信息是非常困难的事情。为此,中文网页自动分类被研究者提出并进行了应用研究,研究中文网页分类具有重要的理论意义和实际应用价值。自动分类不仅可以将网页按照类别信息分别建立相应的数据库,提高中文搜索引擎的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供分类信息目录,并且,自动分类的好与坏,对后面的相关性排序过程也有一定的积极作用。本文在研究了传统支持向量机(SVM)分类器模型的同时,结合现有的网页分类技术,对SVM多类分类器模型构造进行了较为系统的研究,提出了一种基于SVM的多类分类器模型构造算法,在此基础上对基于分类的中文网页内容获取、中文分词、中文网页特征选择、SVM中文网页分类器提出了一定的思考和见解。(1)...  (本文共189页) 本文目录 | 阅读全文>>

福州大学
福州大学

中文网页自动分类关键技术研究

随着WWW的迅速发展和普及,在线电子信息日益增多,人们已经从信息资源匮乏的时代迅速过渡到信息极为丰富的数字化时代。面对网上海量的信息资源,人们很难迅速有效的找到真正所需的信息。因此,如何合理和有效地组织和管理网上信息,已经日益成为信息处理领域里一个十分重要的研究课题。传统的,是依靠人工的方法对网页进行分类的,即专业人员在分析网页的内容后,将它分到一个或若干个比较合适的类别中。很明显,随着网页信息容量的快速增长,仍然依靠人工的方式来进行大量的网页分类,将是不合适和不现实的。由于文本分类是组织和管理信息的有力手段,它可以在较大程度上解决目前网上信息杂乱无章的现象,使用户更容易更准确地定位所需的信息,因此,对网页的分类是必要的,也是必需的。这就使得对网页自动分类的研究成为了一个日益重要的研究领域,并且,它还逐步与IR技术、搜索引擎、信息过滤等技术相结合,成为解决人们网上信息获取的重要手段。本文在阐述自动文本分类的基础上,针对中文网页自...  (本文共53页) 本文目录 | 阅读全文>>

西安电子科技大学
西安电子科技大学

中文网页分类技术研究及预分类算法实现

随着信息技术的迅速发展,特别是近年来互联网的普及,网页数量呈指数级增长。为了有效地组织和管理这些海量信息,如何根据网页中的文本信息自动分类已成为目前研究的重要课题。本文首先研究了中文网页自动分类的相关技术,详细分析了类中心法、朴素贝叶斯法和支持向量机法三种基于机器学习的自动分类算法。然后,本文实现了一个基于向量空间模型的中文网页自动分类系统,并通过四个实验对中文网页自动分类的几个关键步骤进行了较为深入的研究。主要实验结论有:线性核函数更适用于中文网页分类;文档频率是一种快速而有效的中文网页特征选择方法;应该根据训练集规模和自动分类算法保留适当的特征数目。最后,本文针对中文网页的特点,提出了一种基于预置关键词表的预分类算法。实验结果表明,预分类算法的引入不仅提高了精确率和召回率,而且分类时间也有较大缩短。  (本文共65页) 本文目录 | 阅读全文>>

北京邮电大学
北京邮电大学

基于用户行为分析的网页分类系统的研究与实现

近年来,随着因特网飞速发展,网络上以网页为载体的各种文本信息大量涌现,网上信息量呈爆炸性增长。人们要找到自己所需要的信息犹如大海捞针,被动模式的搜索引擎已经不能满足用户的需求。如何以主动模式满足用户个性化的服务要求,成为新的网络服务系统面临的挑战性课题之一。本文基于用户行为分析和个性化服务的前提,针对网页分类技术中的关键技术进行研究和改进,最终实现了一个适应于网页分类的文本分类系统。本文主要研究的关键技术包括:第一,中文分词技术。本文对原有的分词方法进行研究,并提出了一种适合于网页文本特点的基于统计与最大匹配结合的分词算法,该方法能识别出网页中的新生词汇,且合并频繁出现的单字组合。改进的方法既避免了漏掉对分类有很大贡献的新生词汇,也通过合并单字减小了特征空间维数,降低了计算复杂度。第二,特征抽取和赋权技术。本文通过研究和考察特征选择算法和赋权算法,对普遍认为效果较好的CHI统计方法进行了适合于网页分类的改进,提出了基于网页结构的...  (本文共67页) 本文目录 | 阅读全文>>

中国石油大学
中国石油大学

基于SVM的网页分类技术研究

随着互联网技术的快速发展,网络成为人们获取信息的主要来源,为了能有效地获取这些信息,人们希望对网页实现自动分类。因此,网页分类成为实现快速检索信息的一项重要技术,它应用机器学习的方法使网页按照其内容实现自动标注。在众多的网页分类算法中,SVM因为其优秀的学习与推广能力、较高的分类准确率,已成为一个研究热点。介绍了SVM理论基础、原理和训练算法,分析了基于SVM的网页分类技术的优点,阐述了不平衡SVM训练算法与多类SVM学习算法。针对SVM在不平衡样本集分类准确率不高的问题,改进了标准模糊SVM模型,引入参数λ,使最优超平面与两类样本之间的距离不相等,增加样本数较少一类的决策区域,同时利用样本之间的互距离构造模糊隶属度函数,更好地反映了样本之间的分布情况,减少噪音数据对分类结果的影响,提高了分类准确率。针对二分层次结构的多类SVM算法中层次结构设计的问题,提出了基于改进的二分层次结构的多类SVM网页分类算法。本算法通过改进的k-m...  (本文共62页) 本文目录 | 阅读全文>>