分享到:

一种基于支持向量机的专业中文网页分类器

文中提出了一种基于支持向量机的专业中文网页分类算法,利用支持向量机对网页进行二类分类,找出所需专业的中文网页;然后利用向量空间模型,对  (本文共4页) 阅读全文>>

安徽大学
安徽大学

基于SVM的中文网页自动分类技术研究

随着互联网迅速普及和发展,网络信息资源呈爆炸式增长,用户从中选择自己感兴趣的信息,给用户带来了方便,然而网络给人们提供足够丰富信息的同时,也带来了新的问题。面对繁杂的网页内容,很难找到所需的信息,如何方便快捷地找到这些网页信息,并有效管理和组织供用户进行选择是当前信息分类面临的一大挑战。“信息过载”是影响信息收集效率的一个主要原因,网上众多不相关的信息默认为是相关的,则非常容易发生“信息过载”的现象,虽然使用“信息过滤”和“信息检索”等方法可以解决这个问题。然而,大部分“信息过滤”和“信息检索”的方法不能够明确的说明用户需求。面对网上的海量信息,传统的处理方式先是人工对网上信息进行分类,然后再组织和整理分类结果。这种人工分类的做法不仅耗费大量的人力、物力和财力,而且存在分类结果一致性不高的问题。因此,对网页自动分类技术进行研究,使网页能够自动进行分类,为用户提供方便快捷的信息,具有重要的现实意义。本文结合中文网页文本分类的研究背...  (本文共66页) 本文目录 | 阅读全文>>

中国石油大学
中国石油大学

基于半监督的支持向量机网页分类方法

随着网络的发展,为了能够有效地组织和分析海量的网页信息,人们希望能够对网页实现自动分类。因此,网页分类技术便成了快速且有效地组织网络上海量信息的一项重要技术。在众多的网页分类算法中,支持向量机凭借其出色的学习能力,已成为机器学习界的研究热点。而现实生活中大量数据却是无标记的,为数据作标记的工作耗时费力。这推动了机器学习的研究进入到一个新的阶段,结合有标记数据和无标记数据的半监督式学习正成为新热点。讲述了网页分类的过程,分类方法种类划分和评价标准。然后介绍了支持向量机的原理、发展和相关技术,阐述了支持向量机技术在网页分类中的重要作用。之后研究了目前支持向量机常用的训练算法和半监督支持向量机的训练算法;还研究了主动学习的样本选择策略。针对目前半监督支持向量机训练算法存在训练速度慢并且准确率不高等缺点,提出了一种基于主动学习的半监督支持向量机学习算法,它以少量的有标记数据来训练初始学习器,通过主动学习策略来选择最佳训练样本,并通过删除...  (本文共59页) 本文目录 | 阅读全文>>

云南师范大学
云南师范大学

基于SVM的中文网页多类分类问题研究及实现

随着Internet技术的快速发展,人们从信息缺乏的时代过渡到信息极为丰富的数字化时代。在这个数字化的时代里,人们可以获得越来越多的数字化信息。这些信息大都是半结构化或者是非结构化的数据,想从其中迅速有效地获得所需信息是非常困难的事情。为此,中文网页自动分类被研究者提出并进行了应用研究,研究中文网页分类具有重要的理论意义和实际应用价值。自动分类不仅可以将网页按照类别信息分别建立相应的数据库,提高中文搜索引擎的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供分类信息目录,并且,自动分类的好与坏,对后面的相关性排序过程也有一定的积极作用。本文在研究了传统支持向量机(SVM)分类器模型的同时,结合现有的网页分类技术,对SVM多类分类器模型构造进行了较为系统的研究,提出了一种基于SVM的多类分类器模型构造算法,在此基础上对基于分类的中文网页内容获取、中文分词、中文网页特征选择、SVM中文网页分类器提出了一定的思考和见解。(1)...  (本文共189页) 本文目录 | 阅读全文>>

武汉理工大学
武汉理工大学

基于关键词自学习的中文网页分类技术研究与实现

近几年来,为了满足人们对知识信息的需求,我国有超过450万家网站为网民提供涉及各个知识信息领域的网页。正是由于网站数量繁多,网页内容和形式变得参差不齐。为了能够将大规模中文网页高效的进行类别区分,盲目的将外文网页分类技术不加改进的应用于此,这是不可取的行为。而国内传统的基于机器学习的中文网页分类技术的发展又无法紧跟互联网复杂环境的变化,分类效率和准确率偏低是现阶段的棘手问题。本次研究针对于大规模中文网页分类技术,研究如何运用多种技术从网页源码中提取文本信息、结构信息和网页内链接信息,构建网页特征模型-关键词模型,并将此模型作为基于自学习的卷积神经网络-支持向量机分类算法的输入,最终获得网页分类结果。本文的主要内容包括:(1)网页信息提取方法的改进和与将网页表征为符合分类器输入要求的关键词特征模型。通过对网页源码进行分析,获得网页布局信息,把网页按信息量多少划分为主次要信息块,提取主要信息块中的文本信息、超链接和网页标签属性。对文...  (本文共74页) 本文目录 | 阅读全文>>

西安电子科技大学
西安电子科技大学

中文网页分类技术研究及预分类算法实现

随着信息技术的迅速发展,特别是近年来互联网的普及,网页数量呈指数级增长。为了有效地组织和管理这些海量信息,如何根据网页中的文本信息自动分类已成为目前研究的重要课题。本文首先研究了中文网页自动分类的相关技术,详细分析了类中心法、朴素贝叶斯法和支持向量机法三种基于机器学习的自动分类算法。然后,本文实现了一个基于向量空间模型的中文网页自动分类系统,并通过四个实验对中文网页自动分类的几个关键步骤进行了较为深入的研究。主要实验结论有:线性核函数更适用于中文网页分类;文档频率是一种快速而有效的中文网页特征选择方法;应该根据训练集规模和自动分类算法保留适当的特征数目。最后,本文针对中文网页的特点,提出了一种基于预置关键词表的预分类算法。实验结果表明,预分类算法的引入不仅提高了精确率和召回率,而且分类时间也有较大缩短。  (本文共65页) 本文目录 | 阅读全文>>