分享到:

基于SVM的网页分类器的研究

随着Internet的迅速发展,尤其是World Wide Web的全球普及,Web上信息资源已含盖了社会生活的各个方面,网络信息过载(Information Overload)问题日益突出,这促使Web挖掘技术和Web信息检索技术迅速发展。处理海量数据的一个重要方法就是将它们分类。网页的自动分类是信息检索(IR)领域的一个很重要的研究方向。通过自动分类不仅仅可以将网页按照类别信息分别建立相应的数据库,提高搜索引擎的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供分类信息目录。文本分类是一个特定的模式识别问题,在文本中使用模式识别的机器学习方法会取得比相关反馈方法更好的效果。如果说文本分类曾一度被看作信息检索问题,现在文本分类正越来越被作为模式识别的一个特例进行研究。大量经典的模式识别学习算法已经被应用于文本分类中,如近邻分类法,贝叶斯决策法,决策树,神经网络,支持向量机等。本文对文本自动分类中所涉及的各项技术进行了全  (本文共70页) 本文目录 | 阅读全文>>

云南师范大学
云南师范大学

基于SVM的中文网页多类分类问题研究及实现

随着Internet技术的快速发展,人们从信息缺乏的时代过渡到信息极为丰富的数字化时代。在这个数字化的时代里,人们可以获得越来越多的数字化信息。这些信息大都是半结构化或者是非结构化的数据,想从其中迅速有效地获得所需信息是非常困难的事情。为此,中文网页自动分类被研究者提出并进行了应用研究,研究中文网页分类具有重要的理论意义和实际应用价值。自动分类不仅可以将网页按照类别信息分别建立相应的数据库,提高中文搜索引擎的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供分类信息目录,并且,自动分类的好与坏,对后面的相关性排序过程也有一定的积极作用。本文在研究了传统支持向量机(SVM)分类器模型的同时,结合现有的网页分类技术,对SVM多类分类器模型构造进行了较为系统的研究,提出了一种基于SVM的多类分类器模型构造算法,在此基础上对基于分类的中文网页内容获取、中文分词、中文网页特征选择、SVM中文网页分类器提出了一定的思考和见解。(1)...  (本文共189页) 本文目录 | 阅读全文>>

中国石油大学(华东)
中国石油大学(华东)

基于SVM的多示例多标签网页分类

随着互联网的高速发展,网页数量也急剧增加,网页分类技术已经成为机器学习领域的一个研究热点。多示例多标签机器学习框架具有良好的表达能力,比较适合用于网页分类问题。但是基于SVM的多示例多标签算法还不能够利用未标记示例来进行辅助学习,使用退化策略的多示例多标签算法也会造成标签间联系信息的丢失。本文介绍了网页分类的相关技术,阐述了SVM的基本原理,讨论了多示例多标签机器学习框架。在真实世界的问题中,对样本进行标记往往需要付出巨大的代价,而未标记样本则比较容易获得。针对多示例多标签算法E-MIMLSVM~+不能利用未标记样本建模的问题,本文使用半监督SVM对该算法进行改进。改进后的算法可以利用少量有标签样本和大量没有标签的样本进行学习,有助于发现样本集内部隐藏的结构信息,了解样本集的真实分布情况,有效提高分类器的泛化性能。多示例多标签算法中常用的策略是以多示例或者多标签为桥梁,使用退化方式将多示例多标签转化为传统的监督学习问题进行求解。...  (本文共67页) 本文目录 | 阅读全文>>

中国石油大学
中国石油大学

基于SVM的网页分类技术研究

随着互联网技术的快速发展,网络成为人们获取信息的主要来源,为了能有效地获取这些信息,人们希望对网页实现自动分类。因此,网页分类成为实现快速检索信息的一项重要技术,它应用机器学习的方法使网页按照其内容实现自动标注。在众多的网页分类算法中,SVM因为其优秀的学习与推广能力、较高的分类准确率,已成为一个研究热点。介绍了SVM理论基础、原理和训练算法,分析了基于SVM的网页分类技术的优点,阐述了不平衡SVM训练算法与多类SVM学习算法。针对SVM在不平衡样本集分类准确率不高的问题,改进了标准模糊SVM模型,引入参数λ,使最优超平面与两类样本之间的距离不相等,增加样本数较少一类的决策区域,同时利用样本之间的互距离构造模糊隶属度函数,更好地反映了样本之间的分布情况,减少噪音数据对分类结果的影响,提高了分类准确率。针对二分层次结构的多类SVM算法中层次结构设计的问题,提出了基于改进的二分层次结构的多类SVM网页分类算法。本算法通过改进的k-m...  (本文共62页) 本文目录 | 阅读全文>>

哈尔滨工程大学
哈尔滨工程大学

基于SVM分类算法的主题爬虫研究

近年来,随着互联网的快速发展,互联网上的信息量日益增长且呈现多元化的特点。于是如何能够迅速、准确而高效地为互联网用户定位所需要的信息,成为搜索引擎的主要目标。通用搜索引擎能够在较大的信息范围内获取信息,但是由于其涉及的领域过于宽泛,因此,在某些特定领域,无法给用户提供专业而深入的信息。于是,主题搜索引擎应运而生,它能够在某一特定领域,提供专业、精确而深入的搜索服务。本文以主题搜索引擎中的主题爬虫为研究内容,研究有效地爬取某一主题范围内网页的策略。本文首先对主题爬虫的相关研究进行了综述,从通用爬虫和主题爬虫的主要组成结构、基于文字内容的启发式爬取策略、基于Web链接结构的评价方法,分析了当前爬取策略的优缺点。采用向量空间模型将网页用数学方法表示,研究支持向量机算法的相关原理。提出了基于文字内容和部分链接信息的主题相关度预测算法,对未爬取的网页,预测其与主题的相关度。对于已经爬取网页,首先使用SVM分类器过滤与主题无关的网页,然后使...  (本文共67页) 本文目录 | 阅读全文>>

中国石油大学(华东)
中国石油大学(华东)

基于不平衡数据的支持向量机分类方法研究

互联网上充斥着越来越多的信息,这是Web时代迎来的新挑战。这就需要我们寻求一种途径来使人们快速有效地利用网络上这些繁杂信息,网页分类就是一种很有效的方法。在多种网页自动分类算法中,具有出色学习能力、较高分类准确率的支持向量机(SVM)已成为机器学习领域的一个研究热点。经典的支持向量机训练算法在不平衡样本数据集情况下分类准确率不高。因此,对支持向量机不平衡数据分类学习的研究具有重要的理论意义和实用价值。介绍了支持向量机的理论基础、原理和相关技术,分析了支持向量机的优缺点,阐述了支持向量机的训练算法,讨论了不平衡支持向量机的分类算法。针对SVM不平衡样本集中两类样本数目间的差距,提出了新的筛选模型,将向上采样法和向下采样法结合起来,在减少多数类样本集中噪声数据的基础上增加少数类的样本集数量,从而使得不平衡样本集趋向于平衡,有效提高分类准确率。通过更改超球面支持向量机模型,对参数C进行重新定义,将样本数量的不平衡信息与测试样本分布信息...  (本文共66页) 本文目录 | 阅读全文>>