分享到:

基于SVM的网页分类器的研究

随着Internet的迅速发展,尤其是World Wide Web的全球普及,Web上信息资源已含盖了社会生活的各个方面,网络信息过载(Information Overload)问题日益突出,这促使Web挖掘技术和Web信息检索技术迅速发展。处理海量数据的一个重要方法就是将它们分类。网页的自动分类是信息检索(IR)领域的一个很重要的研究方向。通过自动分类不仅仅可以将网页按照类别信息分别建立相应的数据库,提高搜索引擎的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供分类信息目录。文本分类是一个特定的模式识别问题,在文本中使用模式识别的机器学习方法会取得比相关反馈方法更好的效果。如果说文本分类曾一度被看作信息检索问题,现在文本分类正越来越被作为模式识别的一个特例进行研究。大量经典的模式识别学习算法已经被应用于文本分类中,如近邻分类法,贝叶斯决策法,决策树,神经网络,支持向量机等。本文对文本自动分类中所涉及的各项技术进行了全  (本文共70页) 本文目录 | 阅读全文>>

浙江大学
浙江大学

基于多特征和组合分类器的网页分类

网络上有着丰富的信息资源,并且随着时间的推移,网上的信息量爆炸式地增长。网页的分类有助于网页信息检索和管理,如开发和维护网页目录、改进搜索引擎质量、过滤网页内容等。网页是一种半结构化的数据,不同网页的内容和结构不太一样,且网页上有广告、版权声明等信息,这给网页的分类带来了挑战。本文研究网页分类方法,以提高网页分类的性能。首先,提出一种融合文本和结构特征的网页分类方法。采用树状分布的HTML标签表示网页的结构,遍历HTML标签构建向量表示网页结构特征。通过向量转化工具word2vec将、等关键标签中的文本转化为向量表示文本特征,将文本特征和结构特征两种不同的特征以向量的形式融合起来,对网页进行分类。实验结果表明,融合文本和结构特征的网页分类方法更加全面和有效,取得了比单一特征更好的分类效果。其次,提出一种基于置信度的组合分类器的方法,然后基于文本和结构特征的融合以及分类器的组合构建网页分类系统。不同分类器有不同的特点,多个分类器的...  (本文共74页) 本文目录 | 阅读全文>>

中国石油大学
中国石油大学

基于SVM的网页分类技术研究

随着互联网技术的快速发展,网络成为人们获取信息的主要来源,为了能有效地获取这些信息,人们希望对网页实现自动分类。因此,网页分类成为实现快速检索信息的一项重要技术,它应用机器学习的方法使网页按照其内容实现自动标注。在众多的网页分类算法中,SVM因为其优秀的学习与推广能力、较高的分类准确率,已成为一个研究热点。介绍了SVM理论基础、原理和训练算法,分析了基于SVM的网页分类技术的优点,阐述了不平衡SVM训练算法与多类SVM学习算法。针对SVM在不平衡样本集分类准确率不高的问题,改进了标准模糊SVM模型,引入参数λ,使最优超平面与两类样本之间的距离不相等,增加样本数较少一类的决策区域,同时利用样本之间的互距离构造模糊隶属度函数,更好地反映了样本之间的分布情况,减少噪音数据对分类结果的影响,提高了分类准确率。针对二分层次结构的多类SVM算法中层次结构设计的问题,提出了基于改进的二分层次结构的多类SVM网页分类算法。本算法通过改进的k-m...  (本文共62页) 本文目录 | 阅读全文>>

中国石油大学(华东)
中国石油大学(华东)

基于SVM的多示例多标签网页分类

随着互联网的高速发展,网页数量也急剧增加,网页分类技术已经成为机器学习领域的一个研究热点。多示例多标签机器学习框架具有良好的表达能力,比较适合用于网页分类问题。但是基于SVM的多示例多标签算法还不能够利用未标记示例来进行辅助学习,使用退化策略的多示例多标签算法也会造成标签间联系信息的丢失。本文介绍了网页分类的相关技术,阐述了SVM的基本原理,讨论了多示例多标签机器学习框架。在真实世界的问题中,对样本进行标记往往需要付出巨大的代价,而未标记样本则比较容易获得。针对多示例多标签算法E-MIMLSVM~+不能利用未标记样本建模的问题,本文使用半监督SVM对该算法进行改进。改进后的算法可以利用少量有标签样本和大量没有标签的样本进行学习,有助于发现样本集内部隐藏的结构信息,了解样本集的真实分布情况,有效提高分类器的泛化性能。多示例多标签算法中常用的策略是以多示例或者多标签为桥梁,使用退化方式将多示例多标签转化为传统的监督学习问题进行求解。...  (本文共67页) 本文目录 | 阅读全文>>

云南师范大学
云南师范大学

基于SVM的中文网页多类分类问题研究及实现

随着Internet技术的快速发展,人们从信息缺乏的时代过渡到信息极为丰富的数字化时代。在这个数字化的时代里,人们可以获得越来越多的数字化信息。这些信息大都是半结构化或者是非结构化的数据,想从其中迅速有效地获得所需信息是非常困难的事情。为此,中文网页自动分类被研究者提出并进行了应用研究,研究中文网页分类具有重要的理论意义和实际应用价值。自动分类不仅可以将网页按照类别信息分别建立相应的数据库,提高中文搜索引擎的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供分类信息目录,并且,自动分类的好与坏,对后面的相关性排序过程也有一定的积极作用。本文在研究了传统支持向量机(SVM)分类器模型的同时,结合现有的网页分类技术,对SVM多类分类器模型构造进行了较为系统的研究,提出了一种基于SVM的多类分类器模型构造算法,在此基础上对基于分类的中文网页内容获取、中文分词、中文网页特征选择、SVM中文网页分类器提出了一定的思考和见解。(1)...  (本文共189页) 本文目录 | 阅读全文>>

清华大学
清华大学

Web挖掘中的降维和分类方法研究

Web挖掘研究把数据挖掘方法和万维网(WWW)相结合,目的是从WWW的海量数据中挖掘有用的知识,研制高效的Web挖掘系统。本论文结合网页分类、网页摘要和个性化Web搜索等挖掘任务,以Web挖掘中的降维和分类方法研究为重点,提出和改进Web挖掘算法。主要工作包括以下方面:第一,提出一种有监督的潜在语义索引(SLSI)模型降维方法,用于文本分类任务中的特征表示。同传统的潜在语义索引(LSI)模型相比,SLSI既能够捕捉文档集合中的潜在概念,同时能够利用不同类别之间的区分信息。SLSI可以取得好的降维效果,同时也能保证文本分类的精度。第二,提出一种三阶数据降维模型CubeSVD,用于分析搜索引擎服务器端收集的点击日志数据。点击日志数据通常很稀疏,并且包含多种类型对象,对象之间存在复杂的关系。CubeSVD基于高阶奇异值分解技术,通过降维发现对象间的潜在关系,帮助提高个性化Web搜索的性能。第三,研究基于降维技术的网页摘要方法,提出一种...  (本文共121页) 本文目录 | 阅读全文>>