分享到:

中文网页分类技术研究及预分类算法实现

随着信息技术的迅速发展,特别是近年来互联网的普及,网页数量呈指数级增长。为了有效地组织和管理这些海量信息,如何根据网页中的文本信息自动分类已成为目前研究的重要课题。本文首先研究了中文网页自动分类的相关技术,详细分析了类中心法、朴素贝叶斯法和支持向量机法三种基于机器学习的自动分类算法。然后,本文实现了一个基于向量空间模型的中文网页自动分类系统,并通过四个实验对中文网页自动分类的几个关键步骤进行了较为深入的研究。主要实验结论有:线性核函数更适用于中文网页分类;文档频率是一种快速而有效的中文网页特征选择方法;应该根据训练集规模和自动分类算法保留适当的特征数目。最后,本文针对中文网页的特点,提出了一种基于预置关键词表的预分类算法。实验结果表明,预分类算法的引入不仅提高了精确率和召回率,而且分类时间也有较大缩短。  (本文共65页) 本文目录 | 阅读全文>>

《电脑知识与技术》2002年07期
电脑知识与技术

网页分类新标准启用儿童上网浏览有保证

为了能够使互联网对儿童更友好,包括AOL、微软、雅虎在内的网络巨头表示,它们已经使用新的内容分级系统对几乎...  (本文共1页) 阅读全文>>

中国地质大学(北京)
中国地质大学(北京)

基于深度学习的网页分类技术研究

随着计算机技术的迅猛发展,互联网因其包含的海量信息而越来越多的成为了人们获取信息的主要场所。也有了更多的人乐于在互联网上分享自己的知识,这导致了网页数量的爆炸式增长。据1月31日中国互联网络信息中心(CNNIC)在京发布的第41次《中国互联网络发展状况统计报告》显示,截止至2017年12月,我国网民数量已经达到了7.72亿,占人口总数的55.8%,超过全球平均水准4.1个百分点,超过亚洲平均水准9.1个百分点。种种现象表明,互联网已经成为当代人们生活中必不可少的组成部分。而伴随着互联网的飞速发展,网络内容得到了极大的丰富。如何将这些海量的信息进行一个合理的筛选,让人们能快速,有效的找到自己想要的资源成为了一个重要而且有意义的问题。为了应对这种问题,人们发明了搜索引擎,能准确地查找人们所需要的信息,但将所有网页放在同一集合查找显然不是明智之举。调查显示,人们在进行信息检索时往往会围绕着一个主题。如果能将网页按页面类型进行分类将有效...  (本文共61页) 本文目录 | 阅读全文>>

浙江大学
浙江大学

基于多特征和组合分类器的网页分类

网络上有着丰富的信息资源,并且随着时间的推移,网上的信息量爆炸式地增长。网页的分类有助于网页信息检索和管理,如开发和维护网页目录、改进搜索引擎质量、过滤网页内容等。网页是一种半结构化的数据,不同网页的内容和结构不太一样,且网页上有广告、版权声明等信息,这给网页的分类带来了挑战。本文研究网页分类方法,以提高网页分类的性能。首先,提出一种融合文本和结构特征的网页分类方法。采用树状分布的HTML标签表示网页的结构,遍历HTML标签构建向量表示网页结构特征。通过向量转化工具word2vec将、等关键标签中的文本转化为向量表示文本特征,将文本特征和结构特征两种不同的特征以向量的形式融合起来,对网页进行分类。实验结果表明,融合文本和结构特征的网页分类方法更加全面和有效,取得了比单一特征更好的分类效果。其次,提出一种基于置信度的组合分类器的方法,然后基于文本和结构特征的融合以及分类器的组合构建网页分类系统。不同分类器有不同的特点,多个分类器的...  (本文共74页) 本文目录 | 阅读全文>>

中国石油大学(华东)
中国石油大学(华东)

基于SVM的多示例多标签网页分类

随着互联网的高速发展,网页数量也急剧增加,网页分类技术已经成为机器学习领域的一个研究热点。多示例多标签机器学习框架具有良好的表达能力,比较适合用于网页分类问题。但是基于SVM的多示例多标签算法还不能够利用未标记示例来进行辅助学习,使用退化策略的多示例多标签算法也会造成标签间联系信息的丢失。本文介绍了网页分类的相关技术,阐述了SVM的基本原理,讨论了多示例多标签机器学习框架。在真实世界的问题中,对样本进行标记往往需要付出巨大的代价,而未标记样本则比较容易获得。针对多示例多标签算法E-MIMLSVM~+不能利用未标记样本建模的问题,本文使用半监督SVM对该算法进行改进。改进后的算法可以利用少量有标签样本和大量没有标签的样本进行学习,有助于发现样本集内部隐藏的结构信息,了解样本集的真实分布情况,有效提高分类器的泛化性能。多示例多标签算法中常用的策略是以多示例或者多标签为桥梁,使用退化方式将多示例多标签转化为传统的监督学习问题进行求解。...  (本文共67页) 本文目录 | 阅读全文>>

中国石油大学(华东)
中国石油大学(华东)

基于多示例多标签框架的网页分类信息丢失的研究

随着互联网技术的快速发展,网络成为人们获取信息的主要来源,如何从网络中挖掘出有用信息并找出相关规律,已经成为当前研究的热点。网页分类是一种组织和分析网页信息的技术,它能够对网页实现类别标注。多示例多标签是一种新的学习框架,其在分类领域表现良好。因此,将网页分类和多示例多标签相结合十分有意义。本文阐述了网页分类算法,介绍了多示例多标签学习框架,分析了MIMLBOOST与MIMLSVM两种算法。真实世界中的事物往往是多语义的,将多个示例集合映射到多个标签集合上才能更好地反映真实世界。在解决多示例映射问题时通常采用退化机制,将多示例多标签退化为单示例单标签,但是退化过程中可能丢失重要信息从而影响分类结果。针对网页分类准确率低问题,提出了基于混合高斯模型的聚类算法。混合高斯模型可以逼近样本点的分布,通过概率模型计算样本点类别,然后采用EM算法对高斯模型进行参数优化,重新计算后再基于退化算法来提高分类准确率。针对退化过程中忽略示例之间联系...  (本文共66页) 本文目录 | 阅读全文>>