分享到:

基于XML和SVM的Web文本挖掘研究

随着互联网的发展,Internet上的信息快速增长,目前我们面临的情况是一方面用户对快速、准确地获得所需要的信息的渴望,另一方面是Internet上信息量的巨大以及信息内容结构的复杂性,使得处理这些信息具有很多困难。为了解决这个矛盾,Web挖掘技术提供了一种途径,目前Web挖掘的研究正处在不断发展的阶段,需要在理论、实现方法与技术上进行大量的研究。论文主要研究Web文本挖掘技术。论文依照Web文本挖掘的过程对Web文本挖掘进行了详细的研究,构建了一个基于可扩展标记语言(XML)和支持向量机(SVM)的Web文本挖掘模型。论文着重对Web文本预处理的过程和方法进行研究,论文提出用XML技术将Web页面上的信息进行结构化,进而再将这些Web文本表示成计算机能够处理的形式,提取出对文本挖掘有用的信息,缩减数据量,形成一个文本特征库来做为Web文本挖掘的基础。Web文本预处理的结果对Web文本挖掘的质量和效率有着很重要的影响,因此,We  (本文共68页) 本文目录 | 阅读全文>>

电子科技大学
电子科技大学

基于XML和SVM的Web文本挖掘研究

随着互联网的发展,Internet上的信息快速增长,目前我们面临的情况是一方面用户对快速、准确地获得所需要的信息的渴望,另一方面是Internet上信息量的巨大以及信息内容结构的复杂性,使得处理这些信息具有很多困难。为了解决这个矛盾,Web挖掘技术提供了一种途径,目前Web挖掘的研究正处在不断发展的阶段,需要在理论、实现方法与技术上进行大量的研究。论文主要研究Web文本挖掘技术。论文依照Web文本挖掘的过程对Web文本挖掘进行了详细的研究,构建了一个基于可扩展标记语言(XML)和支持向量机(SVM)的Web文本挖掘模型。这个基于XML和SVM的Web文本挖掘的模型主要包含了Web文本预处理和Web文本挖掘的功能,它的优点在于它利用权威页面的确定、XML技术以及特征提取逐步地缩小了数据量,同时得到了能够准确表达文本内容的特征词条集合,用支持向量机的方法降低高维数据的维数,使文本挖掘处理的数据更加精炼。论文着重对Web文本预处理的过...  (本文共72页) 本文目录 | 阅读全文>>

电子科技大学
电子科技大学

基于XML和SVM的Web文本挖掘系统研究

在数据集商业智能分析广泛使用飞速增长的环境下,传统的数据仓库解决方案变得笨重和昂贵。得益于谷歌的开放算法,Hadoop成为一个流行的开源Map Reduce实现。如雅虎,脸谱,Rackspace公司都在用其来存储和处理大量的商业数据集。但是Map Reduce编程模型仍然是在一个很低的水平,需要开发者编写客户端应用程序。论文提出了Web文本挖掘技术以及基于Hadoop的数据仓库解决优化的方法Zoot,以解决这个困难。论文依照Web文本挖掘的过程对Web文本挖掘进行了详细的研究,构建了一个基于可扩展标记语言(XML)和支持向量机(SVM)的Web文本挖掘模型。论文着重对Web文本预处理的过程和方法进行研究,论文提出用XML技术将Web页面上的信息进行结构化,进而再将这些Web文本表示成计算机能够处理的形式,提取出对文本挖掘有用的信息,缩减数据量,形成一个文本特征库来做为Web文本挖掘的基础。Web文本预处理的结果对Web文本挖掘的...  (本文共65页) 本文目录 | 阅读全文>>

《产业与科技论坛》2020年02期
产业与科技论坛

基于文本挖掘的电商评论情感分析

本文以京东商城某品牌热水器的购买用户文本评价数据为基础,通过构建...  (本文共2页) 阅读全文>>

《武汉船舶职业技术学院学报》2018年02期
武汉船舶职业技术学院学报

文本挖掘领域研究现状与趋势分析

为了解文本挖掘领域的研究现状,探测文本挖掘领域研究前沿的发展趋势。以Web of Science数据库为数据源,利用CiteSpace软件对2007~2016年间文本挖掘主题有关的文献...  (本文共6页) 阅读全文>>

《福建基础教育研究》2016年12期
福建基础教育研究

让标点符号教学“厚实”起来

教学中教师可以通过标点符号激活文本挖掘其背后丰富的情感因子,通过比较标点符...  (本文共2页) 阅读全文>>

《当代教研论丛》2017年04期
当代教研论丛

基于文本挖掘的商学院数字创新课程研究

近年来,IT驱动的创新给产业界和学术界带来了巨大影响。国外很多大学越来越重视商科学生数字创新能力的培养,开设了很多相关课程。为了研究数字创新的内涵及其...  (本文共3页) 阅读全文>>