分享到:

XML促进Web数据挖掘

Web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。相对于Web的数据而  (本文共1页) 阅读全文>>

西南大学
西南大学

基于XML的Web文本数据挖掘研究

网络技术已经渗透到了社会生活的方方面面,随着Internet在世界范围内的迅速发展,越来越多的数据库和信息系统不断加入网络,使得Internet发展为当今世界上门类最全、规模最大的信息库。伴随计算能力的增长及大规模数据存储技术的成熟,面对Internet的信息快速增长,目前我们面临的情况是一方面用户对快速、准确地获得所需要的信息的渴望,另一方面是Internet上信息量的巨大以及信息内容结构的复杂性,使得处理这些信息具有很多困难。为了解决这个矛盾,Web数据挖掘成为解决这个问题的一个有效手段之一。目前,Web数据挖掘的研究正处在不断发展的阶段,需要在理论、实现方法与技术上进行大量的研究。传统的数据挖掘技术针对的主要都是结构化数据,尤其是关系数据库或数据仓库。Web数据挖掘面对的是Web上的数据,而Web是一个无集中控制、无统一结构、无完整性约束、无事务管理、无标准查询语言和数据模型、可无限扩充的松散的分布式信息系统。在此基础上进...  (本文共68页) 本文目录 | 阅读全文>>

山东大学
山东大学

Web数据挖掘中XML应用及关联算法改进

面向web的数据挖掘是一项复杂的技术,Web数据挖掘就是利用数据挖掘技术从网络文档和服务中发现和提取信息。Web上的信息五花八门,传统的Internet由各种类型的服务和数据源组成,包括WWW、FTP、Telnet等,现在有更多的数据和端口可以使用,比如政府信息服务、数字图书馆、电子商务数据,以及其他各种通过Web可以访问的数据库。Web上各种形式的文档和用户访问信息就构成了Web数据挖掘的对象。根据挖掘对象的不同,我们将Web数据挖掘分为三类:Web内容挖掘、Web结构挖掘、Web用法挖掘。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决数据挖掘难题带来了希望。Apriori算法在关联规则领域有很大的影响力,然而由于需要过于频繁的扫描数据库及较大的空间消耗,仍然有需要改进的地方。通过对Apriori算法进行深入研究,本文提出了一种Apriori改进算法,通过比较分...  (本文共66页) 本文目录 | 阅读全文>>

重庆大学
重庆大学

基于XML的Web内容挖掘研究

随着互联网的发展,WWW上信息的快速增长,WWW为人们提供了大量的信息,但也使得我们陷入一个矛盾,那就是一方面人们迫切地需要从Web上快速、有效地获取知识,另一方面是Web上信息的数量庞太大并且信息内容结构复杂,处理这些信息具有很多困难。为了解决这个矛盾,Web挖掘技术提供了一种途径,目前Web挖掘的研究正处在不断发展的阶段,需要在理论、实现方法与技术上进行大量的研究。Web挖掘技术是传统数据挖掘技术在Web环境下的应用,从大量的Wed文档集合和用户浏览Web的数据信息中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式。根据Web挖掘研究的对象,Web挖掘分为三类:Web内容挖掘, Web结构挖掘和Web使用记录挖掘,Web内容挖掘是论文研究的主要内容。由于现有的搜索引擎仅用于Web上的信息检索,无法发现Web上潜在的知识,多数用户在用搜索引擎给出的搜索结果时都很难从中发现自己感兴趣的内容,为了解决这个现状,论文展开了对Web...  (本文共75页) 本文目录 | 阅读全文>>

重庆大学
重庆大学

基于XML的Web信息挖掘技术的研究

如何让Internet更好地为人类服务,是未来的一个真正挑战。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是Internet上信息的纷繁芜杂,在着两者之间假设一座桥梁的确是一个巨大的挑战。作为从浩瀚的Web信息资源中发现潜在的有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注。本文对Web挖掘的有关理论进行了论述,着重讨论了Web内容挖掘系统的结构和技术。本文的主要内容包括:一、介绍了数据挖掘技术和Web挖掘技术。二、描述了Web内容挖掘系统的构建,包括Web的数据模型,体系结构,系统功能等;三、介绍了XML的产生的背景、特点以及有介绍了XML的相关规范;四、针对基于XML的Web内容挖掘提出了一个挖掘模型和数据抽取方法。五、针对基于XML在Web内容挖掘中的运用,进行了相关的实验并详细地介绍和说明了XML在Web内容挖掘的具体实现过程。  (本文共54页) 本文目录 | 阅读全文>>

山东大学
山东大学

基于XML的Web数据挖掘技术研究与实现

面向web的数据挖掘是一项复杂的技术,Web数据挖掘就是利用数据挖掘技术从网络文档和服务中发现和提取信息。Web上各种形式的文档和用户访问信息就构成了Web数据挖掘的对象。根据挖掘对象的不同我们将Web数据挖掘分为内容挖掘,结构挖掘和访问信息挖掘。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解决数据挖掘难题带来了希望。本文研究和探讨了使用XML作为数据交换格式对Web上的数据和Web日志进行数据挖掘,从而发现关联规则。本文完成的主要工作如下:(1) 完成了对基于XML的Web数据挖掘的技术研究并设计了相关系统。本文通过对XML这种近几年出现的具有很大潜力的Internet数据交换技术的研究分析,提出了基于XML的Web挖掘的新思路,并且完成了对XML的Web挖掘系统的系统功能设计。(2) 实现了XML到数据库模式的转化工具。本文主要针对XML的DTD文档,提出了一系...  (本文共61页) 本文目录 | 阅读全文>>