分享到:

XML促进Web数据挖掘

Web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。相对于Web的数据而言,传统的数据库中的数据结构性很强,即其中的数据为完全结构化的数据,而Web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。$$    以XML为基础的新一代WWW环境是直接面对Web数据的,不仅可以很好地兼容原有的Web应用,而且可以更好地实现Web中的信息共享与交换。XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。XML已经成为正式的规范,开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据处理提供了很好的方法。使用可升级的三层模型,XML可以从存在的数据中产生出来,使用XML结构化的数据可以从商业规范和表现形式中分离出来。XML的...  (本文共1页) 阅读全文>>

中南大学
中南大学

基于XML的WEB数据挖掘

随着Internet的迅速发展,越来越多的数据库和信息系统不断加入网络,使得网络上存在大量的数据,面对如此缤纷复杂的Web空间,如何从浩如烟海的网络数据中发掘所需信息已经成为人们所关注的一个重要问题。虽然用户可以依赖于各种搜索引擎快速、高效、准确地检索到相关的信息,但是要想找到用户所需要的信息,还是有很大的困难。近年来出现的Web数据挖掘,特别是基于XML的WEB数据挖掘对解决这个难题提供了一个有效手段。本文研究了基于XML的WEB数据挖掘的基本方法和技术。阐明了数据挖掘的必要性、基本方法、主要过程、所涉及到的技术,以及数据挖掘和在线分析处理的联系等,并阐述了XML的相关技术。在此基础上,探讨了XML与WEB数据挖掘技术,认为基于XML的WEB挖掘分为XML结构上的挖掘和XML内容上的挖掘;XML在WEB挖掘中主要有数据交换、实现异构数据集成、裁减信息内容、将负载从WEB服务器转到WEB客户端等四类应用,基于XML的WEB数据挖...  (本文共77页) 本文目录 | 阅读全文>>

华东师范大学
华东师范大学

基于XML和Web数据的关联规则挖掘研究

近十几年来,随着Internet的迅速发展,互联网上的数据越来越趋于庞大。怎样能够有效地利用这些复杂而无章的Web数据、从中发掘出有价值的信息成了现今的研究热点。随着XML的不断发展,互联网上越来越多的信息都开始使用XML表示。XML以其可扩展、平台独立、灵活、规范和简单等特点以及强大的数据表达能力,在网络和其他领域的数据表示和交换方面都扮演着越来越重要的角色。因此,人们迫切地需要寻找一些有效的方法从这些大量的XML数据中提取一些潜在的、有价值的信息和知识。但是Web上的XML数据非常复杂,没有特定的模型描述数据,是半结构化的甚至是无结构的数据。所以,面向XML的数据挖掘技术有着不同于传统数据库上的数据挖掘技术的特点。它对半结构化数据的集成和组织,对挖掘算法的性能都提出了新的挑战。本文根据Web上XML数据的半结构化的特点以及XML查询语言XQuery、.NET DOM对XML操作的支持,针对如何直接从XML数据中提取有价值的关...  (本文共86页) 本文目录 | 阅读全文>>

武汉大学
武汉大学

基于XML的Web数据挖掘技术的研究

网络技术已经渗透到了社会生活的方方面面,随着Internet在世界范围内的迅速发展,越来越多的数据库和信息系统不断加入网络,使得Internet发展为当今世界上门类最全、规模最大的信息库。伴随计算能力的增长,智能算法的成熟及大规模数据存储技术的成熟,面对缤纷复杂的Web空间,如何从浩如烟海的网络中发掘所需信息成为人们所关注的一个主要问题,Web数据挖掘使解决这个问题的一个有效手段。本文首先介绍了数据挖掘的一些基本概念、方法和技术、工具,阐明了什么是数据挖掘、为什么要数据挖掘、如何进行数据挖掘、数据挖掘的主要过程、数据挖掘所涉及到的技术、分类及数据挖掘和OLAP(在线分析处理)等的联系等,并介绍了有关数据挖掘发展情况。在论述了数据挖掘技术理论之后,研究了数据挖掘技术在WWW上的应用,其中,阐述了XML的产生与发展、特点以及和HTML的比较,然后,详细探讨了Web挖掘的内容、流程、任务,它与数据挖掘的联系与区别。在Web上的半结构化...  (本文共61页) 本文目录 | 阅读全文>>

太原理工大学
太原理工大学

基于XML的Web实时信息挖掘

自从Internet诞生以来,互联网上的信息正以指数形式飞速增长。如何在WWW这个全球最大的数据集合中发现用户的有用信息已成为数据挖掘研究的热点,Web数据挖掘也由此应运而生。Web是一个巨大的、广泛分布的、高度异构的、半结构化的、超文本、超媒体的、相互联系并且不断进化的信息仓库;是一个巨大的文档积累的集合,包括了丰富、动态的超链接信息以及Web页面的访问和使用信息。由于现行的网络环境以HTML语言为基础构建,它是一种只能描述形式而不能揭示内容的语言,因此,Web上的半结构化数据和异构数据源问题给Web数据挖掘带来了困难。W 3C开发的XML (Extensible Markup Language)可扩展标记语言,支持丰富的数据结构,特别强调数据语义与元素之间的关系,因此基于XML的Web数据挖掘可以充分利用XML的特点,为Web数据挖掘带来了新的契机。同时,在信息更新速度如此之快的今天,用户已经不满足只挖掘出某些信息,而是需要...  (本文共106页) 本文目录 | 阅读全文>>

电子科技大学
电子科技大学

基于数据挖掘的语义web系统设计与实现

随着互联网络的飞速发展,互联网络涉及到了新闻、政府、教育、广告等社会各个方面。Internet应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于Web的应用。在信息技术的推动下,Web已经成为了社会上信息生产、加工、发布和处理的主要凭条,Web上的数据正在呈爆炸式增长,为了帮助用户在海量的Web数据中迅速找到有用的信息,从Web服务和文档中发现有用信息的数据挖掘也成为了当前研究的重点。Web挖掘就是从互联网络上的Web文档中抽取隐藏的信息和模式,但是Web海量的数据大多都是非结构化或者半结构化的,因此利用传统的数据挖掘技术来挖掘web上有用信息的效果不佳。语义Web是现有Web的扩展,并且使得Web不仅仅是一种信息展示的平台,同时也有助于计算机理解Web上的内容。本文一方面,对如何在Web上提取新的语义本体结构来发展Web挖掘进行了研究;另一方面,如何针对所研究的语义网结构在Web挖掘中的应用进行了实例验证...  (本文共64页) 本文目录 | 阅读全文>>