分享到:

XML数据索引技术

XML(最新的规范为2004年的XML1.1)(extensible markup language),即可扩展的标记语言,是一套定义语义标记的规范,其目标是能够定义计算机和人都能方便识别的数据类型.随着网络应用的快速发展,尤其是电子商务、Web服务等应用理念的进一步发展,使得XML类型的数据成为当前主流的数据形式.对XML数据的管理也成为研究的热点[1].XML数据的基本形式是XML文档.对XML数据的处理分为两种不同的方式,一类是XML流处理,另一类为静态数据处理方式,即传统的数据管理形式.在后一种处理方式中,类似于索引在关系数据管理系统中的地位,XML索引技术仍然是研究人员考虑的主要内容,也是本文关注的内容.本文首先概述了基于静态XML文档数据之上的查询处理的情况,针对查询中的不足,将当前研究文献中出现的XML索引分为两大类别,并简要叙述了XML索引设计中应该考虑的主要因素;之后对当前XML索引的研究,分别从结构关系表示、...  (本文共17页) 阅读全文>>

东北大学
东北大学

关系-XML双引擎数据库管理系统CoSQLRX中XML数据索引的研究与实现

本文主要描述了基于关系-XML双引擎数据库管理系统CoSQLRX的XML数据索引的研究与实现。双引擎数据库系统是指能同时处理关系型数据和XML类型数据的数据库系统。随着XML相关技术的发展,XML数据的应用领域越来越广泛,许多领域都存在对关系数据和XML数据统一管理的应用需求,目前国内却缺少有影响力的关系-XML双引擎数据库管理系统,所以CoSQLRX数据库管理系统的实现具有重要的现实意义。CoSQLRX系统在关系型数据库管理系统的基础上,加入纯XML存储和XML查询处理技术,可以完成许多领域中的数据管理工作,例如企业信息化和电子商务等领域。创建XML索引是加速XML查询的重要手段。在CoSQLRX系统中,XML数据索引是一个重要的模块,本文主要阐述了针对此模块的研究与实现。首先,本文介绍了XML数据索引的概念及其研究背景和现状,分析了几种基本的XML索引类型以及相应的特点。然后,本文阐述了XML索引模块的设计。文中介绍了XML...  (本文共78页) 本文目录 | 阅读全文>>

吉林大学
吉林大学

半结构化数据的索引技术研究

XML技术从它推出之日起就预示着会有光明的前途,特别是随着近几年Web Service的迅猛发展,XML越来越频繁的出现在数据交换和存储领域,如何高效的存储和管理海量的XML数据已经成为亟待解决的问题。查询处理是XML数据存储和管理领域研究的重要内容,而如何对XML数据建立合适的索引又成为XML数据库技术的关键。本文分析了XML数据的索引策略及索引特点,在深入研究XML数据存储和管理的基础上,结合当前互联网中搜索引擎的技术特点,提出了改进的将结构查询与搜索引擎中倒排索引技术相结合的方法,以建立将结构索引与全文索引相结合的联合索引技术。其中,提出了适合于基于B+树建立索引的编码机制,并使用B+树来为经过特殊编码处理后的XML数据节点建立结构索引。而对于XML元素的文本内容,则采用传统的搜索引擎中的倒排索引的方法为XML数据的节点内容建立全文索引。本文在XML文档树中的节点编码,索引结构,查询处理等方面都做了相应的改进与创新。在查询...  (本文共57页) 本文目录 | 阅读全文>>

东北大学
东北大学

关系-XML双引擎数据库管理系统CoSQLRX中XML数据索引的研究与实现

随着XML数据逐渐成为数据发布和交换的标准,对XML的高性能数据管理需要越来越迫切,但由于历史原因,关系式数据还占很大的市场份额,单纯的XML数据管理并不能满足当前的需要,采用关系数据和XML数据的混合管理逐渐成为目前数据管理领域的主流趋势之一。CoSQLRX系统是关系-XML双引擎数据库系统,可以处理关系查询和XML查询。XML索引模块是CoSQLRX系统的重要组成部分之一,对加速XML查询处理起着十分重要的作用。本文着重于XML索引的研究,通过对各类XML索引技术的分析,提出并实现了CoSQLRX系统框架中的XML索引结构。首先,介绍了XML索引的相关概念和研究工作。XML索引技术可以分为很多种类,如路径索引、值索引、结点索引等,每一类XML索引都独具特点,本文从XML索引对象的角度,主要研究了XML结构索引和XML值索引。XML结构索引针对XML文档的结构信息,包括XML文档的路径信息、XML文档的父子结点信息、XML文档...  (本文共74页) 本文目录 | 阅读全文>>

吉林大学
吉林大学

半结构化数据索引技术的研究

XML作为特殊的半结构化数据,提供了一种标准化、灵活、强大的服务,是实现网络功能的最好的选择。在整个互联网中,对于海量的XML数据,对其高效的查询提出了迫切的需求,这就需要良好的索引机制。本文通过深入研究XML编码技术,弥补了传统编码的不足,提出了新的编码方法,对XML文档树进行相应的编码处理,建立基于B+树的良好结构索引,另外使用二维倒排表,克服了传统倒排表的缺陷,建立了相应的XML文档内容索引,提出了结构和内容相结合的混合索引结构,既能够支持针对路径表达式的结构查询,又能够快速支持基于关键词的内容检索。通过实验,表明混合索引结构能够较好的支持结构查询和内容查询,减少了索引建立的时间,有效降低了索引占用的空间,本索引的灵活性好,并具有一定的变化更新能力。本课题隶属于吉林省科技发展计划项目“半结构化数据库关键技术研究”(20090704)  (本文共61页) 本文目录 | 阅读全文>>

江西理工大学
江西理工大学

本原GML空间数据存储与索引研究

GML是开放式地理信息系统协会(Open Geospatial Consortium, Inc.?, OGC)制定的、基于XML的地理信息编码规范,它中立于任何厂商、任何平台,为地理信息包括地理要素的空间与非空间特征信息的建模、传输和存储提供了统一的框架。它的出现为空间数据的共享和互操作提供了很好的解决方案,同时也给Web GIS技术的发展开辟了新途径。GML是XML数据编码在空间信息系统中的扩展。因此,它既具有XML基于文本、可扩展、自描述、能够嵌套表达复杂数据模型等特征,也具有空间数据的海量、复杂、不可排序等特征。目前GML已成为空间数据编码、交换的国际标准,大量GML空间数据的不断涌现,给我们带来了新的挑战,如何有效地管理、操纵这些GML空间数据,如何建立良好的索引机制以实现高效地检索数据量大大增加的GML文档是当前急待解决的问题之一。利用数据库管理操作海量的GML数据和文档目前是最有效的方法。根据数据模型和编码方式的不同...  (本文共93页) 本文目录 | 阅读全文>>