分享到:

一种改进的混合范围划分方法

1引言在并行实时数据库系统中,为了实现数据处理的并行性,需要将数据划分到各个节点机上,以充分利用并行带来的I/O性能和处理能力的提升。对于并行数据库系统上的数据划分,已经有相当深入的研究,提出了一些划分理论和算法。本文将以这些理论为基础,研究SN(Shared-Noth-ing,简称SN)结构的并行实时数据库系统的数据划分算法。2研究现状S.Ghandeharizadeh等在文献[1]中提出了混合范围划分方法(Hybrid Range Partitioning Strategy,简称HRPS),并在Gamma数据库系统[3]中试验过,得到了较好的性能表现。但是,该方法会产生数据倾斜问题。KhanhQuoc Nguyen等在文献[2]中提出了加强的混合范围划分方法(Enhanced Hybrid Range Partitioning Strategy,简称EHRPS),解决了上述方法造成的数据倾斜问题。虽然EHPRS划分方法解决了...  (本文共3页) 阅读全文>>

国防科学技术大学
国防科学技术大学

面向自然图的分布式图计算优化技术研究与实现

随着网页检索技术、社交网络、生物信息科学的快速发展和人脑计划实施,图论知识和算法得到了广泛应用和发展。图领域数据规模正以前所未有的速度急剧增加,云计算技术的飞速发展,分布式图计算已成为已经成为学术界与工业界的研究热点。提升海量图数据划分效率,降低内存存储开销,减少机器间的通信量等等,已经成为分布式的图计算平台性能优化的关键性问题。GraphA是本文作者基于Spark分布式平台实现了一个简单的图分布式处理平台,本文通过研究GraphA的数据划分和内存存储管理效率探讨了分布式图计算性能优化技术,重点围绕自适应的分区算法和基于ART索引的存储方式展开了深入研究。本文的主要研究内容和贡献包括:一、深入研究并分析了分布式图计算的基本原理和特点,包括MapReduce、BSP、GAS三种基本的分布式计算框架,这些是本文优化方案的基础支撑技术;另外,重点论述了已有的图数据划分算法及相关存储技术,总结前人研究成果的优点和应用价值,并结合“自然图...  (本文共76页) 本文目录 | 阅读全文>>

北京工业大学
北京工业大学

异构多核架构下基于负载感知的数据划分策略的研究

数据划分是异构多核处理器中CPU-GPU异构计算的主要协同并行计算模式,不同的处理器对不同的数据进行相同的操作。程序把将要处理的数据读入内存后,CPU和GPU都能获取数据并计算,计算完成后,CPU直接取得内存中的结果并呈现给用户,该过程中计算环节存在影响完成任务时间的可变因素,CPU与GPU之间的数据分配策略直接影响任务完成的时间,最佳的策略必须保证负载不均最小,使得CPU、GPU尽可能同时完成任务,避免一个处理器等待另一个处理器完成计算的情况。异构系统的负载均衡问题由来已久,提出的策略大都针对任务间或数据间没有依赖关系的研究,采用的实验平台基本都是配有独立GPU的系统或者多个计算节点的系统,使用新编程模型编写的CPU-GPU协同并行计算的程序在具有新异构架构特性的异构多核处理器上的性能研究尚未深入。处理器的负载与程序在处理器上的性能成正比是任务调度策略或负载均衡策略遵循的基本原则,最新异构架构中各处理器间存在激烈的资源竞争,程...  (本文共59页) 本文目录 | 阅读全文>>

华中科技大学
华中科技大学

数据库集群环境下数据划分与查询优化的研究

企业信息化发展过程中初期由于业务规模小、业务数据量不多,企业通常会采用集中式的数据库系统来存储业务数据,但是随着业务规模的扩张业务数据量会不断增长,集中式数据库系统很快会成为企业信息系统的瓶颈,出现业务查询速度慢等问题。在实习过程中所在公司也同样遇到了这个问题,公司采用了基于中间件的MySQL数据库集群解决方案。在此背景之下,本文对数据库集群系统上的数据划分和查询处理进行了研究和分析,并以此为基础来实现查询优化。在数据库集群环境中,一般要先进行数据划分,然后将划分后的数据分散存储于后台各数据库服务器上,这样做可以带来诸多方面的好处,但是也引入了一些新的问题,其中一个就是查询的处理。中间件收到用户的查询请求后要根据请求中数据表的划分存储信息来得到路由信息,并据此将查询请求路由转发到相应的后台数据库服务器上去执行,待各后台数据库返回部分结果后,中间件又要对结果进行合并处理,最后返回客户端合并的结果,在这个过程中可以结合数据划分对查询...  (本文共57页) 本文目录 | 阅读全文>>

《软件导刊》2017年04期
软件导刊

基于相似度代价计算的内存数据库集群数据划分

0引言在数据库集群系统中,数据划分和数据分布是系统运行的基础,做好划分和数据分布可以有效提高系统运行效率。随着内存数据库以及内存数据库集群的出现,针对内存数据库集群的数据划分算法也逐步出现,但都是基于传统数据库集群的解决方案,即仅考虑数据相关性。同时对相似性判断标准都是基于经验性判断选择50%为标准。本文提出基于相似度代价计算的内存数据库集群数据划分策略,在数据相关性基础上提出事务相关性规约,并将相似性判断条件扩大到40%~60%范围内,以更准确、精细地进行数据划分。1数据划分基本概念数据划分又称为数据分片或者数据分割,是数据库集群的特征之一,是将集群的数据全集划分为独立的数据片段。数据划分必须遵守3个原则:完整性、不相交性和可恢复性。数据分片方法有3类:水平分片、竖直分片和混合分片。具体分片策略主要有Range分片算法、Round-Rob-in分片算法、Hybrid-Range分片算法、表达式分片算法、时间分片算法、哈希分片算...  (本文共3页) 阅读全文>>

《武汉大学学报(信息科学版)》2015年10期
武汉大学学报(信息科学版)

一种基于流形学习的空间数据划分方法

空间连接(spatial join)操作是空间数据库系统中最重要的一个操作,即从两个数据集中获取满足一定空间谓词(如相交、覆盖等)的空间对象[1]。对于大数据量的空间数据,直接进行空间连接操作需要耗费的资源较大,这是因为直接对大数据量的空间数据进行网络传输时需要耗费较高的网络带宽,同时空间数据结构复杂,进行空间连接时涉及到复杂的图形操作,需要的运算开销较大[2]。空间数据划分能够有效地解决这一问题,它通过将待连接的两份数据进行划分,可以对划分结果分别进行连接操作,从而降低系统负载,提高空间连接效率。由此可见,数据划分是大数据量空间数据连接的前提和基础。为了保证空间连接查询的效率,要求空间数据划分结果尽量保持较低的冗余度和较高的数据均衡度[3]。现有的数据划分方法主要包括空间填充曲线划分方法[4]、空间位置范围划分方法[5]、聚类划分方法[6]、空间索引划分方法[7]等。基于空间填充曲线进行空间数据划分主要是运用空间填充曲线将空间...  (本文共6页) 阅读全文>>