分享到:

基于存储模型的HBase查询优化技术研究

HBase作为Hadoop家族中最主要的非关系型数据库,在生产环境中已经得到了广泛使用。用户可以根据HBase的主键(rowkey)快速地查询一行或多行数据。但是HBase对非标准主键查询并不友好,往往需要全表扫描,效率较低。为了增强HBase的非标准主键查询能力,许多工作从数据模型和二级索引方面提出了各自的解决方案。数据模型层面的方法通常是调整数据的存储结构,使得查询场景可以充分利用HBase的数据模型缩小查询范围,但是一般只能提高特定场景下的查询效率。二级索引是一种更为通用的方案,它借助索引表可以同时提高多个维度的查询效率。但是二级索引需要额外的开销来维护索引表的一致性,进而使得数据插入性能有所降低、集群稳定性受到影响。针对上述问题,本文深入研究了 HBase的内部机制,充分利用HBase的存储模型,提出了一种新的数据模型和二级索引修复引擎。具体工作包括:1.为了获得较为通用并且利于查询的数据模型,本文利用HBase的存储单  (本文共81页) 本文目录 | 阅读全文>>

南京大学
南京大学

大规模语义数据存储和查询技术研究

目前,语义万维网被广泛运用于包括医学、生物、地理信息服务等在内的各个领域。但是随着大数据时代的来临和应用系统规模的不断扩大,产生的语义数据也在以惊人的速度增长。传统的以关系型数据库为基础的语义数据存储管理技术和系统已无法有效存储管理大规模急速增长的语义数据,同时传统的串行化语义查询技术也难以适应大规模语义数据查询处理。在此背景下,通过并行计算技术解决大规模语义数据存储和查询已成为学术界和工业界普遍关注的热点研究问题。然而并行计算技术与应用问题紧密相关,且应用问题本身具有不同的复杂性和多样性,这使得大规模语义数据的处理具有很大的技术挑战,需要在存储、查询等方面都进行深入探讨和研究。针对上述问题,本文在对资源描述框架RDF (Resource Description Framework)和RDF数据查询语言SPARQL (Simple Protocol and RDF Query Language)等相关技术分析的基础上,利用基于工...  (本文共81页) 本文目录 | 阅读全文>>

华南理工大学
华南理工大学

一种基于OpenTSDB的海量实时数据存储系统

海量数据的存储与查询是进行大数据分析的先决条件,如何高效灵活的存取海量数据已成为当前业内的研究热点。华南理工大学能耗数据分析平台采用传统的关系型数据库作为其存储支撑,但受限于其理论模型与体系结构,很难在性能和扩展性方面满足大数据情景下的数据需求。非关系型数据库可以较好的解决这些问题,但其功能往往较为简单,在复杂查询和事务管理等方面支持有限,并且缺乏标准化的查询语言或接口,难以与基于SQL的查询逻辑兼容,技术迁移难度大。为了解决上述问题,本文对能耗分析平台内实时数据的特征进行了详细分析,并在广泛技术调研的基础上,整合关系型数据库与非关系型数据库的各自优势,设计并实现了一套基于OpenTSDB的海量实时数据存储系统。该系统的核心设计思想是:构建由关系数据库和非关系数据库OpenTSDB组成的异构数据库集群,关系数据库中存储关系特征强的、存在事务或复杂查询需求的数据;OpenTSDB则用于支撑海量实时数据的存储。在数据持久层模块上,本...  (本文共94页) 本文目录 | 阅读全文>>

兰州交通大学
兰州交通大学

基于HBase的交通大数据查询优化研究

随着交通数据量的爆炸式增长,传统的交通数据处理手段在处理PB级的交通数据量时效率低下,云计算技术的出现为解决这个问题提供了方向。交通云将交通大数据和Hadoop云平台结合起来,利用Hadoop的非关系型数据库HBase实现对交通大数据的处理。HBase采用横向扩展的方式,通过多台廉价服务器实现海量数据的存储,并且具有高可靠性和高稳定性的特点。首先,提出了基于HBase的交通大数据存储方案。传统的关系型数据在存储交通大数据时存在容量小和效率低的问题,而且交通数据访问具有随机性的特点,为此选择交互式访问效率较高的HBase的进行交通数据存储。同时,为了提高HBase存储效率和访问速度,通过对历史交通数据的调研分析,构建特定行键的HBase表格,并且在HBase仅有的主键查询的基础上增加特定的二级索引,提高查询的速度。其次,提出了基于Phoenix on HBase的查询SQL查询方案。原生HBase不支持SQL查询,只能通过特定行键...  (本文共57页) 本文目录 | 阅读全文>>

湖南大学
湖南大学

一种面向闪存的数据温度感知算法研究与应用

随着大数据的发展,高性能计算在许多规模领域中越来越重要,传统的HDD越来越不能满足实际对高速I/O的需求,基于NAND Flash的SSD已经广泛使用在各类的应用中,但因Flash本身具有I/O不对称性,写前擦除,异地更新,使用寿命有限制等特性,这些特性引起了写放大情况的出现,降低了写性能和减少了闪存的使用寿命,如何有效的对数据进行冷热识别来减少写放大率和延长使用寿命是目前研究的重点。本文针对目前现有冷热识别算法不足之处进行改进而提出了一种数据温度感知算法,它将原来的一个数据访问周期化分为多个子周期,每个子周期中通过CBF进行统计数据页请求次数,利用BF记录当前子周期内达到阈值的数据页,同时引入了温度概念,使用冷、热、温暖三种状态来表示数据的访问情况,这样可以识别忽冷忽热的数据,从而有效的提高数据页面的识别精度。通过理论和实际分析,该算法拥有良好的识别精度,较低的时间和空间复杂度。本文将数据温度感知算法运用在SSD的缓存管理中,...  (本文共62页) 本文目录 | 阅读全文>>

武汉科技大学
武汉科技大学

基于图的服务起源模型与应用

随着移动互联网的兴起,用户数过千万的应用越来越多。为了响应大量的服务请求,互联网公司通过采用分布式服务来提高服务能力,这使得服务之间的关系变得异常复杂。如何在这种动态的复杂的服务网中保证服务的可靠运行变得越来越重要。服务起源作为服务执行历史的存储文件,它记录了不同服务之间的调用信息。对服务起源的存储管理和查询,对于提高服务质量、定位服务瓶颈以及指导资源分配有着至关重要的作用。本文研究了基于图形数据库的服务起源追踪机制,该机制包含服务起源的存储模型和追踪方法。针对服务起源数据存储在关系型和文档型数据库中无法提供高效的服务追踪以及采用图形数据库存储无法进行快速聚合运算等问题,提出了一种基于图的服务起源存储模型。在此存储模型的基础上,提出了基于有向图、基于图模式+关系模式与面向实时任务三种不同的服务追踪方法。基于服务起源追踪机制,本文研究了该机制在分布式服务质量监控中的应用。运用服务起源的追踪运算,进行细粒度的服务状态监控,热点服务分...  (本文共61页) 本文目录 | 阅读全文>>

北京邮电大学
北京邮电大学

WIFI围栏大数据分析系统混合数据存储模型的研究与实现

随着电子商务、社交网络以及移动互联网等应用的不断普及,互联网的使用者贡献出越来越多的数据。而伴随着这些海量数据所带来的系统性能问题也呈现出愈演愈烈的趋势,传统的信息系统不可避免的都会面临着巨大的挑战。因此如何低成本的存储和高性能的访问海量数据已成为目前系统开发需考虑的首要难题。本文中描述的WIFI围栏大数据分析系统是本人所在实验室设计开发的一个基于SpringMVC + MyBatis框架的Web信息系统。随着WIFI围栏设备所采集的数据规模的飞速增长,应用系统对于处理能力的要求使得单纯的依赖于传统关系型数据库的垂直扩展(Scale-up)来提升系统性能的方法变得不再适用。因此本文将系统的应用需求和数据特征作为出发点和立足点,通过对其数据存储层的存储模型进行分析、设计并实现,以期打造一个高效、可靠和安全的信息系统。本文的研究内容主要集中在以下方面:第一,对现有的数据存储模型及其应用场景进行分类总结,并研究它们各自的设计思想;第二...  (本文共69页) 本文目录 | 阅读全文>>