分享到:

满足海量数据处理

曙光天阔R4280A是曙光最新推出的64位四路机架式服务器,具有良好的平滑升级能力、可扩展性和高可用性,是一款拥有海  (本文共1页) 阅读全文>>

权威出处: 网络世界2004-02-23
西安电子科技大学
西安电子科技大学

面向海量数据的实时计算一致性研究

大数据和云计算等概念和相关技术随社会需求和行业需求的提高得到了飞速发展。在传感网络、气象分析、卫星监控、核模拟和电磁计算等关键领域,数据的产生和处理需求已经到了海量级别,充分利用这些数据,就可以极大的提高企业、机构和国家的生产率与竞争力。目前对海量数据的研究从根本上来说仍然属于大数据处理技术研究的范畴。虽然国内外企业及研究机构对分布式存储和计算都有一定的研究,但是具体到海量数据的分布式存储和计算问题,特别是对多数据中心协同计算环境下的数据一致性这一细分领域的研究相对较少,还不能适应多数据中心协同实时计算所具有的异构性较强、计算任务较重、流程间交互关系复杂的特点。本文对支持海量数据实时计算需求的一致性进行了研究,主要工作如下:通过研究支持海量数据的分布式存储架构、海量数据的副本备份管理策略和多数据中心协同计算的数据一致性机制,分析海量数据实时计算环境的特点和数据一致性需求;针对海量数据实时计算中数据一致性问题需求,基于对数据中心网...  (本文共71页) 本文目录 | 阅读全文>>

西南大学
西南大学

基于Hadoop的并行化算法实现及GPS数据实例分析

随着云计算、物联网和移动互联网的快速发展,大数据正成为信息技术的新热点,产业发展的新方向,对人类的生产与生活产生巨大影响。大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理平台的分析与挖掘,产生新的知识用以支撑决策或业务智能化运转,大数据时代的到来给数据管理与分析提出了新的挑战,数据处理方法的合理性和时效性成为了大数据统计分析的研究热点。近年来,基于数据挖掘算法的大数据分析是研究的重要方向,但大都是以传统单机环境下数据挖掘算法改进为主,由于受内存、扩展性等限制,不能有效满足激增的海量数据处理需求,为此本文研究传统数据挖掘算法在MapReduce并行编程环境下的实现方法,同时,针对大数据时代海量数据的存在形式及Hadoop平台处理海量小文件数据时的性能瓶颈,提出海量小文件处理策略,最后,以出租车GPS数据为实例,对MapReduce实现短时交通路预测的高效性进行验证,在Hadoop环境下,改进基于MapReduce的K...  (本文共67页) 本文目录 | 阅读全文>>

长春理工大学
长春理工大学

基于海量数据存储的性能测试与优化研究

随着数据存储规模的不断扩大,传统磁盘阵列技术和网络存储技术已经不能满足海量数据存储的性能需求,高性能的云存储技术逐渐取代传统数据存储技术。为了满足海量数据存储系统的性能需求,本文使用云存储服务代表之一的Hadoop分布式存储框架,结合非关系型数据库HBase、分布式文件系统HDFS和并行编程模型MapReduce,为库存与物流配送管理系统搭建和部署Hadoop集群,满足系统的分布式、大容量、高性能和高扩展性的要求。严格按照性能测试的流程,使用自动化测试工具LoadRunner对系统进行性能测试,整理测试结果,分析系统的性能瓶颈,最后通过HBase数据库优化、Hadoop集群优化、Web服务器升级和作业调度策略改进,实现系统性能优化的目标。  (本文共57页) 本文目录 | 阅读全文>>

齐鲁工业大学
齐鲁工业大学

面向海量文本的分类算法研究

近些年随着个人电脑的快速普及以及手机移动通信业务的快速发展,互联网规模也在不断扩大,并且产生了海量的文本类数据。这些数据含有许多有用的信息,为人们提供了更加便捷的生活,然而这些数据数据量巨大,杂乱无章,且一直在快速增长,导致许多有用的信息不能被挖掘。而文本分类恰好能对这些杂乱无章的数据进行处理,是数据挖掘和信息检索的基础。目前有部分文本分类方式仅仅通过短语词组和文档标题来进行分类,虽然简单快速,但准确性差。部分文本分类方法对少量文本数据处理良好,但对于海量数据,随着数据量的增大,而效果呈指数级递减。为了更好的处理海量数据的文本分类算法问题,本文结合文本分类的基本过程,对文本分类的关键算法进行修改、创新,利用开源的Hadoop分布式计算平台,并行实现了文本分类算法,在保证准确率的前提下,提高了海量数据的文本分类效率。首先,本文简单的介绍了文本分类的基本过程,然后详细介绍了文本分类的几个关键技术:特性提取、文本表示、文本特性选取、文...  (本文共69页) 本文目录 | 阅读全文>>

北京邮电大学
北京邮电大学

基于Hadoop的海量网络数据处理平台的关键技术研究

近几年,云计算产业飞速发展,大数据处理技术也在不断成熟。与此同时,国内移动互联网市场规模不断扩大,用户数量已经超过5亿,并带来了海量的移动互联网流量数据。在此背景下,如何基于云计算大数据处理技术来承载海量网络数据处理业务,是一个非常有研究价值的课题。从移动互联网的现状来看,一方面移动数据流量猛增,给运营商带来了巨大的运营压力,需要其投入更多的资金来进行网络建设与升级,另一方面由于移动数据业务增长,传统的语音短信等业务出现下滑,导致运营商出现增量不增收的现状。因此研究如何使用通过流量通道获取到的海量移动互联网数据流量资源,对于电信运营商有着十分重大的意义。针对移动互联网流量数据的特性,本文对基于Hadoop的海量网络数据处理平台的关键技术进行了深入研究。具体来说,本文的主要研究内容和创新点如下:1.提出了一种针对移动互联网的海量数据处理架构针对移动互联网中海量网络数据处理业务的特点和存在的问题进行相关研究,提出了一种承载海量网络数...  (本文共143页) 本文目录 | 阅读全文>>