分享到:

流数据近似统计算法研究

侧司1引宫 随着互连网的发展,越来越多的数据以流的形式出现,如网络中的数据包,网页的点击记录等等,这些数据的共同特点是:流t巨大,不可复现.这种类型的数据,称为流数据.流数据的统计,在许多决策系统中起着重要作用,如网络监控、网页的点击统计等等.而传统的统计算法,却不能应用与流数据的统计.因此,研究流数据的统计算法具有重要的理论意义和实用价值。 国内外学者对流数据的统计进行了大量的研究:Alon在理论上证明了流数据频率统计算法的最小空间复杂度。].文[2,习分别提出了两种适应流数据频率统计的采样算法。Ananthakrishna利用分位数解决了流数据的统计问题[’J。Gilbert基于小波技术对流数据的统计问题提出了解决方案[s1 .Guha研究了直方图并将其扩展到可以解决流数据的统计问题[.j .Datar提出了指数级直方图,解决了流数据的统计问题川.Gibbons提出了波浪技术,并将其应用到流数据的统计问题川. 但是,以上算法...  (本文共3页) 阅读全文>>

《燕山大学学报》2005年04期
燕山大学学报

基于流数据的动态存储技术

0引言人们在信息活动中不断地产生数字化信息,各种新型应用也层出不穷,如流媒体、数字电视、IDC、ASP、ERP、数字影像、事务处理、电子商务、数据仓库与挖掘等,因此造成数据总量呈几何级数增长。据UCBerkley2001年公布的数据显示,未来3年内所产生的数据将超过过去4万年中产生数据的总和。如此海量的数据如何存储成了研究的重点。传统的数据库系统的那种建立在基于“持久”数据集的概念之上的、低的更新率和非实时性的数据的方式已经不再适合流数据。所谓流数据(streaming data)1是指:一系列连续且有序的点组成的序列1,2,,,按照固定的次序,这些点能被读取一次或者几次,形成了流数据。它们可以组成有序连续的元素列表[2]。从定义中,可以得出流数据具有以下特点:1)数据源源不断、永无止境、数据量庞大;2)数据变化频繁、快速响应、具有实时性;基于流数据的动态存储技术是建立在“瞬间流”的数据集的概念上,针对流数据的产生带来的存储上的...  (本文共4页) 阅读全文>>

《小型微型计算机系统》2005年10期
小型微型计算机系统

流数据实时近似求和的算法研究

1引官 流数据是实时、连续、顺序、并且只传输一次的系列数据. 通常,新到达的流数据更能反映流数据总体变化趋势,因此具 有更加!要的参考价值. 当前,流数据已经成为国外的一个研究热点.[1一3〕分别 提出了处理流数据的系统框架.也有文章对有关数据流的琅 集查询进行了研究.Gilbert[’1提出了一种基于小波的技术,能 利用少t的空间有效的对流数据进行表示,在此基础上,能解 决范围求和的向题.Datar等人,基于滑动窗口,研究了流数 据的统计算法困,解决了流数据统计问题,然后扩展该统计算 法,初步解决了流数据的实时求和问题. 本文要解决的是关于流数据的实时近似求和问题. 2理论依据 源源不断的流数据,不可能全部保存.有若干策略可以用 来减少保存的的流数据t,而能满足快速的,近似的聚集查询 的需要.策略大体有以下几种:采样(sampling),小波 (wavelet),统计直方图(histogram)等等.vitter提出T一种 采...  (本文共4页) 阅读全文>>

《燕山大学学报》2005年02期
燕山大学学报

流数据技术及其应用现状

0 引言 近年来,随着网络的飞速发展,大量数据的处理也逐渐成为了人们开始研究的问题,一些数据由于数量太大(可能每天都有 10 GB 以上的数据),不宜永久保存。这种应用的领域有很多,如金融服务、网络监控和安全、电信数据管理、Web 应用、生产制造和传感检测等。在这种数据应用模型中,单独的数据单元是一些元组,如网络传输中的数据报、电话呼叫记录、网站的点击,传感器的读数等等。但由于这些数据有量大、快速、时变的特点,不能采用传统的方式来研究它们。若仅是简单的将数据放到传统的数据库中并进行操作也是不切实际的,因为大量的数据会造成数据库无法正常使用,而且大部分数据不需要永久的保存,可能很快就会被删除。这种情况下,数据更新和查询的效率都非常低。 人们通过对实际问题的研究,提出了流数据和流查询的概念。而流查询是对流数据进行分析、处理的主要方式。流查询的主要特点是连续查询,查询也是作为“流”来进行处理。1 流数据及流查询概念1....  (本文共4页) 阅读全文>>

《计算机应用研究》2011年04期
计算机应用研究

一种面向流数据频繁项挖掘的降载策略

0引言近年来,随着高速网络技术的发展,各种高速、大容量的流数据实时处理已遍布各种应用领域,如网络监控、金融领域、网络入侵检测,传感器网络等,这些应用领域产生的数据是以流形式出现的,具有快速、无限、连续、实时的特点。能够对流数据进行处理的这些系统被称为流数据管理系统(DSMS)[1],与传统数据库管理系统(DBMS)相比,流数据管理系统的最大特点在于它的查询方式有所不同,它的这种查询被称为连续查询(continuous query)[2],其特点是用户首先预先定义查询,然后查询处于长期执行状态直到用户停止,随着外部流数据源源不断地进入流数据管理系统,这些查询不断地接受新的数据并进行查询处理,产生新的查询结果。由于系统的处理能力有限,且流数据的速率具有不可预见性,这给流数据连续查询的正常运行带来极大的挑战。当输入的流数据速率增加到超出系统的处理能力时,如何保证系统的正常运行已成为流数据查询处理研究的一个热点问题。近年来,国内外针对流...  (本文共4页) 阅读全文>>

《计算机技术与发展》2009年04期
计算机技术与发展

流数据和传统数据存储及管理方法比较研究

0引言数据挖掘的对象一般是来自关系数据库、数据仓库和事务数据库里面的数据,称其为传统数据或静态数据。另一种形式的数据最早出现于银行和股票交易领域,现在广泛应用于Web服务器的日志记录、传感器网络数据监控与分析和电子商务等方面,这类数据具有连续快速、短暂易逝和不可预测的特点[1],称其为流数据或动态数据。流数据是由Henzinger等人于1998年在论文“Computing on Data Streams”中首次提出[2]。自21世纪以来,流数据已经成为一个新的研究领域,对流数据的查询、分析及挖掘是在快速和大量的流数据上进行的,由于数据收集时间和分析处理速度的限制,使得应用于传统数据挖掘的一些技术和方法不能很好的适应流数据。文中将从管理系统和存储方式两方面着手对流数据和传统数据进行比较。1流数据和传统数据的比较1.1管理系统和流数据相比,传统数据是静止的且规模较小,可以完全存储在数据库中,对传统数据的管理可以利用成熟的数据库管理系...  (本文共4页) 阅读全文>>