分享到:

基于FP-树的频繁模式和长模式挖掘

数据库的规模急剧膨胀,数据库应用的不断深化,但是数据库管理系统却没有提供有效的工具和方法来利用这些数据,出现了数据丰富而知识贫乏的状况,导致了数据挖掘的出现。作为数据挖掘中重要任务之一的频繁模式的挖掘,被应用在关联规则、相关分析、序列模式、显露模式、最长模式等许多重要数据挖掘任务中,得到了广泛研究。长期以来,挖掘频繁模式主要采用Apriori算法及其改进形式,这类算法需要产生大量候选项集,并反复扫描数据库,降低了挖掘的效率。FP-Growth算法是一种基于模式增长的频繁模式挖掘算法,避免了大量候选项集的产生,只需要两次扫描数据库。效率比Apriori算法快一个数量级。然而,此算法及其改进形式在挖掘频繁模式时不可避免地需要递归地创建附加数据结构,并且每当模式增长时就要创建一次。动态地创建如此大量的附加数据结构,将耗费大量时间和空间。并且以上算法对于不同特点的数据库没有较好的适应性。本文基于模式增长的思想,提出两种新的频繁模式挖掘算  (本文共57页) 本文目录 | 阅读全文>>

国防科学技术大学
国防科学技术大学

数据流频繁模式挖掘关键算法及其仿真应用研究

系统仿真技术综合集成了计算机技术、网络技术、图形图像处理技术、信息处理技术、自动控制技术等多个领域的知识,是系统分析和研究的重要手段。数据挖掘技术是获取仿真数据中隐藏知识的有力工具。随着仿真系统复杂程度的提高和规模的增大,仿真时间越来越长、仿真所产生的数据量越来越大。这使得仿真数据具有数据流的特征。因此有必要采用数据流挖掘技术处理仿真数据。数据流是一种连续、高速、无限、时变的有序数据序列。数据流的特征对数据流的挖掘提出了严峻的挑战。传统面向静态数据集的算法无法直接用于挖掘数据流,而现有数据流挖掘算法存在时空效率不高的缺陷。因此,针对仿真中常用的数据挖掘任务,研究时空效率高效的相应数据流挖掘算法具有重要意义。关联规则挖掘是仿真中最常用的一类数据挖掘任务,而频繁模式挖掘是生成关联规则的关键步骤。为此,论文研究了数据流中频繁模式挖掘的关键算法,重点研究了数据流中最大频繁项集、频繁闭项集和Top-K最频繁项集的挖掘算法,以及基于频繁闭项...  (本文共171页) 本文目录 | 阅读全文>>

北京化工大学
北京化工大学

频繁模式挖掘和动态维护的理论与方法研究

频繁模式挖掘是许多数据挖掘任务中的核心问题,有着广泛的应用。而现有的挖掘方法普遍存在多次扫描数据库或重复遍历复杂数据结构的问题。本文以频繁模式挖掘为切入点,系统地研究了频繁模式/效用频繁模式挖掘和动态维护的理论与方法。主要研究内容如下:1基于分享和继承策略的挖掘理论与方法从频繁模式构成的搜索空间入手,提出了贯穿全文的分享和继承挖掘策略。通过引进分享表结构,避免了由绝对的分而治之带来的重复遍历与计数,提高了挖掘效率;同时,在挖掘过程中根据数据集的局部子集特性动态地调整挖掘策略,给出了提高时间效率与节省空间消耗的优化方法。2效用频繁模式挖掘从分析现有频繁模式挖掘任务的局限性入手,提出了效用频繁模式挖掘模型。该模型同时考虑各项出现的次数及其对目标模型的不同影响程度,能够更好地处理实际的挖掘应用;拓展了频繁模式挖掘的任务。3频繁等价模式挖掘分析了频繁模式压缩表示的方法,提出频繁等价模式的概念和挖掘方法,它将频繁模式中具有等价关系的项集中...  (本文共129页) 本文目录 | 阅读全文>>

燕山大学
燕山大学

基于位序列的频繁模式挖掘算法研究

频繁模式挖掘是数据挖掘领域中的关键问题之一。但是因为现代数据库较大,传统的挖掘方法已经不能满足现在的挖掘要求了,为了提高算法的效率,我们应该克服以下几个问题:(1)占用内存太大;(2)产生候选项集的数量太大;(3)当添加新事务时,需要重新扫描数据库。本文针对这些问题,将研究重点放在频繁模式挖掘算法上,其研究成果可广泛应用于频繁模式挖掘中的各个领域。本文首先针对频繁模式中的搜索方法、数据表示方法和增量挖掘中更新问题进行了研究,并结合相关算法进行了分析,其中搜索方法包括广度和深度优先搜索,数据表示包括水平和垂直数据表示,增量挖掘中的更新问题也包含了三种情况。其次,为了在位序列的基础上减少候选项集的数量,设计了一个基于位序列的频繁模式挖掘算法FIM-BS。首先采用了位序列方法对数据库进行压缩,并且定义了Ilink-array和FCS-tree结构,用来存储频繁模式的相关信息。然后,利用自顶向下的遍历策略以及Apriori反单调性质对F...  (本文共62页) 本文目录 | 阅读全文>>

大连理工大学
大连理工大学

一种基于模式变换的高效关联规则挖掘算法

挖掘事务数据库、时间序列数据库中的频繁模式已经成为数据挖掘中很受关注的研究方向。以前的研究大致可以归纳为两类:一类是类似于Apriori的候选集产生与测试方法,但是在频繁模式较长时,生成候选集需要很大开销;另一类是不产生候选集的算法如FP-growth算法,它比Apriori算法有较大的性能提高,但仍存在着一定的缺点:通过条件模式基的分析产生频繁模式仍然需要大量的开销。本文针对FP-growth算法的不足,给出一种基于频繁模式树的频繁模式挖掘算法FP-reduce。它采用FP-tree的数据结构来存储所有的频繁模式信息并对FP-树的每一个结点都进行剩余保存,即对每一项集中的每一项都复制一份除去该项的剩余项集,并将其添加到FP-树中,这样就可以在保存了原来项集的信息的基础上对原来的项集进行处理:保留或者删除,而不丢失信息。剩余保存使得所需计算的频繁模式不断地缩短,最终可得到所有的二项以上的频繁项集形成的FP-树。理论和实验表明,该...  (本文共51页) 本文目录 | 阅读全文>>

北京交通大学
北京交通大学

海量客运数据中的频繁旅行模式发现算法研究与实现

随着时代的进步,信息储存的规模与日俱增。这样,对积累的海量旅客旅行数据进行挖掘和分析,以期发现旅客旅行的某些行为习惯成为可能。而在数据挖掘领域,对旅行数据进行频繁模式挖掘,正好能发现隐藏在数据之下的旅客旅行行为规律。由于最大频繁项集具有的良好特性,本文着重在海量旅客旅行数据中进行最大频繁项集发现算法研究和实现。论文的主要工作如下:首先,本文对各种经典频繁模式发现算法诸如Apriori, FP-growth, FPmax*等进行了相关论述,举例说明了算法的实现过程,研究了算法的流程,并讨论了算法的优越性和局限性。然后,本文分析了海量客运数据集的一些特点,发现海量旅行数据具有高度稀疏,项的基数巨大,较短项集较短模式,需要挖掘支持度计数很低时的频繁模式等特点。针对其具有的特点,本文开展了一些创新性的工作如下:第一,提出了一种适合于对旅客旅行记录进行频繁项集挖掘的复合项集结构,复合结构中各成员具有各自不同的粒度,等级和逻辑概念,但物理实...  (本文共60页) 本文目录 | 阅读全文>>