分享到:

最大频繁项集挖掘算法及应用研究

频繁项集的挖掘是数据挖掘中的一个基础和核心问题,具有广泛的应用领域。由于它是数据挖掘过程中最耗时的部分,挖掘算法的好坏直接影响数据挖掘尤其是关联挖掘的效率和应用范围。因此,最大频繁项集挖掘算法的研究具有重要的理论和应用价值。在对数据挖掘中的核心问题,即频繁项集的挖掘算法及其并行化技术,进行深入研究的基础上,围绕最大频繁项集的挖掘算法和应用,研究了高效的挖掘最大频繁项集的串行算法和并行算法,并将最大频繁项集挖掘算法应用于入侵检测。频繁项集的挖掘是一个搜索问题,剪枝优化技术是提高频繁项集挖掘效率的一个重要手段。文献中在频繁项集挖掘算法中用到的剪枝优化策略可归纳为:根部剪枝、频繁扩展和不扩展三种策略。在分析与研究传统剪枝策略的基础上,提出了新的剪枝策略——多步回退剪枝策略。多步回退剪枝策略在发现一个最大频繁项集后最多可一次回退k层(k为所发现的这个最大频繁项集的长度),最好情况下可将要扩展的节点数量从降低为。与文献中深度优先搜索中  (本文共112页) 本文目录 | 阅读全文>>

天津大学
天津大学

基于有向项集图的关联规则挖掘算法研究与应用

数据挖掘(Data Mining,简称DM)也叫数据库中的知识发现(Knowledge Discovery in Databases,简称KDD),是指从大型的数据库中发现潜在的、新颖的、有价值的、可用的、能被用户理解的模式和信息的过程。关联规则挖掘是数据挖掘的一个重要的研究领域,主要是发现数据库中属性之间的关联关系。本文在广泛查阅国内外文献的基础上,针对关联规则挖掘算法的若干问题进行了深入地研究和分析,论文取得的主要成果和创新点如下:针对目前关联规则挖掘研究缺乏理论基础的问题,将数学中的格论和形式概念分析等理论引入关联规则挖掘研究中,有效地描述了关联规则挖掘的问题空间,并提出了基于形式概念分析理论的关联规则挖掘的一系列定义和性质。针对传统的频繁项集挖掘方法中存在的生成大量候选集、多次遍历数据库计算项集支持度等问题,本文以图论为基础提出了基于有向项集图的频繁项集挖掘算法。算法将原始数据库中的信息保存在有向项集图中,将数据库中的...  (本文共118页) 本文目录 | 阅读全文>>

燕山大学
燕山大学

基于位值压缩存储的频繁模式挖掘方法及应用研究

计算机技术已经成熟地应用于现实生活中的各个领域,实现了对数据的收集、存储以及简单统计处理分析。数据挖掘技术能够进一步发现隐藏在数据中的关联规则,而频繁模式挖掘是关联规则挖掘的重要步骤。频繁模式挖掘有着广泛的应用领域,根据挖掘对象的不同,又可以得到不同的分类。本文对现有的频繁模式挖掘算法进行了详细的总结,根据事务中项发生的位置,采用位置值或者比特位的形式压缩存储数据集,基于位值压缩存储研究频繁模式中的频繁项集挖掘算法和频繁序列挖掘算法,设计了不同挖掘要求下的高效算法以及适用于生物序列和顾客购买行为分析的应用算法。本文的研究内容和创新成果如下:首先,介绍了频繁模式挖掘的相关定义和分类,并给出了不同分类下的典型算法。通过研究现状分析,对现有频繁模式挖掘算法进行总结对比,进一步学习算法各自的优缺点,发现其中存在的问题和面临的新挑战。在充分了解频繁模式挖掘算法发展过程的基础上,列举频繁模式挖掘算法的典型应用,根据频繁模式挖掘算法的理论意义...  (本文共111页) 本文目录 | 阅读全文>>

中南大学
中南大学

数据流频繁模式挖掘关键算法及其应用研究

随着计算机技术的高速发展和信息技术的广泛应用,数据流已在商务管理中的性能检测、网络流量管理中的异常检测及报警、零售业中的事务处理等领域中得到广泛的应用。数据流的分析和挖掘已成为一个热点研究问题。其中,数据流频繁模式的挖掘是数据流挖掘中最基本的问题之一,因此数据流频繁模式挖掘的研究更具有挑战意义。现行的基于数据挖掘技术的入侵检测系统不仅对新的攻击或特征未知的入侵无能为力,而且检测的实时性和准确性均达不到实际应用的需求。研究高效的、实时性强的数据流频繁模式挖掘算法并将其应用于入侵检测系统中,将会推动入侵检测走向实用,因此,基于数据流挖掘技术的入侵检测系统的研究在理论上与实际应用上都具有重要意义。针对现有最大频繁项集挖掘算法中存在压缩存储结构复杂、结点维护量大、时空消耗偏大等问题,本文提出了一种基于前缀模式树的最大频繁项集挖掘算法MMFI-DS.该算法设计的压缩存储结构——SEFI-tree结构简单,捕获数据流重要信息元素的能力强,结...  (本文共116页) 本文目录 | 阅读全文>>

浙江大学
浙江大学

频繁闭合项集挖掘算法及应用研究

频繁项集的挖掘是数据挖掘中的一个基础和核心问题,具有广泛的应用领域。由于它是关联性挖掘过程中最耗时的部分,挖掘算法的好坏直接影响数据挖掘的效率和应用范围。因此,频繁项集挖掘算法的研究具有重要的理论和应用价值。频繁项集挖掘输出的项集集合通常非常庞大。在生成的频繁集中,有相当大一部分是冗余的信息。这不仅带来了时间和空间上效率低下的问题,而且会导致生成许多冗余的关联规则。针对这个问题,存在两种解决方案。一种称为最大频繁项集,即挖掘频繁项集晶格中的最小元素。另一种称为闭合频繁项集,即挖掘Galois算子定义的频繁项集等价类内部的最小元素。闭合频繁项集保证没有任何信息损失,而最大频繁项集挖掘则无法保证。在广泛查阅国内外文献的基础上,围绕“频繁闭合项集”的概念,从传统的批量式算法,在线的增量式算法,具备高容错性的近似算法,以及频繁闭合项集在推荐系统中的应用这四个角度出发,展开系统的讨论:1.批量式算法:提出一个简单高效的频繁闭合项集的批量式...  (本文共194页) 本文目录 | 阅读全文>>

深圳大学
深圳大学

最大多样频繁项集挖掘算法研究

随着信息技术的飞速发展,数据达到前所未有的规模体量。大规模的数据在给人们的日常生活、工作来了便利的同时也产生了许多问题,这主要体现在人类的数据收集、数据组织能力和数据处理能力之间存在非常大的差距,缺乏行之有效的数据分析和挖掘方法,人们无法充分利用收集到的数据,从而导致了“数据爆炸但知识贫乏”的现象。频繁模式挖掘通常是大规模数据分析的第一步,多年以来都是数据挖掘领域里非常活跃的一个研究主题。频繁项集挖掘是频繁模式挖掘中的一个重要任务,频繁项集挖掘是在给定数据集中挖掘支持度满足预定义的最小支持度阈值的项集,通过挖掘数据集中的频繁项集,能够分析数据的关联规则。传统的频繁项集挖掘方法存在一个问题是频繁项集的数量非常庞大,计算和存储这些频繁项集都是一个不小的挑战,而且挖掘如此大量的频繁项集通常是没有必要的。针对这个问题不少科研学者提出了很多基于条件约束的频繁项集,如闭频繁项集挖掘、最大频繁项集挖掘等。本论文通过对大量文献的研究整理,详细的...  (本文共63页) 本文目录 | 阅读全文>>