分享到:

一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法

目前已提出了许多快速的关联规则挖掘算法,实际上用户只关心部分关联规则,如他们仅想知道包含指定项目的规则.当这些约束被用于数据预处理或将它结合到数据挖掘算法中去时,  (本文共7页) 阅读全文>>

《应用科学学报》2006年01期
应用科学学报

基于频繁模式树的约束最大频繁项目集挖掘算法研究

目前绝大多数频繁项目集(或最大频繁项目集)挖掘算法并没有考虑相关领域知识,其结果会产生许多无关的模式.因此,发现约束频繁(或约束最大频繁)项...  (本文共6页) 阅读全文>>

燕山大学
燕山大学

基于频繁模式树的最大频繁项目集挖掘算法研究

随着互联网技术的快速发展,数据挖掘领域受到了越来越多的关注。关联规则一直是该领域的研究热点,主要是为了发现数据之间的关联以及有趣的模式。挖掘最大频繁项目集作为关联规则的一个重要的研究内容,它不仅已经涵盖了所有的频繁项目集,而且某些数据挖掘应用仅需挖掘最大频繁项目集,因此挖掘最大频繁项目集意义重大。本文从三方面对最大频繁项目集挖掘算法进行研究,分别是对候选项目集降维的研究,超集检测方法的研究以及增量式更新算法的研究。首先,为了解决算法DMFIA(Discover Maximum Frequent Itemsets Algorithm)中初始候选项目集维数较高且挖掘较短最大频繁项目集效率低下的问题,提出了一种改进的基于频繁模式树FP-Tree(Frequent Pattern Tree)的最大频繁项目集挖掘算法FP-EMFIA(Algorithm for Efficiently Mining Maximum Frequent Ite...  (本文共67页) 本文目录 | 阅读全文>>

电子科技大学
电子科技大学

基于数据挖掘的通信网告警相关性分析研究

智能化的网络故障诊断与定位是现代网络管理的发展趋势。随着应用业务的拓展和建设规模的不断扩大,通信网变得愈来愈复杂,一个故障的产生往往会引发多个告警事件。这就要求对告警进行分析,找出它们之间的相关性,从而准确地判断故障产生的根源。传统的专家系统由于存在着知识获取的瓶颈,很难适应网络动态变化的要求。数据挖掘是近年来兴起的知识发现技术,将其应用于通信网络的故障管理,不仅具有学科领域的先进性,而且具有重要的实际意义。本文将数据挖掘技术应用到告警相关性分析中,并针对通信网及告警数据的特点(包括网络拓扑及业务的动态性、告警属性的不均匀性、网络业务具有优先级别和预示重大故障的告警数量稀少等)深入研究了告警的关联规则挖掘以及告警的预测模式挖掘等关键问题,取得的研究成果如下:第一,提出了新的告警数据的预处理方法。为了将原始告警转化成适合挖掘的数据形式,本文设计了基于双约束的滑动时间窗口来处理原始告警,对其进行冗余信息的删除、量化和提取,最后转换成...  (本文共141页) 本文目录 | 阅读全文>>

西安科技大学
西安科技大学

基于约束的最大频繁项目集挖掘算法与实现

数据库技术的逐渐成熟及网络技术的迅速普及,使人们采集数据的能力得到了极大的提高,从而导致了全球范围内数据存储量的急剧增大。“数据爆炸与知识贫乏”是信息时代所面临的一个严峻的问题,而数据挖掘就是解决该问题的有效手段之一。数据挖掘是从大规模的数据量中获取有用信息,发现隐含的、先前未知的、对决策有潜在价值的知识,因此对数据挖掘技术的研究有着重要的意义。本文以数据挖掘中一个重要的领域关联规则挖掘为研究课题,并对关联规则的挖掘方法进行了研究和分析。本文的研究工作主要包括以下两个方面:一方面,提出了基于数据库变化的关联规则增量式更新算法。发现频繁项目集是关联规则数据挖掘中的关键问题,频繁项目集是在给定的数据库里,在满足最小支持度和最小置信度下的一个项目集合。但随着数据库发生变化,就会产生不同的频繁项目集,如何发现在数据库变化情况下,利用已挖掘的频繁项目集来实现更新挖掘就是需研究的问题。另一方面,提出了基于约束的最大频繁项集挖掘算法,该算法是...  (本文共61页) 本文目录 | 阅读全文>>

哈尔滨工程大学
哈尔滨工程大学

基于频繁模式树的关联规则算法研究

数据挖掘是近年来迅速发展的信息处理技术,从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它涉及数据库、人工智能、机器学习、模式识别、知识工程、面向对象、信息检索和可视化等一系列技术。关联规则挖掘作为数据挖掘领域的一个重要研究分支,它的任务是发现所有满足支持度阈值和置信度阈值的强关联规则。关联规则挖掘算法是关联规则挖掘研究的主要内容,迄今为止已经提出了许多高效的关联规则挖掘算法。本文对经典的Apriori和AprioriTid算法以及不产生候选集的FP-Growth算法进行了分析和研究。FP-Growth算法比Apriori算法在性能上有了很大提高,它仅需要扫描数据库两次,并且避免了产生大量的候选项集。但FP-Growth算法主要的瓶颈之一就是空间开销大。为了节省空间,提高频繁项的发现效率,本文对传统的频繁模式树和项头表进行了优化,采用动态构造哈希链地址的方...  (本文共63页) 本文目录 | 阅读全文>>