分享到:

并行多层关联规则的挖掘算法研究

0引言由于多维数据空间数据的稀疏性,对于许多应用来说,在低层或原始层的数据项之间很难找出强关联规则。在较高的概念层发现强关联规则很可能提供普遍意义的知识。多层关联规则是在实际应用中经常遇到的一个问题,因为通过概念的分层是人们进行思维和决策的基本过程[1]。然而多层关联规则挖掘是直接面向海量数据库系统的,这类数据库通常有上百个属性和数百万个记录,并且数据表之间包含复杂的关系,这就必然导致数据挖掘过程中搜索维数和搜索空间的激增,利用高性能并行计算机,设计并行多层关联规则算法来进行高效的并行挖掘已经成为当前数据挖掘的一个迫切解决的问题了[2]。目前一些学者已经提出的一些并行算法,包括CD、DD、Cand idate D istribution算法[3],以及IDD、Hybrid算法和基于分布式系统的关联规则挖掘算法FDM[4,5],都是基于Apriori的并行算法。本文在分析了单数据库多层关联规则算法(SMAM)基础上提出了并行多层关...  (本文共3页) 阅读全文>>

重庆大学
重庆大学

分布式关联规则挖掘的方法研究

数据挖掘是当前KDD中的一个重要领域,而关联规则的挖掘是数据挖掘的一个重要组成部分。Internet/Intranet的高速发展促进了数据库技术的深入应用。由于安全及通信成本、效率等多方面的原因,大量的分散数据不可能集中起来处理。分布式关联规则的挖掘就是在这样的背景下提出的。本文在分析和介绍了关联规则挖掘的基本概念和方法以及分布式关联规则挖掘方法和技术基础上,提出了中心结点结构的分布式关联规则挖掘的算法(C-DMA),分布式多层概念的关联规则挖掘算法,以及分布式元学习可变精度关联规则的挖掘算法;并且,在分析和研究了分布式关联规则挖掘中常见的数量型关联规则、关联规则的兴趣度问题的基础上提出了数量关联规则的聚类划分方法以及兴趣度过滤方法。本文的主要工作和结论如下:(1)对于分布式关联规则挖掘问题,目前的主要算法是CD算法和FDM算法。这些算法都是基于网状结构的分布式关联规则挖掘算法。但是,在实际的网络应用环境中,用户基于成本和管理等...  (本文共111页) 本文目录 | 阅读全文>>

重庆大学
重庆大学

并行数据挖掘理论研究与应用

通过数据挖掘进行知识发现是对大型数据库或数据仓库的一种分析,用于发现隐藏在数据仓库中的关系和知识,这些知识会影响管理者的决策和实施。数据仓库上的数据挖掘能够从利用机群并行计算中获利,从而提高其性能和数据分析质量。实际上,挖掘大量数据集会消耗巨大的计算资源,因为在传统的计算机上,对海量数据集进行数据挖掘得到结果是要花费非常多的时间的。一种减少响应时间的方法就是采样,但是在一些情况下,减少训练数据会导致计算模型不准确,甚至不可用。另外一种方法就是并行计算了。高性能计算机和并行数据挖掘结合在一起,就能为挖掘巨型数据集提供一个最佳方案,更快的处理速度意味着用户能够试验更多的模型以更好地理解复杂数据。高性能计算让用户能够分析更多的数据变成现实。这样并行数据挖掘为数据分析和知识提取发挥了越来越重要的作用,在诸如商业和工业领域的数据提取和决策支持中得到应用。虽然目前已提出过一些并行数据挖掘算法,但是存在着通信量过大、可扩展性差、数据分布不合理...  (本文共140页) 本文目录 | 阅读全文>>

大连交通大学
大连交通大学

基于本体的多层关联规则算法与知识管理模型研究

随着国际互联网Internet的发展和普及,需要面对海量的信息资源,信息内容和层次上的多元性和复杂性,特别是从海量的信息中筛选出少量自己需要的有用的信息资源时,人们有时会感到束手无策。因此,对数据挖掘技术的研究及知识管理是全球信息化发展的客观要求。本文主要基于本体并利用本体的概念层次结构,提出了基于本体的多层关联规则算法ML_AR。关联规则中的最关键因素是最小支持度,它是用来缩减搜索空间和限制生成规则的数目,如果仅用单个最小支持度,就会隐含地假设数据库中的子项有相同的性质或相似的出现频率,为了解决上述问题,提出了一个根据概念层次的上层支持度计算下层支持度的公式。通过该公式所得的支持度是递减的,并且当父层是非频繁项的项,子层有可能是频繁的项,此时还可以把符合这样条件的项回收。如果计算的支持度大于父项支持度,说明上层支持度选取过小,不符合实际数据,则应重新对初始支持度进行调整,从这方面讲,该算法对初始支持度的选择有了一定的评价。另外...  (本文共62页) 本文目录 | 阅读全文>>

江苏科技大学
江苏科技大学

多维多层关联规则算法研究

随着数据库规模的日益扩大和数据挖掘技术的繁荣发展,关联规则技术也得到了蓬勃的发展,并正朝更为广泛和深入的方向继续发展。关联规则挖掘算法是关联规则挖掘研究的主要内容。提高关联规则的效率关键是提高关联规则算法的效率。Apriori算法是一种最有影响的挖掘单维布尔型关联规则频繁项集的算法。Apriori算法存在两大瓶颈问题:一是候选项目集的数量,二是事务数据库的扫描次数。同时Apriori算法是单维布尔型的。与经典的关联规则研究相比,目前的主要研究内容已经从单维单层次扩展到多维多层次的挖掘。运用抽象层次的概念,可能会发现新的更为抽象的规则。在实际应用中,应该从不同的角度不同的层面上进行挖掘,这种条件下产生的强关联规则对人们来说更有用。因为现在的数据多是以多维的形式存在,并且存放在关系数据库中。因此本文主要是把单维布尔型关联规则算法Apriori算法扩展到多维多层关系数据挖掘上去。本文在对数据挖掘及关联规则技术深入细致研究的基础上做了以...  (本文共72页) 本文目录 | 阅读全文>>

东南大学
东南大学

基于多数据库系统的多层关联规则挖掘技术研究和实现

随着计算机技术的飞速发展和信息时代的到来,在网络分布式环境下,如何进行有效的数据挖掘已成为数据库研究领域一个新的课题。关联规则挖掘是数据挖掘研究的一个重要方面。本文主要从多事务同构数据库系统的角度出发,针对多层关联规则挖掘的理论和方法进行了深入研究,提出若干解决方法和算法。具体研究内容如下:1) 分析现有概念树的生成和表示方法,结合网络多数库环境下数据分布的特性,采用由局部概念树合并成全局概念树方法,用XML语言对概念树描述并进行网间传输,用以减少通讯量。由此可以从动态调整后的概念树中,提取出指导跨层挖掘的信息。2)针对网络多事务数据库系统提出一种基于FP-Tree的多层关联规则挖掘算法ML_DFPT。ML_DFPT最多只需扫描数据库三遍,且不用产生大量的候选项集,可有效减少了通讯量,从而提高规则挖掘的有效性。并通过对ML_DFPT算法进行部分修改,使算法可根据跨层挖掘信息在特定的层间挖掘出层间关联规则。3)通过对现有规则表示法...  (本文共47页) 本文目录 | 阅读全文>>