分享到:

基于概念格模型的知识发现研究

本文主要对基于概念格模型的知识发现进行研究,并对经典概念格模型进行了扩展。研究工作的重点是使用概念格结构模型对关联规则、分类规则和函数依赖的发现问题进行求解。此外,本文还对概念格的快速生成算法进行了深入的研究,提出了一些高效的算法,文章的最后提出了几种概念格扩展模型,处理了数据中可能出现的缺值和结构化属性值域的问题。具体研究工作如下:1)在已有算法的基础上,详细地分析了概念格的渐进式和批处理的构造过程,对于渐进式构造和批处理构造,分别提出了一种较为高效的算法。本文的渐进式算法利用一种树状结构来对概念格节点进行索引,从而有效地提高了概念格的构造速度。而本文中批生成算法通过提出的扩展等价类这一概念来有效地减少了在每个节点处计算其子节点的冗余计算量,从而达到提高算法效率的目的。实验结果表明,本文渐进式算法的时间性能要明显优于著名的Godin算法。2)在函数取值不变性(或近似不变性)的基础上,提出了概念节点的内涵缩减(或近似内涵缩减)和  (本文共111页) 本文目录 | 阅读全文>>

合肥工业大学
合肥工业大学

基于概念格的多数据源中分类规则挖掘研究

并行/分布式数据挖掘是针对当前信息量日益增大以及数据所呈现的高维、异构和分布式存储等特性而出现的新的研究课题,分类规则挖掘是数据挖掘领域的重要分支。本文着重对多数据源中的分类规则挖掘问题进行研究。由于概念格具有完备的结构和坚实的理论基础,是知识提取的有效工具,因此采用概念格作为分类问题求解模型。本文的主要工作如下:1.研究基于概念格的多数据源中分类规则挖掘方法。考虑到挖掘结果的可理解性并结合具体的实现方案,本文分析了模型表示和规则表示两种知识表示方式,并选择以直观的规则表示方式来描述分类结果。在此基础上引入知识合并思想,提出分类规则的直接融合和同步融合思想以及相关算法,并对这两种思想进行分析比较。最后,选择规则的同步融合策略实现多数据源中的分类规则挖掘。2.在对大规模数据的分类规则挖掘所涉及的过拟合问题的现象及其产生原因展开分析的基础上,引入剪枝策略,分析预剪枝和后剪枝两种剪枝方法,对概念格模型进行后剪枝,并以实验对剪枝的效果进...  (本文共67页) 本文目录 | 阅读全文>>

合肥工业大学
合肥工业大学

基于概念格及其扩展模型的数据挖掘研究

形式概念分析是对哲学的概念进行形式化描述的一种数学工具,己在软件工程、信息检索、数据挖掘等各个领域得到广泛应用,备受国内外研究者的重视。本文主要关注基于概念格及其扩展模型的数据挖掘研究,其中内容涉及形式概念分析两个主要方面:概念格的构造和概念格的应用。在概念格的构造方面,本文总结已有的构造算法,提出一种基于最佳不完全覆盖的概念格构造算法,算法至上而下,以图的广度优先搜索方式生成概念节点和概念的图表结构。此外,本文还提出并实现了一种相对约简格的构造算法。在概念格的应用方面,将概念格模型应用于数据挖掘中。从概念外延的角度,提出最小可信度格和最小支持度格的构造方法,并示例说明最小支持度格在概念聚类和蕴含规则挖掘上的应用。从概念内涵的角度,度量概念节点之间的距离,以此为依据提出并实现一种基于最小支持度格的概念聚类算法。同时本文着重研究了利用量化的相对约简格来发现分类规则的问题,所提算法的生成结果剔除了冗余的分类规则,算法在时间性能、空间...  (本文共99页) 本文目录 | 阅读全文>>

合肥工业大学
合肥工业大学

基于概念格模型的分布式关联规则挖掘研究

分布式关联规则挖掘研究是为解决分布式环境下的关联规则挖掘问题而出现的新课题,具有重要的理论和实际意义。概念格通过概念的内涵和外延之间的关系以及泛化和例化之间的关系来表示数据和知识,因而适用于关联规则发现的问题研究。然而,由于格结构的完备性致使格的规模随数据库规模的增长而快速增长,一定程度上影响了概念格模型在知识发现研究领域中的应用。本文在对概念格及其扩展模型进行研究的基础上,着重研究了基于剪枝概念格模型的分布式挖掘关联规则问题。论文主要工作如下:(1)在深入研究概念格上数据和知识表示的基础上,着重讨论了概念格剪枝模型的相关理论,并给出了相应的剪枝格构造算法。(2)比较研究了基于剪枝概念格上频繁项集表示与基于Apriori性质的频繁项集表示方法,发现前者能够更加简洁地表示频繁项集、更加精确地反映原始数据库中的关联信息。(3)研究了利用剪枝格模型从多数据源上提取关联规则问题;给出相应的算法UMPL,并用实验证明了算法的有效性和正确性...  (本文共78页) 本文目录 | 阅读全文>>

合肥工业大学
合肥工业大学

基于多重关系领域知识的分类问题研究

数据库规模的急剧增长要求数据挖掘能更有效地搜索与发现问题相关的数据,使发现的模式更有意义。现在的知识发现算法大多是“从零开始”的无需领域知识的独立发现,而在实际应用中,存储于用户大脑中或现有数据库中的领域知识在数据预处理、引导发现过程以提取更有意义的规则、解释发现结果等阶段都发挥着重要的作用。因此,在知识发现过程中融入领域知识已引起国内外学者的普遍关注,基于领域知识的知识发现已成为当前数据库中知识发现的一个重要的研究方向。概念格是一种完备的知识表示模型,是数据分析和规则提取的有效工具。本文在对概念格及其扩展模型进行研究的基础上,提出基于概念格及其扩展模型表示领域知识,从多个概念层次上进行知识发现。本文的主要研究内容如下:1.详细地讨论了领域知识的各种不同的知识表示模型,探讨了由不同知识表示模型表示的领域知识在知识发现过程各个阶段中的重要作用,展现了基于领域知识的知识发现的应用前景及所面临的挑战。2.知识发现的实质是发现数据之间的...  (本文共85页) 本文目录 | 阅读全文>>

西南交通大学
西南交通大学

基于形式概念分析理论的并行知识发现算法研究

形式概念分析是知识表示和数据挖掘的有效方法之一。概念格是形式概念分析的核心数据结构,其很容易建立信息之间的因果关系,能够简明、清晰地描述形式背景的蕴含知识。属性约简和关联规则提取是形式概念分析理论研究的两个重要问题,通过属性约简可以化简形式背景和概念格结构,有利于重要知识的发现;基于概念格模型很容易发现事务属性之间的关联模式,便于挖掘用户感兴趣的规则。在大数据环境下,发现重要知识以指导实际生产和具体应用,并行知识发现算法的作用更加凸显。本文面向大数据,将形式概念分析理论与并行计算框架结合,开展了大数据形式背景下并行属性约简、概念格构造和关联规则提取算法的研究。主要研究工作概述为以下四个部分:1.给出了形式概念并行生成算法。在生成形式概念的基础上,设计了并行属性约简算法,该算法采用矩阵分块思想,将辨识属性矩阵划分为多个子矩阵,分别计算子矩阵下的辨识函数并化简得到属性约简。实验结果表明算法具有良好的大数据处理能力。2.提出了基于概念...  (本文共88页) 本文目录 | 阅读全文>>