分享到:

选择合适的数据挖掘算法

如果JDM没有自动选择算法,或者数据挖掘人员想控制算法设置,就可以显式选择算法、指定设置。数据挖掘专门知识、对可用算法的了解,以及往往确定哪种算法最适合解决问题的尝试,这些都有助于选择合适的算法及设置。 $$决策树算法 $$决策树算法是最流行的算法之一,因为很容易理解它是如何进行预测的。决策树生成的规则不但可以解释如何进行预测、为何要预测,还有助于对一个群体进行划分,即显示哪几组实例会得出某个结果。决策树广泛用于分类,有些实现的决策树还支持回归方法。 $$决策树算法会分析一组约束的经验,即数据集。然后,确定提哪些问题才能得出正确答案,即对每个实例进行正确分类。 $$在本例中,我们假定输入数据集只有三个活动属性来自前面介绍的CUSTOMERS数据集:年龄、资本收益和平均储蓄账户余额,共有10个客户实例。每个实例都有已知目标值,如图1所示。注意:10名客户中有5名流失,因而随机选择的客户会流失的可能性为50%。使用该...  (本文共3页) 阅读全文>>

北京邮电大学
北京邮电大学

并行数据挖掘平台中算法推荐方法的研究与实现

随着数据挖掘技术的成熟与发展,数据挖掘算法的数量与日剧增。不同的数据挖掘算法适应不同的任务场景和用户数据,能否正确地选择出合适的挖掘算法直接影响到数据挖掘工作的效率和质量。数据挖掘技术的复杂性和专业性要求用户必须具备非常全面的专业知识才能正确的使用和选择已有的数据挖掘算法,这对于普通用户而言是非常困难的。因此,如何将数据挖掘算法的选择过程自动化已经成为目.前数据挖掘研究领域中亟待解决的问题。本文提出了一种以用户的挖掘任务和数据特性为依据的数据挖掘算法智能推荐模型。该模型建立在已有的并行数据挖掘平台上,从用户数据的特性入手,结合数据挖掘算法的性能知识和大量的实验,自适应地构造出数据挖掘算法性能知识库。基于算法在特性相似的数据上表现出的性能也相近的原理,通过比较用户数据与性能知识库中已有数据的相似性,自动地为用户选择最合适的数据挖掘算法,极大地方便了用户对该并行数据挖掘平台的使用。本文对算法推荐模型的设计与实现借助于并行数据挖掘平台...  (本文共71页) 本文目录 | 阅读全文>>

大庆石油学院
大庆石油学院

基于MAS的数据挖掘算法选择机制研究

当前数据挖掘技术在多个领域中得到越来越广泛的应用,因此对数据挖掘算法以及方法的研究更加深入并提出了更高的要求,有关数据挖掘的新算法和新技术层出不穷。一般来说不存在一个普遍适用的数据挖掘算法。每种数据挖掘算法都有其各自特点、适用范围,为具体的挖掘任务选择合适的挖掘算法是非常重要的工作,它直接影响着挖掘效率和发现知识的质量。为某种特定应用选择一种高效可行的数据挖掘算法在数据挖掘领域变得尤为重要和困难。本文从常用数据挖掘算法和应用领域的特点与特征入手,研究了数据挖掘算法自动选择问题,提出了一种数据挖掘算法智能选择模型。依据特定应用对象,实现了数据挖掘算法的智能选择。在模型实现过程中,考虑到数据挖掘算法选择的灵活性,采用了MAS技术,以减少人工干预和动态增减数据挖掘方法。在依据特定应用对象选择有关数据挖掘算法时,设计并应用了知识库及推理机,以保证挖掘算法选择机制的智能性和选择方法的可扩展性。在专家知识库的设计中,研究了基于关系型数据库的...  (本文共61页) 本文目录 | 阅读全文>>

昆明理工大学
昆明理工大学

基于人才认知的数据挖掘研究

随着计算机技术,特别是数据库技术的发展,在人才市场上积累了大量的人才数据。如何发现隐含在这些数据中的规则和知识,并辅助决策,成了亟待解决的问题。数据挖掘技术的出现和发展为此提供了有力支持。数据挖掘就是从大量的、不完备的数据中,提取出事先未知的、但具有价值的信息和知识的过程。本文在对数据挖掘技术的理论研究基础上,描述了该技术在人才认知系统中的应用。主要阐明了人才认知系统在数据预处理的前提下,如何运用改进的聚类方法,对人才库进行合理、高效的聚类,然后在其结果簇上进行回归分析,从而得到各类人才能力的评价标准。其中,改进的聚类算法,在聚类的合理性、高效性和精确性等方面都有显著的提高。  (本文共101页) 本文目录 | 阅读全文>>

山东科技大学
山东科技大学

非频繁关联规则挖掘的研究

本论文研究数据挖掘的典型理论和一些急待研究、发展的课题,并将研究重点放在非频繁关联规则挖掘上。简单的说,数据挖掘是从大量数据中提取或挖掘知识。数据挖掘是计算机科学一个活跃的研究领域,出现于80年代后期,从多门学科发展起来,这些学科包括数据库技术、人工智能、统计学等。关联规则挖掘是数据挖掘的一项重要功能,首先由Agrawal.等在1993年提出,用于发现大规模数据集中项集之间有趣的联系或规则。关联规则挖掘在分析零售店中消费者的购买模式、决策分析和商务管理方面是有用的。现在,关联规则挖掘已经成为理解数据的流行工具。论文中介绍了关联规则挖掘的典型算法:Apriori算法、FP-G算法和多层关联规则挖掘算法。论文中还总结和介绍了关联规则挖掘近几年的一些重要的研究成果如运用多重相似查询技术提高数据挖掘效率、运用Apriori算法挖掘量化关联规则、基于集体度——置信度框架的关联规则挖掘、挖掘互依赖模式等。关联规则挖掘面临着一些问题需要解决,...  (本文共85页) 本文目录 | 阅读全文>>

重庆大学
重庆大学

基于自然最近邻的无参聚类算法研究

数据挖掘就是在大量的数据中探索出有价值的模式、规则和规律的过程,即从海量无规律的数据集中提取出可理解的、之前人们并不清楚的且存在潜在价值的知识的过程。数据挖掘的主要任务包括回归分析(Regression)、关联分析(Association rule learning)、分类分析(Classification)、聚类分析(Clustering)以及异常分析(Outlier detection)等。其中数据聚类则是数据挖掘中一项非常重要的技术,是人们在认识和挖掘研究对象之间内在联系的一种非常常用的方法,它不但可以作为独立的数据挖掘工具,从知识库中获取到数据结构的分布信息,还可以对数据集进行预处理以方便其它一些数据挖掘算法对数据集进行数据挖掘。聚类分析是一种无监督的数据挖掘分析算法,无监督的聚类分析算法能够挖掘出输入数据集的内部分布结构以及类簇信息。目前包括计算机模式识别中的视觉分析、图像识别和分割等领域都在广泛地应用聚类分析技术。同...  (本文共51页) 本文目录 | 阅读全文>>