分享到:

选择合适的数据挖掘算法

如果JDM没有自动选择算法,或者数据挖掘人员想控制算法设置,就可以显式选择算法、指定设置。数据挖掘专门知识、对可用算法的了解,以及往往确定哪种算法最适合解决问题的尝试,这些都有助于选择合适的算法及设置。 $$决策树算法 $$决策树算法是最流行的算法之一,因为很容易理解它是如何进行预测的。决策树生成的规则不但可以解释如何进行预测、为何要预测,还有助于对一个群体进行划分,即显示哪几组实例会得出某个结果。决策树广泛用于分类,有些实现的决策树还支持回归方法。 $$决策树算法会分析一组约束的经验,即数据集。然后,确定提哪些问题才能得出正确答案,即对每个实例进行正确分类。 $$在本例中,我们假定输入数据集只有三个活动属性来自前面介绍的CUSTOMERS数据集:年龄、资本收益和平均储蓄账户余额,共有10个客户实例。每个实例都有已知目标值,如图1所示。注意:10名客户中有5名流失,因而随机选择的客户会流失的可能性为50%。使用该...  (本文共3页) 阅读全文>>

《电子世界》2017年21期
电子世界

KNN算法在天文数据挖掘中的应用

1.概要随着大型光学望远镜的精度和深度不断提高,其观测能力大大提高,天文学中与光学波段相关的数据量不断增大,数据复杂程度不断增加。例如大型综合巡天望远镜在一晚上所观测得到的数据量约为20TB数据,而最后将会得到大约130PB的数据。如果由计算机来进行管理、分类这些以PB计的数据的工作,则可以快速准确地解决对天文数据分析这项繁琐的任务。随着计算机科学、统计学与数学等方面在近几年的高速发展,数据挖掘逐渐出现在人们眼前,并逐步地被用于从天文数据中提取信息、发现稀有天体和现象。天文数据具有海量性、高维性、非线性等特点,所以需要更加高效精准的挖掘和分析算法或工具来应对日益增长的需求,关于天文学中数据挖掘应用可参见一些综述文章[1-3]。2.恒星/类星体分类恒星和类星体的分类是天文学基本分类任务之一。恒星、类星体都是发光天体,但它们的光谱等参数有所不同,他们在不同波段所表现的性质不同,需要通过聚类算法将它们各自区分,这对我们了解恒星和类星体...  (本文共2页) 阅读全文>>

《信息资源管理学报》2017年04期
信息资源管理学报

处理流程视角下的大数据技术发展现状与趋势

1引言当前,随着互联网的高速发展、云计算技术的成熟以及移动终端和数据感应器的出现和普及,人们在生活中产生的数据量呈现指数级的增长。截至2014年6月底,中国互联网基础数据显示网民数量达到6.32亿,手机网民数量达到5.27亿,网站数达到273万[1],这导致海量数据的产生。而根据国际数据公司IDC检测,人类产生的数据量大约每2年翻一番,由此可知大数据的发展已经势不可挡。大数据目前还未有一个确切的定义,各行各业有着自己的见解,但总体而言,其关键在于从数量庞大、种类繁多的数据中提取出有用的信息。大数据主要具有以下四个方面的典型特征:规模性(Volume)、多样性(Varity)、高速性(Velocity)和价值性(Value),即所谓的“4V”特性[2]。IBM的资深大数据专家Jeff Jo-nas提出要让数据“说话”,从而发现和理解信息内容及信息与信息之间的关系[3]。大数据的出现也转变了人类分析数据的态度,主要体现在以下三个方面...  (本文共12页) 阅读全文>>

北京邮电大学
北京邮电大学

并行数据挖掘平台中算法推荐方法的研究与实现

随着数据挖掘技术的成熟与发展,数据挖掘算法的数量与日剧增。不同的数据挖掘算法适应不同的任务场景和用户数据,能否正确地选择出合适的挖掘算法直接影响到数据挖掘工作的效率和质量。数据挖掘技术的复杂性和专业性要求用户必须具备非常全面的专业知识才能正确的使用和选择已有的数据挖掘算法,这对于普通用户而言是非常困难的。因此,如何将数据挖掘算法的选择过程自动化已经成为目.前数据挖掘研究领域中亟待解决的问题。本文提出了一种以用户的挖掘任务和数据特性为依据的数据挖掘算法智能推荐模型。该模型建立在已有的并行数据挖掘平台上,从用户数据的特性入手,结合数据挖掘算法的性能知识和大量的实验,自适应地构造出数据挖掘算法性能知识库。基于算法在特性相似的数据上表现出的性能也相近的原理,通过比较用户数据与性能知识库中已有数据的相似性,自动地为用户选择最合适的数据挖掘算法,极大地方便了用户对该并行数据挖掘平台的使用。本文对算法推荐模型的设计与实现借助于并行数据挖掘平台...  (本文共71页) 本文目录 | 阅读全文>>

大庆石油学院
大庆石油学院

基于MAS的数据挖掘算法选择机制研究

当前数据挖掘技术在多个领域中得到越来越广泛的应用,因此对数据挖掘算法以及方法的研究更加深入并提出了更高的要求,有关数据挖掘的新算法和新技术层出不穷。一般来说不存在一个普遍适用的数据挖掘算法。每种数据挖掘算法都有其各自特点、适用范围,为具体的挖掘任务选择合适的挖掘算法是非常重要的工作,它直接影响着挖掘效率和发现知识的质量。为某种特定应用选择一种高效可行的数据挖掘算法在数据挖掘领域变得尤为重要和困难。本文从常用数据挖掘算法和应用领域的特点与特征入手,研究了数据挖掘算法自动选择问题,提出了一种数据挖掘算法智能选择模型。依据特定应用对象,实现了数据挖掘算法的智能选择。在模型实现过程中,考虑到数据挖掘算法选择的灵活性,采用了MAS技术,以减少人工干预和动态增减数据挖掘方法。在依据特定应用对象选择有关数据挖掘算法时,设计并应用了知识库及推理机,以保证挖掘算法选择机制的智能性和选择方法的可扩展性。在专家知识库的设计中,研究了基于关系型数据库的...  (本文共61页) 本文目录 | 阅读全文>>

昆明理工大学
昆明理工大学

基于人才认知的数据挖掘研究

随着计算机技术,特别是数据库技术的发展,在人才市场上积累了大量的人才数据。如何发现隐含在这些数据中的规则和知识,并辅助决策,成了亟待解决的问题。数据挖掘技术的出现和发展为此提供了有力支持。数据挖掘就是从大量的、不完备的数据中,提取出事先未知的、但具有价值的信息和知识的过程。本文在对数据挖掘技术的理论研究基础上,描述了该技术在人才认知系统中的应用。主要阐明了人才认知系统在数据预处理的前提下,如何运用改进的聚类方法,对人才库进行合理、高效的聚类,然后在其结果簇上进行回归分析,从而得到各类人才能力的评价标准。其中,改进的聚类算法,在聚类的合理性、高效性和精确性等方面都有显著的提高。  (本文共101页) 本文目录 | 阅读全文>>