分享到:

选择合适的数据挖掘算法

如果JDM没有自动选择算法,或者数据挖掘人员想控制算法设置,就可以显式选择算法、指定设置。数据挖掘专门知识、对可用算法的了解,以及往往确定哪种算法最适合解决问题的尝试,这些都有助于选择合适的算法及设置。 $$决策树算法 $$决策树算法是最流行的算法之一,因为很容易理解它是如何进行预测的。决策树生成的规则不但可以解释如何进行预测、为何要预测,还有助于对一个群体进行划分,即显示哪几组实例会得出某个结果。决策树广泛用于分类,有些实现的决策树还支持回归方法。 $$决策树算法会分析一组约束的经验,即数据集。然后,确定提哪些问题才能得出正确答案,即对每个实例进行正确分类。 $$在本例中,我们假定输入数据集只有三个活动属性来自前面介绍的CUSTOMERS数据集:年龄、资本收益和平均储蓄账户余额,共有10个客户实例。每个实例都有已知目标值,如图1所示。注意:10名客户中有5名流失,因而随机选择的客户会流失的可能性为50%。使用该...  (本文共3页) 阅读全文>>

国防科学技术大学
国防科学技术大学

基于分类模型的知识发现过程研究

数据库知识发现(Knowledge Discovery in Databases, KDD)是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,数据库知识发现KDD受到了国内外的普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的前沿领域。本文以国家自然科学基金项目“管理决策中数据仓库与数据挖掘新技术研究”为背景,在深入调研与分析国内外知识发现与数据挖掘相关理论与应用和技术文献的基础上,归纳总结了该领域的主要研究内容和关键技术,详细评述了基于分类数据知识发现的相关理论与技术的研究现状、存在问题与发展趋势,利用UCI(Irvine大学机器学习数据库)数据库作为实验数据,主要研究了知识发现过程中以下几个问题:知识发现过程模型、知识发现的一种数据预处理方法——属性选择方法,数据挖掘算法与数据库的接口——数据抽取器,数据挖掘方法——多变量决策树和组合近邻模型。本文的主要研究工作和成果为:1.针对目前的知识发现过程模型在实际...  (本文共151页) 本文目录 | 阅读全文>>

南京航空航天大学
南京航空航天大学

领域知识制导的数据挖掘技术及其在中药提取中的应用

数据挖掘(Data Mining,DM)或者知识发现(Knowledge Discovery in Database,KDD)技术,是从大量数据中发现有价值的和隐藏的知识的过程,它能够解决“数据爆炸但知识贫乏”这个现实问题。在数据挖掘的整个过程中,领域知识起到非常重要的作用,它能够提高数据挖掘的效率和挖掘质量。将领域知识融入到数据挖掘整个过程之中是一个重要但还没有很好解决的课题。针对这个课题,本文做了如下几个方面的研究工作:1、论述了领域知识在每个数据挖掘阶段中所起到的作用,以及挖掘系统引入领域知识的方式;分析了目前领域知识制导的数据挖掘技术的研究现状。2、研究和实现了一个支持数据挖掘的知识库系统,用于存储和管理制导数据挖掘过程中的领域知识。总结出用于制导数据挖掘过程的七类领域知识,并采用两级知识组织方式对领域知识进行组织;实现了知识编辑、知识检索和知识选择等知识管理功能,并针对各种类型领域知识设计了知识输入模型和显示模型,方便...  (本文共128页) 本文目录 | 阅读全文>>

东北石油大学
东北石油大学

基于MAS的数据挖掘模型自动选择方法研究

各个行业部门积累了大量业务数据,迫切需要将这些数据转换成有用的信息和知识,数据挖掘(Data Mining, DM)引起信息产业界的极大关注。应用数据挖掘技术去解决各类实际问题,数据挖掘模型的选择与设计是主要的环节,也是能否有效处理应用问题的关键。传统的数据挖掘模型设计依赖建模人员的专业知识,在分析应用领域业务特征的基础上,通过重复的数据探索和算法测试建立挖掘模型,大大降低了工作效率与模型准确程度。随着新技术的出现,模型设计人员可能忽略一些重要的挖掘方法及有助于知识发现的算法技术。针对数据挖掘人工建模效率低、知识复用困难等问题,本文研究数据挖掘应用特征、技术特征及业务数据特征,探讨数据挖掘模型的自动建模方法,设计数据挖掘模型的评价体系;在数据挖掘自动建模方法研究的基础上,结合MAS(Multi-Agent System)技术,建立基于MAS的数据挖掘模型自动选择架构,并且应用于油田开发领域。首先,通过引入挖掘模型自动选择方法所涉...  (本文共162页) 本文目录 | 阅读全文>>

北京邮电大学
北京邮电大学

基于数据挖掘的客户流失预测模型的建立

随着世界经济的全球化、市场的国际化以及国家改革的深化,国内电信业的市场环境已渐趋合理且竞争将日益加剧,同时客户流失的不断增加,客户平均生命周期的不断缩短严重影响了电信企业的发展。因此如何维持现有客户,早期发现潜在的流失客户,并且采取适当的营销措施遏制流失,是当前电信运营商急需解决的课题。数据挖掘技术经过多年的发展,研究的重心正在转向各个应用领域。电信行业是典型的数据密集行业,其业务数据中隐含着大量对企业有价值的信息。本论文的目的是研究数据挖掘的实现技术,并将此技术运用于电信行业客户流失预测系统中。论文以乌海公司移动客户的历史数据为对象,基于数据挖掘技术,建立客户流失预测模型。论文探讨了CRISP-DM标准数据挖掘流程,结合电信业务数据的特点,重点研究电信行业内客户流失分析的数据挖掘方法论,有针对性的提出商业理解、数据理解、数据准备、建模、评估、发布等阶段涉及到的主要问题的特定、有效的解决方案。论文完成的主要工作如下:1.对数据挖...  (本文共80页) 本文目录 | 阅读全文>>

浙江大学
浙江大学

基于区间数的不确定性数据挖掘及其应用研究

尽管数据挖掘技术已经成功应用到很多领域,但是由于测量手段的局限性以及客观对象本身不确定性等原因,在自然和社会科学领域中存在大量待挖掘的数据是不准确、不确定的。如果不充分考虑这些数据的不确定性,不采用合适的数据挖掘方法,那么必然会导致挖掘模型性能下降,甚至是不可接受的。如何从大量不确定性数据中找出隐藏的知识,仍然是人们研究的主要课题。根据待挖掘数据所依据的不确定理论,不确定性数据挖掘方法可分为4种类型:随机数据挖掘、灰色数据挖掘、模糊数据挖掘和区间数数据挖掘方法。本文以国家863项目钢铁生产过程的质量控制为研究背景,为解决生产过程数据不完整、不确定、大数据量的数据挖掘困难问题,提出基于SVM以及核方法的区间数数据挖掘建模方法,并用于钢铁生产过程的质量预测和质量分析。本文主要工作包括以下几个方面:1.提出了两种区间数回归建模方法。针对钢铁工业过程中的实际需要,本文提出两种区间数回归建模方法:(1)基于SVM的区间数输入、区间数输出回...  (本文共147页) 本文目录 | 阅读全文>>