分享到:

选择合适的数据挖掘算法

如果JDM没有自动选择算法,或者数据挖掘人员想控制算法设置,就可以显式选择算法、指定设置。数据挖掘专门知识、对可用算法的了解,以及往往确定哪种算法最适合解决问题的尝试,这些都有助于选择合适的算法及设置。 $$决策树算法 $$决策树算法是最流行的算法之一,因为很容易理解它是如何进行预测的。决策树生成的规则不但可以解释如何进行预测、为何要预测,还有助于对一个群体进行划分,即显示哪几组实例会得出某个结果。决策树广泛用于分类,有些实现的决策树还支持回归方法。 $$决策树算法会分析一组约束的经验,即数据集。然后,确定提哪些问题才能得出正确答案,即对每个实例进行正确分类。 $$在本例中,我们假定输入数据集只有三个活动属性来自前面介绍的CUSTOMERS数据集:年龄、资本收益和平均储蓄账户余额,共有10个客户实例。每个实例都有已知目标值,如图1所示。注意:10名客户中有5名流失,因而随机选择的客户会流失的可能性为50%。使用该...  (本文共3页) 阅读全文>>

安徽大学
安徽大学

基于关联规则的数据挖掘技术在市场决策应用中的研究

数据挖掘是近年来新兴起来的一个热门学科。顾名思义,它即是从复杂数据巨集中提取出不明显的,甚至是隐藏的有价值那部分的一个过程。而关联规则,这个数据挖掘的一个相当重要分支,在数据挖掘的知识结构中是比较重要的一种。通过基于关联规则的数据挖掘,可以发现大量数据项间的潜在关联,帮助许多市场决策的制定。本文旨在把关联规则理论作为有价值的技术应用于实际,以解决现实商业问题。在简析了Apriori算法及目前现有的一些改进之后,结合关联规则中可信度及支持度这两个衡量指标,对实际问题进行挖掘。文中还引入了兴趣度这个概念,有效的避免了生成负相关的规则,进一步保证了所生成的规则与用户所期望的结果更加接近。文末引用了一组电影数据作为模拟数据源来进行理论的实践,在选用的软件中研究分析商品(电影)之间以及商品(电影)与用户之间的关系,并依此进行基于关联规则的数据挖掘,随后对挖掘出来的结果分析解释,并为最终市场决策提供指导性的建议,从而实现把知识转换为既得利润...  (本文共73页) 本文目录 | 阅读全文>>

武汉理工大学
武汉理工大学

网络环境下国有企业智能监管研究

国有企业是国民经济的重要支柱,然而国有企业监管的不足给国民经济造成了巨大的危害。由于国有企业监管中大量数据的存在,有效的分析数据的工具的缺乏,使得国有企业监管的高效及准确性不能得到有效地提高。目前关于如何有效集成来自各监管部门内外部的各种数据,在此基础上进行分析挖掘,并将其转换成易于理解的监管知识的研究还非常少。本文通过对网络环境下国有企业智能监管的研究,为提高国有企业监管的效率和准确性提供理论方法基础。论文在综合分析国有企业监管的不足以及国有企业智能监管存在的困难的基础上,借鉴国内外研究的本体技术、数据挖掘技术和其它分析技术,对网络环境下的国有企业智能监管展开研究。论文的主要研究内容如下:(1)国有企业监管分析。分析了我国国有资产监管体制的发展历程、国有企业监管的内容、各种监管体制的特征和缺陷;分析了我国国有企业监管方式的不足,提出了网络环境下国有企业智能监管的思想。(2)网络环境下国有企业智能监管模型的构建。分析了国有企业智...  (本文共129页) 本文目录 | 阅读全文>>

武汉理工大学
武汉理工大学

网格环境下面向服务的分布式数据挖掘研究与实现

目前,无论是数字化管理的需要还是后工业化进程的要求,都使我们日益面对以前无法想象的海量数据。虽然数据挖掘技术已经在医学珍断、市场与销售、图像筛选、负载预测等领域得到了广泛的应用,但是面对日益爆炸式增长的数据和高度复杂的计算模型,传统的集中式数据挖掘技术已显得有些力不从心,必须利用分布式、并行计算技术将其过渡到新的处理模式上。网格技术和Web服务技术的出现,为分布式数据挖掘的研究带来了新的契机,因为网格技术可以将分散在不同地理位置的各种异构资源有机地整合起来形成一个具有超级计算能力的平台,从而达到计算资源、存储资源、算法资源、信息资源等的全面共享,而Web服务作为一种新兴的Web应用模式和分布式计算模型,正可以用来解决各种异构资源之间的互操作和互通信问题。因此,在网格环境下,将Web服务技术应用到数据挖掘领域是一个全新的理念,利用Web服务机制对服务的发布、发现及管理来达到资源的共享,有效地弥补网格资源的动态性及分布性。本文在深入...  (本文共106页) 本文目录 | 阅读全文>>

吉林大学
吉林大学

数据挖掘可视化技术的研究与应用

可视化数据挖掘是数据挖掘中的一个重要方法,它利用数据可视化技术作为计算机和用户之间信息沟通的渠道,将抽象的信息以一种图形化的简明形式呈现出来,从而发现新颖而又易于理解的模式。可视化数据挖掘技术能够更轻松直观的从大数据量中找到有用的规律和信息,其目的就是要更好利用人们对于可视化形式下模型和结构的获取能力,进而指导挖掘工作,理解挖掘结果。本文研究了可视化数据挖掘的三种主要方法:数据可视化,挖掘过程可视化和结果可视化。为原型数据挖掘系统实现了可视化模块,所实现的可视化数据挖掘功能具有良好的易用性和可扩展性。用户可以轻松地通过数据可视化观察数据分布及统计信息,对数据挖掘过程进行有效的控制,结合对挖掘结果的直观图形显示,来查看和理解挖掘结果。本文还重点研究了星形坐标可视化技术在聚类算法中的应用。利用星形坐标方法实现了大规模数据和较大维数的数据集的可视化。针对传统的基于密度聚类算法DBSCAN对邻域参数Eps选取敏感的缺点,通过星形坐标轴的...  (本文共58页) 本文目录 | 阅读全文>>

国防科学技术大学
国防科学技术大学

基于分类模型的知识发现过程研究

数据库知识发现(Knowledge Discovery in Databases, KDD)是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,数据库知识发现KDD受到了国内外的普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的前沿领域。本文以国家自然科学基金项目“管理决策中数据仓库与数据挖掘新技术研究”为背景,在深入调研与分析国内外知识发现与数据挖掘相关理论与应用和技术文献的基础上,归纳总结了该领域的主要研究内容和关键技术,详细评述了基于分类数据知识发现的相关理论与技术的研究现状、存在问题与发展趋势,利用UCI(Irvine大学机器学习数据库)数据库作为实验数据,主要研究了知识发现过程中以下几个问题:知识发现过程模型、知识发现的一种数据预处理方法——属性选择方法,数据挖掘算法与数据库的接口——数据抽取器,数据挖掘方法——多变量决策树和组合近邻模型。本文的主要研究工作和成果为:1.针对目前的知识发现过程模型在实际...  (本文共151页) 本文目录 | 阅读全文>>