分享到:

基于距离的聚类和孤立点检测算法研究

数据挖掘技术可以从大量数据中发现潜在的、有价值的知识,它给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要组成部分,聚类分析和孤立点检测技术已经广泛应用于模式识别、数据分析、图像处理、市场研究等许多领域。聚类及孤立点检测算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。本文介绍了数据挖掘理论,对聚类及孤立点检测算法进行了深入地分析研究。在分析基于距离和基于密度的聚类算法的基础上,提出了基于距离的聚类和孤立点检测算法(Distance-Based Clustering and Outlier Detection Algorithm),对算法进行了较为详细的描述,阐述了算法中各个函数的功能,给出了程序流程图。该算法根据距离阈值对数据点进行聚类,在聚类过程中记录所有数据点的密度,并根据密度阈值确定数据点是否为孤立点,根据类中元素个数判定所得聚类是有效聚类还是孤立点类。该算法时间复杂度是0(n  (本文共57页) 本文目录 | 阅读全文>>

北京交通大学
北京交通大学

基于聚类和孤立点检测的数据预处理方法的研究

随着网络信息化服务的不断发展,企业都积累了前所未有的海量数据,如何从这些海量数据中挖掘出自己需要的信息并应用到自身的发展决策中成为了一个迫切需要研究的问题.面对这样的挑战,数据挖掘技术应运而生.但是,由于数据在采集或者录入过程中的一些错误以及一些其它的原因,导致数据中难免会存在一些问题.这些问题在很大程度上影响着数据挖掘任务的成败.因此,使用数据预处理技术改善数据质量显得非常重要.而聚类和孤立点检测作为数据挖掘领域的两个非常热门的研究方向,也受到人们越来越多的关注.因此,本文从数据预处理的任务出发,分析聚类和孤立点检测方法与数据预处理需求之间的关系,并研究相应的数据预处理方法有重要的理论意义和实用价值.本文首先对基于聚类和孤立点检测的数据预处理进行了简单的概述.然后介绍了面向数据挖掘的数据预处理系统的整体架构,该系统是根据新的分类方式将数据预处理任务分成六个部分来实现的.紧接着描述了系统的启动,以及该系统的每个功能模块的任务.其...  (本文共78页) 本文目录 | 阅读全文>>

郑州大学
郑州大学

聚类的边界点检测算法研究

从大型数据集中发现有趣的,有用的且预先未知的知识的过程被称为数据挖掘。数据挖掘又称数据库中的知识发现,是数据库研究最活跃的领域之一。通过数据挖掘可以从大型数据集中提取可信、新颖、有效并易于理解的知识、规律或高层信息。这给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要组成部分,聚类分析和孤立点检测技术已经广泛应用于模式识别、数据分析、图象处理、市场研究等许多领域。聚类及孤立点检测算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。聚类的边界点检测有时比聚类分析和孤立点检测更重要,但是聚类的边界点检测却不及聚类分析和孤立点检测受到重视。因此本论文重点对聚类的边界点检测算法进行了研究。论文首先介绍了数据挖掘、聚类分析、孤立点检测和聚类的边界点检测等基本理论以及几种主要的聚类分析算法、孤立点检测算法。本文详细介绍了一种典型的聚类的边界点算法BORDER,在实验的基础上讨论了BORDER算法的优...  (本文共66页) 本文目录 | 阅读全文>>

山东大学
山东大学

数据挖掘中聚类和孤立点检测算法的研究

随着计算机应用的普及,信息系统产生的数据量日益增大,如何有效地利用巨量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。数据挖掘技术应运而生并得以迅猛发展,这是快速增长的数据量和日益贫乏的信息量之间矛盾运动的必然结果。数据挖掘,又称为数据库中的知识发现,是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。数据挖掘是一门新兴的技术,它以数据库技术作为基础,把逻辑学、统计学、机器学习、模糊学、可视化计算等多门学科的成果综合在一起,进行如何从数据库中得到有用信息的研究。数据挖掘技术得到了人们的普遍关注,广泛应用于银行金融、保险、公共设施、政府、教育、远程通讯、软件开发、运输等各个企事业单位及国防科研上。聚类分析是数据挖掘中的一个重要研究领域。所谓聚类,就是把没有类别标记的样本集按某种准则划分成若干类,使类内样本的相似性尽可能大,类间样本的相似性尽可能小,是一种无监督的学习方法。聚类分析通常是在没有先验知识支...  (本文共57页) 本文目录 | 阅读全文>>

南京航空航天大学
南京航空航天大学

聚类和孤立点检测算法的研究与实现

数据挖掘技术可以从大量数据中发现潜在的、有价值的知识。随着数据挖掘技术的迅速发展,聚类分析和孤立点检测技术已经广泛应用于模式识别、数据分析、图像处理、市场研究等许多领域。聚类及孤立点检测算法研究已经成为数据挖掘领域非常活跃的一个研究课题。本文介绍了数据挖掘理论,对聚类及孤立点检测算法进行了深入地分析研究。在分析了基于密度的聚类算法和基于密度的孤立点算法的基础上,提出了基于对称邻域的孤立点检测算法(ODBSN)和基于r-邻域的聚类算法(RNBC)。在ODBSN算法中,引入了反向k-近邻的概念,设计了基于对称邻域的孤立因子检测算法,提高了基于密度的孤立点检测算法的效率。ODBSN算法不需要计算数据对象的可达距离和可达密度,大大降低了计算复杂性,同时基于对称邻域的孤立因子(SNOF)对孤立点的度量,提高了孤立点检测的准确性。在RNBC算法中,引入了相对密度因子的概念,设计了一种新的基于密度的聚类算法。与聚类算法DBSCAN相比,该算法...  (本文共65页) 本文目录 | 阅读全文>>

华北电力大学
华北电力大学

基于关联规则与孤立点的信息舞弊特征识别研究

信息化环境下,计算机及其相关技术的发展为企业经营管理带来了巨大收益的同时也为一些不法企业或者个人提供了更加丰富的舞弊手段。一方面信息化环境下新的舞弊手段的产生使得传统舞弊识别方法已经不再适用;另一方面信息化环境下积聚了海量业务数据,如何充分利用海量数据背后有价值的信息,为识别舞弊信息提供依据,已经成为当前科研人员的一项重要任务。数据挖掘作为一种可以从海量数据中提取隐含的预测性信息的新技术,研究数据挖掘在信息舞弊识别领域的应用,挖掘海量数据中隐含的舞弊特征,为提取舞弊信息提供参考具有重要的理论和现实意义。本文根据数据挖掘中的关联规则理论和Apriori算法,以固定资产投资项目专项审计为背景,采集相关样本数据,利用IBM SPSS Modeler14.2完成数据的选择、清洗、预处理等一系列数据准备工作,最后用Apriori算法挖掘数据集中潜在的、有价值的、有联系的规律,并以此来指导舞弊信息的识别,分析舞弊信息的特征,为降低审计风险,...  (本文共73页) 本文目录 | 阅读全文>>