分享到:

聚类分析中若干关键技术及其在电信领域的应用研究

数据库中的知识发现(Knowledge Discovery in Databases,KDD)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘是KDD过程中的核心步骤,它的目的是运用特定的数据挖掘算法,从数据库中提取出用户感兴趣的知识,并以一定的方式表示出来,如树、表、规则和图等。作为主要的数据挖掘任务之一,聚类分析是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。这一过程的准则是最大化类内对象的相似性,同时最小化类间对象的相似性。本文重点研究了聚类分析中的若干关键技术和算法,同时探讨了它们在电信领域的应用可能。第一章对数据挖掘技术进行概述,主要讨论了知识发现的基本概念、数据挖掘的产生、发展以及数据挖掘算法可以实现的功能,主要包括:概念/类描述、分类和预测、聚类分析、频繁模式/关联规则挖掘、孤立点分析以及序列和时序分析等。同时,文中还给出了数据挖掘技术在电信领域的应用。最后阐  (本文共156页) 本文目录 | 阅读全文>>

西南农业大学
西南农业大学

基于云理论与数据场的空间孤立点挖掘研究

当今世界正处在一个高度利用信息的变革时代,而推动这场巨大变革的动力是数据信息。随着数据信息获取手段的快速发展,数据信息正通过各种通讯及数据采集设备不断的收集起来,要使如此大量的数据真正成为一种资源,而不是成为数据包袱和垃圾,于是在大量数据中自动、快速、有效地发现知识、提取隐藏其中的模式的数据挖掘技术便应运而生,并得以蓬勃发展。地理信息系统(GIS)作为地球空间数据管理的重要手段已得到广泛的认可和重视。地理信息系统的出现,激发了人们开发空间数据库管理系统的兴趣。在空间数据库平台和它的基本空间分析功能的基础上,根据空间数据的特点,将传统的数据挖掘技术引入GIS,成为空间数据挖掘技术。一个有效的空间数据挖掘过程一般有数据预处理、数据挖掘、模式评估和知识表示这几个步骤。现今空间数据挖掘技术正处在发展阶段,虽然现在国内外有一些空间数据挖掘技术和方法被提出,但是这些挖掘技术不是对所有的空间数据的挖掘都是有效的,并不具备通用性,如现成的空间数...  (本文共157页) 本文目录 | 阅读全文>>

河南大学
河南大学

基于KD-Tree的KNN沙尘孤立点监测算法的研究与应用

近些年来,由于人类对自然资源的过度开发,导致沙尘天气越来越频繁地出现在人们日常的生产生活中,给发生地和过境地区的环境带来了可怕的灾难。遥感技术由于其获取信息的周期短、数据量大等特点而对沙尘暴有着良好的监测效果。但是利用沙尘像元判识技术获得的沙尘监测结果中会出现个别孤立像元,而这些孤立像元大多数是沙尘监测误判的结果,其严重地影响了沙尘判识结果的准确度,同时加大了沙尘判识工作的难度。为了解决这个问题,本文在经典KNN孤立点检测算法基础上,提出了一种基于KD-Tree的KNN孤立点检测算法,并有效应用于沙尘孤立点监测中。本文的研究工作如下:1、针对沙尘孤立点分析过程中的遥感数据集具有规模较大和维度较高的特性,本文在传统K近邻(k-nearest neighbor KNN)孤立点检测算法的基础之上,综合利用索引结构KD-Tree(k-dimensional树的简称)高效搜索多维空间关键数据的优点,设计和实现了一种针对中高维数据的基于KD...  (本文共73页) 本文目录 | 阅读全文>>

云南大学
云南大学

孤立点检测在医疗处方异常分析中的应用

近年来,医疗事故层出不穷,医患矛盾日益尖锐化,医患纠纷日益增多。造成如此局面原因很多,比如说医生个人医学水平有限,医生滥用药品,药品中未知的风险等。为了缓解这种局面,同时减轻患者的经济负担和加快患者疾病的治愈,本文利用孤立点检测算法对医疗机构的医疗处方数据进行科学化的分析。基于上述背景,本文提出了一种新的基于最近集相异度的孤立点检测算法和改进了一种基于最近集孤立度的孤立点检测算法。首先对医疗数据进行预处理,包括删除没有实际意义的属性和不完整的医疗数据。然后通过医疗数据获得医生信息数据、患者信息数据、药品信息数据、医疗处方数据等。通过科室的划分对医疗处方数据实现降维。通过删除科室医疗处方数据矩阵中全为0的列向量实现再次降维。最后使用基于最近集相异度的孤立点检测算法与基于最近集孤立度的孤立点检测算法对高维大数据量的科室医疗处方数据进行挖掘分析。基于最近集相异度的孤立点检测算法是根据属性相异度来计算数据点间的相异度,该算法能更有效地处...  (本文共56页) 本文目录 | 阅读全文>>

西安电子科技大学
西安电子科技大学

基于数据挖掘的大规模网络异常检测方法研究

随着现代计算机网络与信息技术的飞速发展,互联网实现了全球信息共享,在享受网络系统带来便捷的同时,也遭受了更多的网络攻击,网络使用者的个人信息隐私等受到威胁,对网络的安全性保护成为急需解决的重要问题。网络入侵检测系统是保障网络不受攻击的重要措施,其在保证网络系统快捷高效的同时确保数据的安全性、可靠性及完整性。同时,信息技术的发展导致网络数据的高维度与高复杂度,数据挖掘技术可以快速有效地处理海量数据,因此,为了进一步提升网络攻击防御技术,很多专家学者提出了将数据挖掘技术应用到网络入侵检测中以进一步提升检测效率,并对此进行了分析研究。本论文在传统异常检测方法的基础上,提出了基于统计学的类簇模式识别方法,通过分析各类簇内对象到其聚类中心距离的分布特性来识别网络异常行为。传统的网络异常行为检测基于异常行为是少量分散的且与正常行为数据差异很大这样的假设,并未对聚成的类簇模式进行识别。在现实的网络系统中,无法预测正常与异常行为的规模大小与差异...  (本文共77页) 本文目录 | 阅读全文>>

《数字通信世界》2019年06期
数字通信世界

基于R树的高维孤立点检测算法研究与实现

高维孤立点检测算法已经在移动互联网、金融欺诈检测、网络入侵检测、生态系统失调、天气预报等风险控制领域得到了广泛的应用。基于距离的孤立点检测思想,结合高...  (本文共5页) 阅读全文>>