分享到:

基于小波分析的异常样本处理

1引言(In troduction)异常样本既可能是产生数据样本的过程受到干扰或污染的结果,也可能对应于某种稀有但真实的情况[1].前者的过多存在会导致挖掘结果的谬误,后者则是某些挖掘任务关心的对象.因此,异常样本检测既可作为一种数据预处理技术来发现失真样本,又可作为一种数据挖掘技术应用于商业欺诈侦测、故障诊断等领域.在数据预处理阶段,对检测到的失真数据进行适当的修复也常常是必要的.数值型的异常样本可分为两类:离群样本,一般认为,正常样本在对应的多维空间中应成集群分布,远离群体的样本为异常样本;违规样本,一般认为,样本某些属性间的关系(如条件属性—决策属性)应满足某种规律,相应关系明显背离这种规律的样本即为异常样本.常用的离群样本检测方法有假设检验法、基于深度的方法、自学习混合模型法[2]、基于距离的方法[3,4]、基于密度的方法[5,6]、基于聚类的方法[7]等,其研究重点和难点在于如何处理高维数据并提高检测的准确性.在各属性...  (本文共4页) 阅读全文>>

中南大学
中南大学

数据挖掘技术及其在铜转炉吹炼过程优化中的应用

数据挖掘技术是随着数据存储技术的迅速发展、数据库规模的日益扩大以及人们对数据库中潜在信息的需求而迅速发展起来的新兴的数据处理和分析技术,是计算机技术、数据库技术、人工智能、统计学等相结合的产物。文章介绍了数据挖掘技术的产生渊源、基本思想和主要研究成果,同时还介绍了数据挖掘在工业过程优化领域的应用现状及前景,考虑到数据预处理对实现正确数据挖掘的重要性,重点介绍了几类重要的数据预处理技术。鉴于异常样本检测对获得正确的数据挖掘结果的极端重要性以及现有的异常样本检测方法难以有效检测数据集中属性间匹配关系异常的样本的缺陷,文章提出了基于小波分析的二维异常样本检测和修复方法。该方法充分利用了小波分析的多尺度、多分辨率特性及局部分析能力,能根据某个样本对应的小波变换系数判断该样本中自变量和应变量的匹配关系是否异常,并对检测到的异常数据样本进行适当修复。在此基础上,提出了综合应用属性简约和小波分析技术检测多维异常样本的思想,即利用属性简约技术将...  (本文共86页) 本文目录 | 阅读全文>>

华南理工大学
华南理工大学

制浆蒸煮过程纸浆卡伯值软测量技术研究与应用

蒸煮是制浆过程中的一个重要环节,是复杂的化学工业过程,在蒸煮过程中稳定纸浆的Kappa 值是稳定纸浆质量的关键,而且有助于减少蒸汽和化学品的消耗,减少环境污染,提高生产效益。要控制纸浆的Kappa 值,需要对其进行在线测量或者估计,但是至今国内外尚未开发出准确、可靠、价廉的蒸煮过程在线、商用纸浆Kappa 值测量仪表,因此研究纸浆Kappa 值的软测量技术具有很大的理论意义和实用价值。软测量技术是一门新兴的工业技术,发展前景广阔。它利用易测过程变量(辅助变量)以及这些变量与难以直接测量的待测变量(主导变量)之间的关系(软测量模型),通过各种计算和估计方法实现对主导变量的测量。从广义的信息获取角度来看,软测量技术也是一种信息利用和发现规律的方法,在软测量建模过程中要综合利用各种理论、方法,充分挖掘数据中的有用信息,以达到软测量的目的并为进一步设计基于软测量的先进控制打下基础。本论文就以下主要内容进行了深入的研究并取得了以下结果:1...  (本文共114页) 本文目录 | 阅读全文>>

中南大学
中南大学

复杂工业过程数据挖掘方法及其在铜锍吹炼中的应用研究

以有色冶金过程为代表的复杂工业过程普遍具有多变量、非线性、大滞后、强耦合等特点,难以利用机理分析建立系统数学模型并实现优化操作与控制。我国的复杂工业过程的操作决策在较大程度上依靠人的经验,因此,相关生产过程能耗高、运行不稳定、原材料消耗大,在节能降耗、提高产品产量和质量等方面存在巨大的潜力。另一方面,随着工业基础自动化程度的逐步提高,多数生产单位积累了大量的生产过程历史数据,这些数据中可能蕴含有生产过程的运行规律、人工操作经验、优化操作模式等对操作决策和优化控制有用的信息,但因受数据分析技术水平和能力的限制,这些数据大多数未充分发挥作用。因此,研究从复杂工业过程数据中提取信息的数据挖掘方法具有重要的理论意义和巨大的应用价值。论文针对复杂工业过程数据挖掘方法及其应用的若干问题展开研究,主要研究内容及相关成果如下:1.基于对复杂工业过程主要特点和优化决策问题的基本分析,提出了复杂工业过程数据挖掘的基本框架。该框架对复杂工业过程数据挖...  (本文共152页) 本文目录 | 阅读全文>>

南京理工大学
南京理工大学

双流法高压溶出过程的数据挖掘及优化技术研究

高压溶出过程是拜耳法氧化铝生产中极其重要的环节,其目的就是在高温、高压的工艺条件下,用苛性钠溶液把铝土矿中的氧化铝充分溶解进入铝酸钠溶液。中州铝厂高压溶出过程采用双流法溶出生产工艺,与其它溶出工艺相比,具有如下优点:传热系数和热利用率比较高,可以降低能耗和运行费用,系统的停车检修周期较长。但也存在一些问题:高温高压过热新蒸汽耗量大,自蒸发器组蒸发能力没有充分利用,工艺中产生的乏汽没有充分利用,闪蒸末段温度偏高。因此,有必要对双流法高压溶出工艺过程进行热平衡计算和(?)分析,掌握整个流程的能耗和(?)损状况,同时在此基础上有针对性地对工艺操作指标和传热温差控制进行智能优化,对进一步提高氧化铝生产效率、降低成本具有重要的理论意义和现实意义。在对数据进行系统建模时,由于数据挖掘结果的正确性直接受数据挖掘用样本的质量的影响,因此,必须有效地处理样本集中的违规样本(即属性间匹配关系异常的样本),进而提高数据样本的质量,本文提出了一种基于小...  (本文共80页) 本文目录 | 阅读全文>>

《小型微型计算机系统》2006年02期
小型微型计算机系统

一种基于小波分析的异常数据样本检测与修复方法

1引言异常数据样本是与其他样本有很大不同或不一致的数据样本,它既可能是产生数据样本的过程受干扰或污染的结果,也可能反映的是某种稀有而真实的情况[1].在进行数据挖掘或基于数据样本进行系统建模时,若受干扰或污染的数据样本混入挖掘过程或建模过程,将对挖掘结果或所建系统模型产生很大的不利影响,甚至产生错误的挖掘结果或系统模型.因此,必须对数据样本进行预处理,从大量数据样本中检测出异常样本,剔除其中的有害样本或对受污染的样本进行清洗修复.样本异常可分为两类:空间位置异常和数据项间(如自变量—应变量)关系异常.将所有待分析的数据样本视为多维空间的点,在空间位置上偏离群体的孤立点通常被视为异常点,与之对应的样本为异常样本.这类异常点(常称为离群点)的检测方法较多,例如基于距离[2,3]、基于密度[4]、基于聚类信息[5,6]的方法等.第二类异常是指某样本数据项间关系与其他样本有很大的差异,由于数据项间的关系未知,因此检测更加困难.文献[7]...  (本文共5页) 阅读全文>>