分享到:

冗余数据约简的研究与设计

Z.Pawlak于1982年提出的Rough集理论有效地分析了不确定、不精确、不一致等各种不完备信息,其优点是无需任何关于数据的初始的或附加的信息,如统计学中的概率分布。该文介绍了  (本文共3页) 阅读全文>>

河北工业大学
河北工业大学

基于粗糙集的海量数据约简技术及应用研究

海量数据约简一直是数据挖掘、机器学习和模式识别等领域中的关键问题和研究热点,为此,在分析常用粗糙集约简技术和基于进化计算的约简技术基础上,研究基于量子粒子群(QPSO)和差分进化(DE)的混合优化(QPSO-DE)算法,进而提出基于QPSO-DE的海量数据约简技术,并进行典例仿真验证和实际应用。主要工作如下:(1)常用属性约简算法分析与仿真。对差别矩阵法和基于属性重要度的约简算法进行典型例子的仿真分析,指出了常用属性约简算法的缺陷与不足,即当所要约简的信息表数据维数超过一万时,现有约简算法是无法完成约简任务的,且其算法的复杂度会成指数级增长。(2)基于QPSO和DE的QPSO-DE算法研究。采用典例仿真分析,指出PSO、QPSO、DE三种优化算法存在之不足,即当处理一个多峰优化问题时由于算法中个体信息共享机制的单一以及种群多样性的单调导致算法搜索路径陷入局部最优。为此,将QPSO和DE相融合,提出一种QPSO-DE混合优化算法,...  (本文共56页) 本文目录 | 阅读全文>>

华中科技大学
华中科技大学

数据约简效果的评价方法研究

随着计算机技术的不断发展,出现了大量的海量数据。为了降低处理海量数据所消耗的时间和存储海量数据需要的空间,对海量数据进行数据分析前,需要先对其进行数据约简。数据约简效果的好坏直接关系着后续的数据分析的正确与否。因此,探索行之有效的数据约简效果评价方法,对海量数据处理有着重要的理论意义和现实意义。考虑到数据集中实例的变化和特征的变化会影响数据集的分类效果,综合了类半径、类间距和类实例数对分类精度的影响,分别给出了二分类数据集和多分类数据集的新宏观F1值计算公式,提出了一种基于分类的数据约简效果评价方法。该类方法适用于分类明显的数据集。从基于实例选择的数据约简的两个方面:数据编辑和数据压缩入手,分析了数据约简对相似性的影响。通过对数据集间的距离、数据集的分位数和数据集中实例的频数分布等三个统计特征的分析,提出了三种基于相似性的数据约简效果评价方法,分别是基于马氏距离、基于QQPlot图和基于统计直方图的方法。该类方法具有普适性,适用...  (本文共57页) 本文目录 | 阅读全文>>

南昌大学
南昌大学

基于信息粒与粒计算理论的数据约简研究

在20世纪80年代末期人们就意识到,信息系统中的信息量积累越来越大,以至造成信息爆炸的危险。信息系统约简主要是使信息量减少,将一些无关或多余的信息丢掉而不影响其原有功能。粒计算理论是上个世纪70年代由模糊集创始人美国学者L.A.Zadeh首先提出,用来解决现实世界中信息的不连续性问题。目前,粒计算已经成为Rough集理论研究的一个热点,它为Rough集理论在数据约简的应用中将发挥重要作用。本文主要针对Rough集理论本身以及粒计算理论进行了研究,并对Rough集理论和粒计算理论在数据约简的应用中作了有意义的探索。本文的创新之处在于:1)提出了基于二进制粒计算的数据约简算法。2)以粒计算理论为依据在一国外经典的汽车数据库中进行数据约简,提取出合适的决策规则。全文共分为五个部分:第一部分讨论了数据挖掘的概念、数据挖掘的过程、常用到的一些技术和工具以及目前研究的热点和未来研究方向。第二部分讨论了Rough集基本理论、Rough集的拓广...  (本文共87页) 本文目录 | 阅读全文>>

《宁波大学学报(理工版)》2007年03期
宁波大学学报(理工版)

一种基于Rough集的数据约简方法

在对Pawlak的属性约简数据分析方法和Skowron的分明矩阵方法进行深入研究后,通过引...  (本文共5页) 阅读全文>>

南昌大学
南昌大学

基于GPU的数据约简

图形处理器(GPU)作为数据并行协处理器越来越受到应用程序开发人员的欢迎。此外,图形处理器通用程序设计的研究发展非常快速,最基本是进行GPU图形计算,而目前不仅用于图形计算,还应用于很多其他的应用程序。而且GPU变得更便宜且具有超高计算能力。数据约简是粗糙理论及其应用的关键问题所在。粗糙集是众多数据挖掘技术中最有用的方法之一。本文的研究重点是通过GPU和CUDA编程来实现快速数据约简(发现最小数据集)。本文需要解决两个主要问题:一是使用粗糙集理论实现数据简化的过程(发现最小数据集)。二是通过GPU使用CUDA编程。本文试图在GPU上使用共享内存和线程块来改善数据简化过程,使数据处理更快,效率更高。实验结果证明,利用GPU比使用CPU具有更快速更有效的计算性能。  (本文共59页) 本文目录 | 阅读全文>>