分享到:

Rough集在企业数据挖掘中的应用

随着企业信息化过程的推进,许多企业都建立了信息系统,他们直接或间接收集了大量的客户数据,隐藏在数据中的规律或规则对企业进行决策将起很大的作用,它们是宝贵的信息.如何发现隐藏在企业数据库中的规律或规则,即进行企业数据挖掘已成为当前研究的一个热点.在数据挖掘过程中,数据归约是一个重要的手段[1].所谓数据归约就是把用来挖掘的海量数据进行处理,使得处理后的数据集比原数据集小得多,但仍接近原数据集提供决策的信息.许多情况下,企业收集到的大量数据都存储在关系数据库中,一条数据就是数据库中的一条记录,一条记录又由多个数据项组成,称为属性.然而由于数据收集方法的多样性,使得每条记录可能又是不完整的,也就是说,收集到的部分数据缺乏属性值,或者其属性取值不唯一,这就产生了不完备信息系统.如表1为某计算机专销机构收集到该地区关于顾客购买计算机的不完备信息表(属性值已经离散化).最右一列N表示数据库中相同记录条数.1基本概念Rough集的上下近似集以...  (本文共5页) 阅读全文>>

广西大学
广西大学

基于Rough集理论的知识发现及数据仓库的决策支持研究

本文首先分析了目前基于数据仓库的决策支持概况。在分别对数据仓库技术、联机分析处理(OLAP)技术及数据挖掘(DM)技术进行详细探讨之后,结合实际系统,构建了销售主题数据仓库,并运用OLAP技术对该实验数据仓库进行决策分析与研究。在此基础上根据实际需求,构建了Rough集决策表,并利用Rough集理论进行属性约简,数据归约等。由于数据仓库的海量特性,为获得尽可能大的决策支持度,本文提出了一个改进的基于Rough集(粗糙集)理论的决策规则的最大覆盖算法,该算法在最佳数据归约的基础上,通过引入决策矩阵来对目标决策类进行分类。实验证明该算法能有效降低系统计算的复杂度,并得到较满意的决策规则。实验结果亦表明基于粗集理论的挖掘算法较其他传统算法无论在分类精度还是预测准确度上都具有明显的提高。本文最后给出了一个通用的基于Rough集理论与数据仓库的决策支持系统模型。  (本文共64页) 本文目录 | 阅读全文>>

天津大学
天津大学

基于粗糙集和数据库技术的知识发现与推理方法研究

基于数据库的知识发现(KDD)又称数据挖掘(DM)是一种新的用于对数据库中大量数据进行处理的智能信息处理技术,是构建智能商务、新型决策支持系统等新型智能信息系统的一种基本构件,是当前智能信息技术研究的热点。粗糙集(Roug集)理论是波兰数学家Pawlak提出的一种研究不精确和不确定问题的数学工具。是目前公认的研究数据挖掘、知识约简和粒计算等的理论基础。数据库技术是管理和操纵数据库中大量数据的最先进最有效的技术。充分利用数据库技术所具有的对数据库中数据操作的优势,来改进或设计新的适合于大数据集的高效数据挖掘算法,是许多学者正在探索的一个有效途径。本文以粗糙集理论作为研究的主要理论依据,并充分考虑和运用数据库技术的优越性,对目前数据挖掘中存在的一些问题进行了研究,提出了有效可行的解决方案。本文研究内容如下:1.对属性约简算法中基于分辨矩阵求取核属性的时空代价以及必要性进行了分析,基于Rough集的有关理论和数据库技术对基于粗糙集的属...  (本文共108页) 本文目录 | 阅读全文>>

安徽大学
安徽大学

基于朴素贝叶斯的分类方法研究

分类是数据挖掘中的一个重要研究课题。它的目标是构造一个分类器,对由属性集描述的实例指定最适合的类标签。许多分类方法和技术用于构造分类模型,其中贝叶斯方法由于具有坚实的数学理论基础以及综合先验信息和数据样本信息的能力,使其成为当前数据挖掘的研究热点之一。基于贝叶斯理论的分类,主要由两个分支构成,一个是朴素贝叶斯分类器,另一个方向是贝叶斯网络。由于算法简单性和计算的有效性,朴素贝叶斯分类器在分类方法当中一直是研究的重点。传统的朴素贝叶斯分类器有着很强的假设,即假设各个属性之间是相互独立的。但是现实当中并非如此,这在一定程度上影响了分类器的分类性能。本文通过对几种贝叶斯分类模型的学习,分析了各自的特点,为了充分利用朴素贝叶斯模型(NBC)的优势及其在分类中的分类效果,就其严格的独立性假设的限制,提出一些改进,取得了比较好的分类效果。第一章 绪论 主要概述了数据挖掘和知识发现相关概念,包括数据挖掘的挖掘过程,数据挖掘的功能,介绍了数据挖...  (本文共75页) 本文目录 | 阅读全文>>

南昌大学
南昌大学

基于粒计算理论的数据挖掘模型研究

数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据中挖掘有趣知识的过程。在众多的数据挖掘方法中,粒计算不失为一种有效的方法。粒计算涵盖了所有有关粒的理论、方法、技术和工具的研究。所谓粒,就是一组对象,它通过不分明性、相似性或功能性被链接到一起。粒计算的内容包括两个主要的方面,粒的构建和使用粒的计算。前者处理粒的形成、表示和解释,后者处理怎样利用粒进行问题求解。目前,对粒计算的研究已取得了不少成果,研究的主要方法有Rough集理论、模糊集理论和商空间理论等。Rough集的创立和发展,大大地影响和推动了粒计算的研究和发展,Rough集提出后,立即发现它在数据分类和约简上有成功的应用,并且迅速反映到用粒计算理论来研究这些分类和约简似乎更为得当,因此,近些年粒计算极快的形成了国内外学术界研究的热点。作者主要从Rough集理论上对粒计算理论进行探讨。本文首先回顾经典的Rough集理论,并根据当前信息系统多呈现不完备性的特征构建一种...  (本文共67页) 本文目录 | 阅读全文>>

重庆大学
重庆大学

Rough Set理论及其在数据挖掘中的应用研究

Rough Set(又称Rough集、粗集、粗糙集)理论是二十世纪八十年代发展起来的一种处理不精确、不确定和模糊数据的新型数学工具,它能有效地从数据本身提供的信息中发现有效的、潜在的知识。近年来该理论成功地在机器学习、数据挖掘、智能数据分析等领域得到了广泛应用,受到了众多学者的重视,取得了较大的发展。论文就Rough Set理论在数据挖掘中的应用所涉及到的一些关键技术问题进行了研究。众所周知,在大型知识库中,经常存在大量的冗余数据。冗余数据的存在,不仅浪费储存空间,而且干扰了人们做出正确而简洁的决策。所谓知识约简,就是在保持知识库的分类或决策能力不变的情况下,删去其中不相关或次要的知识。论文从信息论的角度来研究信息系统的知识约简问题。论文研究和讨论了Rough Set理论的代数表示和信息表示,并作了较全面、系统的比较和分析,并且发现一些规律:① 当决策表的条件属性增多时,决策属性集相对条件属性集的条件熵的变化规律呈非严格单调递减...  (本文共116页) 本文目录 | 阅读全文>>