分享到:

最优停止理论中离散化方法的应用

离散化方法是研究连续参数最优停止理论和马尔可夫过程最  (本文共3;页) 阅读全文>>

《清华大学学报(自然科学版)》2010年01期
清华大学学报(自然科学版)

多关系离散化方法

为了从多关系数据库中挖掘知识,需要对连续取值的属性进行离散化。已有离散化方法都是针对单表设计,不能直接用于多关系环境。基于信息熵和最小描述长度原理,该文提出3种多关系离散...  (本文共5页) 阅读全文>>

《上海交通大学学报》2006年07期
上海交通大学学报

离散化方法在基于粗糙集焊接建模中的比较

粗糙集建模方法是一种新的且重要的焊接过程建模方法,离散化是粗糙集建模方法中一个必要且重要的步骤.针对已有离散化方法众多、难以取舍的特点,讨论并确立了焊接建模过程中离散化方法的选择标...  (本文共4页) 阅读全文>>

大连理工大学
大连理工大学

连续数据离散化方法研究

随着数据量的爆炸性增长以及信息技术的高速发展,数据挖掘与机器学习已成为当今研究的热点。目前,现实世界中往往呈现连续属性值的数据,而很多数据挖掘与机器学习分类算法仅仅适用离散属性值的数据。因此,必须将连续属性值的数据进行离散化,否则,这些分类学习算法无法正常工作。针对此问题,本文系统分析了现有的连续数据离散化方法,并从离散化标准等方面进行了深入研究,主要包括:(1)提出一种单属性与多属性相结合的自底向上离散化方法,在考虑属性间关系的同时,综合衡量各相邻区间对之间的差异,寻找最好的合并区间。首先,我们通过最小描述长度理论和连续属性中相邻区间对的重要性,提出一种结合单属性与多属性的离散化标准,并在理论上分析了此标准的优势;进一步,基于此标准,提出一种启发式的自底向上离散化算法,寻找最优的离散化结果;最后,在UCI数据集上的实验结果表明,与现有的离散化方法相比,此方法显著提高了C4.5决策树与支持向量机分类器的学习精度。(2)提出一种基...  (本文共91页) 本文目录 | 阅读全文>>

华中科技大学
华中科技大学

基于变精度粗糙集理论的多属性离散化方法研究

随着机器学习、数据挖掘技术的普及,对机器学习结果的精确度要求越来越高。研究者们提出了许多学习算法,可以应用到各个领域和场景中,如非常适合分类学习的C4.5决策树算法和支持向量机算法。为提高学习效果和预测精度,作为数据挖掘和机器学习的一个重要预处理步骤,连续值属性的离散化的重要性实则非常重要。许多学习算法,如决策树,只能用于离散化的数据集,而且连续值属性的离散化使学习算法更易理解数据,并提高计算效率。当前,大多数离散化方法只考虑某一连续属性与类属性间的关系。单属性离散化方法缺乏对属性重要性的考量,离散属性的顺序大多随机决定,导致隐藏信息的丢失。单属性和多属性相结合的离散化方法可解决上述问题,其条件属性相对其他属性的重要度作为多属性评价标准,基于最小描述长度理论的信息长度为单属性评价标准。经研究验证,该离散化方法有效利用了属性重要度,提高了离散效果。单属性和多属性相结合的离散化方法的离散化停止规则是基于经典粗糙集理论中的一致性水平得...  (本文共67页) 本文目录 | 阅读全文>>

《计算机技术与发展》2008年03期
计算机技术与发展

一种基于模糊聚类的离散化方法

由于粗糙集只能对离散属性进行处理,因而连续属性的离散化也就成了粗糙集的主要问题之一。提出了一种从模糊聚类出发的离散化...  (本文共3页) 阅读全文>>