分享到:

基于模式相似的子空间聚类算法研究

聚类分析是数据挖掘研究中最活跃的领域之一,用于将数据对象分组为多个类或簇,使得簇内对象尽可能相似而簇间对象尽可能相异。广泛用在模式识别、数据分折、图象处理、推荐系统以及电子商务等领域中。本文首先对聚类算法进行了分类、综述和对比。传统聚类算法在低维空间中能够有效地进行聚类,但在高维数据集中,由于其数据的稀疏性,距离的相似性以及存在大量孤立点,使得传统聚类处理的效率和效果都不理想。对高维数据,一般采用特征转换(维度简约)和子空间聚类(维度选择)来解决这个问题。本文第二章对目前提出的子空间聚类算法作出了系统阐述,并分析比较它们各自的优缺点。基于模式相似的聚类算法pCluster是子空间聚类的一种,与基于距离的聚类模型不同的是,在pCluster模型中,如果两个对象的属性在属性的某个子集上的趋势(模式)表现出一致性,则可判定这两个对象也相似。pCluster算法的主要目的就是发现对象之间这种模式上的相似性。本文第三章分析和实现了该算法,  (本文共68页) 本文目录 | 阅读全文>>

合肥工业大学
合肥工业大学

面向高维数据的子空间聚类算法研究

聚类是数据挖掘的重要研究内容,其中对大规模、高维数据库的聚类分析是研究的热点和难点问题。由于高维数据的稀疏性、空空间现象及维数灾难的影响,高维数据不可能在全维空间密集,于是传统聚类方法不能获得理想效果。针对高维数据聚类方法存在的问题,本文的主要工作如下:分析了传统聚类算法在处理大规模、高维数据集时遇到的困难和问题。比较了各种降维处理方法的优劣,从原理上论证了子空间聚类算法处理大规模、高维数据集的优势。在此基础上,进一步对已有子空间聚类算法进行分析,基于Aporiori算法思想的子空间聚类算法在应用中存在一些问题:首先在确定簇的相关维时需要多遍扫描数据库,降低了聚类的时间效率;其次,这些算法都只能对单一数据类型进行处理。关联规则挖掘中频繁模式的发现与簇相关维的确定具有很大的相似性。因此本文提出了一种基于模式树的子空间聚类算法PSC,仅需扫描数据库一遍,大大提高了子空间聚类算法的效率。同时通过扩展簇的定义,将对符号型和数值型数据的聚...  (本文共57页) 本文目录 | 阅读全文>>

南京师范大学
南京师范大学

高维聚类算法研究

聚类分析是数据挖掘领域中一项重要的研究内容,其目标是在没有任何先验知识的前提下,根据数据之间的距离(欧式距离、曼哈顿距离等)或者相似性将数据对象划分为不同的簇(类),使得相同簇中的元素尽可能相似,不同簇中的元素差别尽可能的大。聚类已经在信息过滤、资料自动分类、市场分析等领域得到了广泛的应用。高维聚类作为聚类中一项新的任务已经引起了研究人员的广泛关注,由于高维数据所特有的“稀疏性”和“维度效应”,传统的聚类算法在处理高维数据时效率往往很低甚至失效。而现实生活中又存在着大量的高维数据,如零售交易数据、文档数据、空间数据、地理数据、多媒体数据、网络访问数据、时间序列数据、基因数据等都可以达到成百上千维,甚至更高。由于高维数据的普遍性,因此研究针对高维数据的聚类算法具有非常重要的意义。现有的高维聚类方法主要有以下三种:(1)基于属性约简的方法;(2)基于子空间的方法;(3)其他方法。本文在对现有高维聚类算法进行了深入研究的基础上,提出了...  (本文共50页) 本文目录 | 阅读全文>>

《计算机工程与应用》2020年07期
计算机工程与应用

基于分式函数约束的稀疏子空间聚类方法

针对现有稀疏子空间聚类算法获取的系数矩阵不能准确反应高维空间中数据分布的稀疏性的不足,提出一种分式函数约束的稀疏子空间聚类模型,并利用交替方向迭代方法给出该模型的解。在无噪声情形下,证明了该方法获取的系数矩阵具有...  (本文共9页) 阅读全文>>

《工程勘察》2020年07期
工程勘察

基于空间聚类的外业导航路线生成方法

外业数据采集是地质、测绘等行业的基础性工作,无路网数据导航技术是完成外业工作的重要保障。本文提出...  (本文共5页) 阅读全文>>

《现代计算机》2020年16期
现代计算机

稀疏子空间聚类算法研究

图像、视频、生物信息等高维数据广泛存在于机器学习、模式识别等领域中。高维数据结构复杂,具有海量、高维和噪音等特性,处理这种数据比较困难。稀疏子空间聚类算法利用高维数据的子空间结构得...  (本文共6页) 阅读全文>>

《计算机工程与应用》2020年13期
计算机工程与应用

结构加权相关自适应子空间聚类

针对结构稀疏子空间聚类不能很好地把握数据相似度一致性的问题,提出一种新的子空间聚类优化模型;结构加权相关自适应子空间聚类(Structured Weighted Correlation Adaptive Subspace Cluste...  (本文共6页) 阅读全文>>