分享到:

基于影响空间的K-means聚类算法及其应用

聚类分析作为一种非常重要的数据挖掘技术,已经越来越受到研究者的青睐,并被广泛应用到机器学习、模式识别、图像处理等众多领域。K-means是一种在生活、生产实践中最受关注并广泛使用的经典聚类算法,但仍然存在着对初始中心点和噪声数据敏感、聚类过程距离计算时间开销大等缺陷。本文针对K-means的上述问题分别进行了研究,提出了相应的改进策略,并将改进后的聚类算法应用到天体光谱数据的分析中。主要研究内容如下:(1)针对传统K-means算法对初始中心点和噪声数据比较敏感的缺陷,给出了一种基于影响空间的K-means聚类初始中心点优化算法。该算法引入影响空间数据结构对给定数据集进行区域划分,获得各个区域中的代表数据点,并利用加权距离吸引因子对代表性数据点进行合理合并获取所需要的初始中心点。选取的初始中心点一般分布于局部密度最大区域,可以有效降低噪声数据对聚类结果的影响。理论分析与实验结果表明,该算法在聚类精度和迭代次数上与同类算法比较,具  (本文共58页) 本文目录 | 阅读全文>>

西安电子科技大学
西安电子科技大学

基于免疫克隆的投影寻踪聚类算法及其应用

随着Internet技术的出现和通信技术的迅猛发展,人类积累的数据无论从规模上还是维数上都大大增加了,使得一些传统经典的聚类算法的效果急剧下降。为此,本文研究了投影寻踪线性数据降维方法,将免疫克隆算法用于投影寻踪聚类,对纹理图像、SAR图像进行了分割,取得的主要成果如下:(1)提出了基于免疫克隆的投影寻踪聚类算法,利用免疫克隆算法优化投影寻踪的投影指标,得到最优投影方向以及最优子空间,在最优子空间上获得了较好的聚类结果;(2)提出基于LDA投影指标的免疫克隆投影寻踪聚类算法,在投影寻踪聚类模型中,使用线性判别分析中的类间散度与类内散度的关系作为投影指标,并利用免疫克隆算法对这些指标进行优化,得到最优子空间。同时,对基于LDA投影指标投影寻踪聚类模型与K-means聚类算法进行自适应迭代优化结果,获得了较优的聚类结果;(3)根据拉普拉斯图建立有标签数据和无标签数据的关系,提出了基于半监督的投影寻踪聚类算法,并对纹理图像、SAR图像...  (本文共66页) 本文目录 | 阅读全文>>

江苏大学
江苏大学

基于相似度的文本聚类算法研究及应用

文本聚类是文本挖掘的一个重要分支,因其独特的知识发现功能而得到较为深入的研究。文本聚类算法已经在文档自动整理、检索结果的组织和数字图书馆服务等方面得到了广泛的应用。但是在应用中随着文本集的不断扩大,传统的文本聚类算法遇到了一些难以克服的困难,算法忽略了文本中单词之间的语义相关性,算法聚类结果不稳定等。论文主要针对以上问题对文本聚类进行研究。论文首先详细介绍了传统的文本聚类算法,并对其进行比较和分析。其次,为了解决向量空间模型忽略单词之间的语义相关性的问题,提出了一种基于单词相似度的文本聚类算法(TCWS);针对传统K-Means算法聚类结果不稳定的缺点,提出了一种基于文本平均相似度的K-Means算法(KAAST)。最后,将研究成果应用到公安情报系统中。本文的主要研究内容概括如下:(1)介绍了常用文本聚类算法,并从伸缩性、多维性、处理高维数据的能力等方面对常用文本聚类算法进行分析和比较。(2)提出一种基于单词相似度的文本聚类算法...  (本文共83页) 本文目录 | 阅读全文>>

北京邮电大学
北京邮电大学

聚类分析中若干关键技术及其在电信领域的应用研究

数据库中的知识发现(Knowledge Discovery in Databases,KDD)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘是KDD过程中的核心步骤,它的目的是运用特定的数据挖掘算法,从数据库中提取出用户感兴趣的知识,并以一定的方式表示出来,如树、表、规则和图等。作为主要的数据挖掘任务之一,聚类分析是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。这一过程的准则是最大化类内对象的相似性,同时最小化类间对象的相似性。本文重点研究了聚类分析中的若干关键技术和算法,同时探讨了它们在电信领域的应用可能。第一章对数据挖掘技术进行概述,主要讨论了知识发现的基本概念、数据挖掘的产生、发展以及数据挖掘算法可以实现的功能,主要包括:概念/类描述、分类和预测、聚类分析、频繁模式/关联规则挖掘、孤立点分析以及序列和时序分析等。同时,文中还给出了数据挖掘技术在电信领域的应用。最后阐...  (本文共156页) 本文目录 | 阅读全文>>

天津工业大学
天津工业大学

基于k-means算法在微博数据挖掘中的应用

二十一世纪的今天,微博已经成为人们生活中不可以缺少的一部分,而且并以飞速的方式迅猛发展,其作为一种新型的可关注分享信息的社交媒体,具有发布快、形式多样、内容量少等特点正好迎合了用户对信息的实时、准确以及多样性的需求,因此广大用户对微博非常喜爱,主要由于用户可以通过微博在任何时间、地点分享或关注自己喜爱的事物。微博用户在使用微博时,根据其自己不同的兴趣爱好、生活习惯会选择关注不同的好友和浏览不同信息。因此,可以根据微博用户的兴趣爱好就可以了解其喜好与关注的信息。不同的微博用户有不同的喜好,如“物以类聚,人以群分”,故对于具有相同爱好的用户可为微博的推广营销以及好友推荐等提供新的切入点与研究思路。微博的数据量非常庞大,如何快速有效的从中挖掘出自己想要的数据信息显得非常重要。数据挖掘的方法可以在庞大的数据中挖掘出有价值的数据信息,该方法中所应用到的数学算法已经非常成熟,并在很多行业得到应用,如电信、金融以及网站等,然而在微博用户兴趣群...  (本文共85页) 本文目录 | 阅读全文>>

重庆大学
重庆大学

基于稀疏表示的大数据聚类优化模型及算法研究

数据是信息的量化符号,数据聚类是以相似性度量为基础将数据集合进行合理的划分来发现其中隐藏的结构特征并提取有效信息的过程,是数据挖掘中一种重要的无监督学习技术,其在模式识别、机器学习、图像处理等领域有着重要而广泛的应用。在大数据时代,随着经济和科技的飞速发展,时刻都产生着大量高价值的数据信息。与传统数据不同,大数据一般具有多噪声、高维度、稀疏性、异构特征融合等特点。如何构造面向大数据的有效聚类模型和高效算法是数据分析中一个非常重要且极具挑战的研究课题,具有重要的科学价值和经济价值。针对大数据聚类问题,本文利用稀疏表示技术,得到了K-means的等价连续非凸优化模型及相应的优化算法,提出了高维数据的特征空间上的K-means算法思想,研究了大数据聚类中的稀疏非负矩阵分解模型及相应的ADMM类型高效算法,并讨论了SON模型、SC模型及K-indicator等其他的聚类模型。主要工作有:(1)K-means算法作为数据挖掘中十大经典算法...  (本文共86页) 本文目录 | 阅读全文>>