分享到:

基于相似度的文本聚类算法研究及应用

文本聚类是文本挖掘的一个重要分支,因其独特的知识发现功能而得到较为深入的研究。文本聚类算法已经在文档自动整理、检索结果的组织和数字图书馆服务等方面得到了广泛的应用。但是在应用中随着文本集的不断扩大,传统的文本聚类算法遇到了一些难以克服的困难,算法忽略了文本中单词之间的语义相关性,算法聚类结果不稳定等。论文主要针对以上问题对文本聚类进行研究。论文首先详细介绍了传统的文本聚类算法,并对其进行比较和分析。其次,为了解决向量空间模型忽略单词之间的语义相关性的问题,提出了一种基于单词相似度的文本聚类算法(TCWS);针对传统K-Means算法聚类结果不稳定的缺点,提出了一种基于文本平均相似度的K-Means算法(KAAST)。最后,将研究成果应用到公安情报系统中。本文的主要研究内容概括如下:(1)介绍了常用文本聚类算法,并从伸缩性、多维性、处理高维数据的能力等方面对常用文本聚类算法进行分析和比较。(2)提出一种基于单词相似度的文本聚类算法  (本文共83页) 本文目录 | 阅读全文>>

贵州大学
贵州大学

基于隐含主题的文本谱聚类算法研究

文本聚类能对无标签的文本数据在没有任何先验知识的情况下进行自动分类,是一种无监督的方法。谱聚类算法(Spectral Clustering,SC)通常被认为是一种较为高效的算法,它以谱图理论作为基础,将数据集映射成为无向带权图,将对数据类别的划分转化为对图的划分问题。与常见的K-means等算法相比,谱聚类算法能够在不同的样本空间上进行聚类处理,并且能够收敛到最优解。它能够将比较复杂的聚类处理问题转化成相对较为简单的代数求解问题。谱聚类算法也存在一些不足之处,最常见的就是相似度矩阵的构造问题和需要提前确定聚类数目的问题。谱聚类算法的效果很大程度上取决于相似度矩阵。传统计算文本相似度的方法是利用向量空间模型的特征词向量进行计算。向量空间模型具有高维稀疏以及缺乏语义信息等缺点。针对文本相似度计算问题,本文通过在传统词向量模型的基础上引入LDA(Latent Dirichlet Allocation)模型的隐含主题信息,对特征词和隐含...  (本文共69页) 本文目录 | 阅读全文>>

西安电子科技大学
西安电子科技大学

基于聚类分析的网络用户兴趣挖掘方法研究

网络应用的深入发展使网络信息服务系统的服务模式从集中统一的被动型向分布式个性化的主动型演进。实现这种服务模式转换的一个前提条件是对网络用户需求规律的深入理解,进而依据这些规律指导信息服务系统的信息资源组织与调整,使用户的需求信息与系统提供的尽可能一致。网络用户兴趣作为网络用户信息需求规律的一种形态,是构造新一代信息服务系统中资源组织自适应机制的工作基础。本文围绕用户兴趣模式提取这一目标,以用户访问的网页中文文本信息为对象,利用复杂网络理论、图论、随机过程理论、人工免疫网络原理及中文语义计算等方法与技术,较为深入的研究基于文本聚类的用户兴趣挖掘算法及相关问题,以期在降低聚类算法的计算复杂度,实现软聚类及探索新的处理方法等方面进行有益的尝试。主要研究内容包括下述四个方面:(1)用户兴趣挖掘模型。网络用户兴趣模式是用户个体和用户群体使用网络行为规律的描述,网络兴趣挖掘模型则是获取用户兴趣模式的一组规范处理流程。针对Web用户访问Web...  (本文共165页) 本文目录 | 阅读全文>>

西安电子科技大学
西安电子科技大学

聚类分析优化关键技术研究

聚类分析作为数据挖掘的一个重要研究领域,可以有效地帮助我们分析数据的分布、了解数据的特征、确定所感兴趣的数据类,寻找隐藏在数据中的结构,以便作进一步分析和利用。本文针对现有某些聚类算法存在的不足,结合粒子群优化等方法对现有某些聚类算法存在的需要人工设置算法初始参数及提高聚类性能等问题进行了探讨并提出了解决方案。研究了成对约束先验信息如何扩展和指导聚类以提高聚类质量。针对文本数据高维稀疏的特性,对如何提高文本聚类效果进行了研究。本文研究具有一定的理论研究价值与现实的应用意义。具体研究内容包括以下几个方面:1)提出了一种简单有效的粒子编码方法,采用新的粒子编码方法的粒子群优化K均值算法有效地解决了已有粒子群优化聚类算法当样本维数较大及样本各维的取值范围变化较大时,造成粒子群搜索空间过大,在有限次迭代搜索时影响算法的收敛速度和聚类效果,且在搜索过程中样本各维的值在一定范围内变化时可能会取到不符合样本实际情况的数值而出现空簇的情况等问题...  (本文共164页) 本文目录 | 阅读全文>>

贵州大学
贵州大学

基于归一化压缩距离的文本谱聚类算法研究

随着互联网信息的快速增长,如何对海量文本信息进行有效聚类一直是文本挖掘领域的研究热点。传统的文本聚类算法通常采用向量空间模型(VSM)进行文本聚类,但是文本向量空间存在高维稀疏的问题,而且随着文本数据规模的增大,向量空间维度随之变大,需要对文本特征进行选择,并导致文本相似度计算复杂,聚类准确度下降。基于压缩距离的通用相似度度量方法的提出,则为这一问题的研究提供了新的思路。基于压缩距离的聚类算法虽然具有普适性、领域无关性、参数无关性等优点,但是应用到文本内容语义信息聚类时往往准确率较低。针对这一问题,论文首先提出了一种文本特征扩展方法,该方法通过引用“百度百科”中特定词条的名片信息,对预处理过的文本中关键词进行特征扩展,并针对存在多条解释语句的关键词进行特征扩展降噪处理,提高特征词的主题贡献度。其次,提出了一种基于特征扩展的文本聚类方法(DEF-KC),该方法与经典文本聚类方法相比,省去了文本表示、特征提取、特征空间降维等复杂计算...  (本文共69页) 本文目录 | 阅读全文>>

西安电子科技大学
西安电子科技大学

蚁群文本聚类算法的研究与应用

随着信息技术的飞速发展以及信息获取的便利,人们已经被大量的信息淹没。如何从信息的海洋中提取出人们感兴趣的知识,完成特定的任务成为一个迫切需要解决的问题。基于这样一种需求,用来帮助用户从这些海量数据中分析出其间所蕴涵的有价值的模式和知识的技术——数据挖掘技术就应运而生了。聚类分析是数据挖掘领域中一个非常重要的研究内容,它主要是从数据库中的记录集中寻找数据的相似性并进行分类,从而发现数据库中隐含的有用信息。而蚁群聚类算法作为一种自组织、并行的聚类算法,被广泛应用于聚类分析中。本文首先介绍了数据挖掘的基本概念和分析方法,重点介绍了文本聚类分析技术以及文本预处理的相关技术,然后详细介绍了蚁群聚类算法的基本理论。针对蚁群聚类算法的后期收敛速度慢,以及蚂蚁的盲目随机运动导致的聚类效果和聚类效率受到影响,本文提出了改进概率转换函数、添加记忆器官、训练蚂蚁自适应移动从而改进了基本的蚁群聚类算法。本文在文档数据上进行了实验,验证了改进后的蚁群文本...  (本文共68页) 本文目录 | 阅读全文>>