分享到:

基于k-means算法在微博数据挖掘中的应用

二十一世纪的今天,微博已经成为人们生活中不可以缺少的一部分,而且并以飞速的方式迅猛发展,其作为一种新型的可关注分享信息的社交媒体,具有发布快、形式多样、内容量少等特点正好迎合了用户对信息的实时、准确以及多样性的需求,因此广大用户对微博非常喜爱,主要由于用户可以通过微博在任何时间、地点分享或关注自己喜爱的事物。微博用户在使用微博时,根据其自己不同的兴趣爱好、生活习惯会选择关注不同的好友和浏览不同信息。因此,可以根据微博用户的兴趣爱好就可以了解其喜好与关注的信息。不同的微博用户有不同的喜好,如“物以类聚,人以群分”,故对于具有相同爱好的用户可为微博的推广营销以及好友推荐等提供新的切入点与研究思路。微博的数据量非常庞大,如何快速有效的从中挖掘出自己想要的数据信息显得非常重要。数据挖掘的方法可以在庞大的数据中挖掘出有价值的数据信息,该方法中所应用到的数学算法已经非常成熟,并在很多行业得到应用,如电信、金融以及网站等,然而在微博用户兴趣群  (本文共85页) 本文目录 | 阅读全文>>

北京邮电大学
北京邮电大学

基于分布式计算的数据挖掘算法研究与实现

随着互联网访问便捷性的提高,互联网的线上活动已经成为一个越来越受欢迎的新兴领域。互联网的快速发展,扩大了互联网的应用领域。由此,互联网行业也产生了大量的用户数据。传统的单机计算方式,已经逐渐难以满足互联网行业实际业务情景下的计算需求和计算速度要求。而基于分布式计算的数据挖掘算法研究,有助于在互联网数据量日益增多的今天发挥其在计算能力和处理速度的优势。这就要求人们转换传统单机计算数据挖掘算法的设计思想,实现分布式计算的数据挖掘算法。为了实现这一要求,本文提出基于分布式计算的数据挖掘研究方法。本方法基于单机数据挖掘算法原理,对目前最为广泛使用的分类算法——朴素贝叶斯分类算法、SVM分类算法,关联规则——FP-Growth和聚类算法——Canopy算法、k-Means聚类算法来进行基于分布式计算的数据挖掘算法研究和实现,并将基于分布式朴素贝叶斯算法和FP-Growth关联规则的文本分类以及基于分布式环境的改进k-Means算法的聚类分...  (本文共74页) 本文目录 | 阅读全文>>

西安理工大学
西安理工大学

突发事件微博舆情的话题发现和热度预测研究

随着我国信息技术的迅猛发展,微博成为突发事件舆情传播的重要载体,它在突发事件舆情传播中发挥着信息协同传播作用,极大影响了舆情的传播速度和规模。突发事件微博舆情具有无先兆性、无相关性和偶发性特点,舆情爆发后的管理措施在时间和空间上具有滞后性,政府在微博舆情治理中面临挑战。因此,利用海量微博数据及时发现突发事件微博舆情的话题并进行热度预测具有重要的研究价值和意义。本文以突发事件微博舆情为研究对象,以话题发现和热度预测为研究内容。在总结国内外研究现状、梳理相关理论的基础上,分析了微博舆情传播时间、微博内容、用户参与度和用户关注度因素对突发事件微博舆情的影响,分析并选取了突发事件微博舆情数据属性。在此基础上提出了突发事件微博舆情话题发现模型和话题热度预测模型。在突发事件微博舆情话题发现中提出了 K-means-sLDA模型,使用K-means算法对微博文本聚类,基于轮廓系数法和聚类组内平方和法寻找微博文本的最优聚类数K,同时将聚类结果用...  (本文共101页) 本文目录 | 阅读全文>>

《嘉兴学院学报》2019年06期
嘉兴学院学报

基于球面距离的K-means聚类任务打包

针对深圳、广州、佛山等地大量"拍照赚钱"任务点打包问题,引入了基于球面距离的K-me...  (本文共6页) 阅读全文>>

《中国乳品工业》2019年10期
中国乳品工业

基于k-means聚类的我国乳制品消费集群研究——来自全国31个省份乳制品消费数据的分析

我国乳制品消费近几年来逐年增长,消费潜力不容小觑,但总体来说消费水平偏低,局面不容乐观。本文采用k-means聚类模型,对我国31个省份的城镇和农村的乳制品消费特征进行聚类,然后通过调整聚合系数,以期发现聚类规律。结果表明:目前我国城镇居民消费大致分为四种,总体上说城镇居民的...  (本文共6页) 阅读全文>>

《雷达科学与技术》2016年05期
雷达科学与技术

数据场和K-Means算法融合的雷达信号分选

雷达辐射源信号分选是电子情报侦察的关键环节,其中未知雷达的信号分选一直是分选中的难题。针对传统K-Means聚类算法对初始聚类中心敏感、需要事先确定初始聚类...  (本文共5页) 阅读全文>>

《软件导刊》2017年01期
软件导刊

基于二分K-means的协同过滤推荐算法

针对传统协同过滤推荐算法中存在的数据稀疏性问题,提出了一种基于二分K-means的协同过滤推荐算法。该算法在K-means算法的基础上,为了降低初始质点选择对聚类结果的影响,在运行中逐个添加质点。首...  (本文共4页) 阅读全文>>