分享到:

数据挖掘技术简介

1.引言 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、 人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一门涉及面很广的交叉学科,包括机器学 习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。数据挖掘技术包括三个主要部 分:算法和技术、数据、建模能力。 2.数据挖掘的分类 (1)根据数据挖掘的任务,可分为:分类或预测模型数据挖掘、数据总结、数据聚类、关联规则发现、序 列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。 (2)根据数据挖掘的对象,可分为如下若干种数据源:关系数据库、面向对象数据库、空间数据库、时态 数据库、文本数据源、多媒体数据女异质数据库、遗产(legacy)数据库,以及Web数据源。 (3)根据数据挖掘的方法,可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方 法中,可细分为:回归分析(多元回归、自回归等...  (本文共3页) 阅读全文>>

南昌大学
南昌大学

基于云计算的关联规则Apriori算法的研究与实现

随着信息、媒体和通讯技术的迅速发展和普及,同时也伴随着各种数据铺天盖地的袭来,但是通常情况下这些数据都是有杂质的、数量巨大的、不可直接使用和拿来运算的。与此同时海量信息的挖掘问题迟迟没有新解决方案,直等到云计算模式的产生,为化解此危机提出了破解方法。经过仔细分析和研究云计算和数据挖掘的算法,确立了课题的研究方向和目标。本文使用了集群方式配置实验环境,Hadoop开发工具和Eclipse编程Java语言来实现整个实验,同时基于算法研发了新的算法,通过不同指标对Apriori比算法和改良后的算法在不同环境下的优缺点,并利用真实数据进行测Apriori试实验,得出实验结论。本文最开始通过了解和分析近代国内外相关技术的发展趋势和研究现状,确立了云计算和数据挖掘方面的研究背景和研究意义。然后,详细介绍中非常重要的两个部分:Hadoop和HDFS接下来分MapReduce。两章重点阐述了两种不同的改良算法,第一种算法采用基于幂集的算法Apr...  (本文共73页) 本文目录 | 阅读全文>>

《中国新通信》2017年09期
中国新通信

浅谈数据挖掘技术在频谱监测数据分析中的应用

前言:在对频谱监测数据分析中,简单统计分析已经无法满足频谱监测数据实际需求,需要对数据深入研究,探索配频谱监测数据潜在关联,寻找到异常信号,有效提升频谱监测精确性,起到辅助性作用。数据挖掘技术在应用过程中,能够挖掘海量数据内价值,有关监督设备可以对数据进行扫描,深入分析有关数据。一、数据挖掘技术简介1.1数据挖掘的概念在上世纪90年代内,研究人员提出了数据挖掘,主要目的就是希望能够将所采集到的应用数据内所具有的潜在价值信息挖掘,获取价值信息。数据挖掘内包含较多学科内容,例如人工智能、统计、可视化技术、数据库等。数据挖掘在对数据分析研究过程中,主要采取分类及聚类进行监测,对有关知识进行演变。数据挖掘常见模式主要分为四种,分别为频繁模式、分类模式、聚类模式与异常模式[1]。1.2数据挖掘的过程1、数据准备。数据准备阶段主要包含两方面工作,分别为数据获取和数据预处理。数据挖掘应用点在确定之后,能够有效对有关数据进行收集,同时对数据背景...  (本文共1页) 阅读全文>>

成都中医药大学
成都中医药大学

基于数据挖掘技术的痰、饮辨证论治规律的比较研究

目的:运用数据挖掘的方法对从痰饮论治疾病的现代临床报道进行辨证论治规律的比较研究,探讨“痰”、“饮”的辨识和治疗,并为“痰”、“饮”比较研究在方法学上的创新进行探索。方法:搜集、整理1979年1月至2010年6月,50余种公开发表的中医药期刊杂志中有关从“痰”、“饮”角度辨治疾病的3100余篇临床报道,建立“痰饮数据库”,根据“四诊信息采集→辨病与辨证相结合→确立治法,选方用药”的辨证论治思路确立比较点,与数据挖掘专业人员合作,首先选取频数分析方法对痰饮的四诊信息(症状、舌、脉)、相关中西医疾病、证候要素(病因病机要素与病位要素)以及治疗特点(方剂、药物及药物性味和归经)分别进行数据挖掘,初步掌握各项的分布概况和特征。再采用关联规则分析方法,对痰饮临床报道中“药-药”关系、“药-症”关系进行比较研究。然后,运用聚类分析、因子分析以及决策树分类方法对“痰”、“饮”的四诊信息进行比较研究。结果:1.“痰”、“饮”症状、舌、脉既有共性...  (本文共128页) 本文目录 | 阅读全文>>

吉林大学
吉林大学

基于改进的K-means算法的银行客户聚类研究

随着近年来我国经济的飞速增长,各行各业的竞争日渐激烈,尤其是对于银行等金融领域而言,如何在如此激烈的竞争环境下适者生存成为了其最关心的问题。近年来,信息技术的发展给企业的竞争环境带来了巨大的变化,企业由过去的以产品和服务为中心、将注意力专注于产品和服务,逐步转变为以客户为中心。企业逐渐意识到把握住客户,就是把握住了业绩,越能及时地满足客户的需求,就越能满足市场的需求,就越能在行业竞争中脱颖而出。目前,我国大部分企业都已经建立了内部客户管理系统,我国的金融行业也积累了海量的客户数据资源。若能有效地理解和利用这些客户数据信息,则会对提高企业服务水平大有裨益。其中,准确地对客户进行分类能使企业更加有效地对不同的客户群体提供更有针对性和更有效的服务。当今的银行业已经具备了对海量数据集的收集,但是如何有效地利用已有的信息,并从中挖掘出对银行决策者真正有决策价值的信息是个重要的研究课题。很显然,随着数据的指数级增长,传统的人工客户分类方式是...  (本文共55页) 本文目录 | 阅读全文>>

南昌大学
南昌大学

数据挖掘技术在电信精确化营销分析中的应用

电信进行经营分析工作很早就存在,但只是针对规模和简单价值链进行分析,其主要的分析和展现是基于二维平面的,对经营分析工作的实时性、准确性和前瞻性没有太高的要求。而市场营销需要的却是通过对多维数据采取查询、旋转、钻取和切片等关键技术对数据进行综合分析和生成报表,得出相关的结论,从而辅助经营者进行决策。因此,把成熟的数据挖掘技术引入到通信行业,通过利用已知的数据建立数学模型的方法找出隐含的客户行为规则对于企业来说具有重要意义。本文在广泛研读相关数据挖掘技术和应用的书籍及文献资料的基础上,掌握了数据挖掘技术基础,同时整合电信内部各个支撑系统数据,对客户分群、客户价值、客户流失等电信业务主题进行分析,把数据挖掘技术和电信业务分析主题紧密结合起来,最后设计了数据仓库的逻辑体系架构、物理体系架构以及数据模型,采用数据挖掘技术建设了一个企业级数据仓库。通过本文的研究实现利用已知的数据通过建立数学模型的方法找出隐含的业务规则,将基于科学决策的客户...  (本文共66页) 本文目录 | 阅读全文>>