分享到:

基于机群结构的关联规则并行挖掘算法

数据挖掘是直接面向海量数据库系统的,这类数据库通常有上百个属性和数百万个记录,并且数据表之间包含复杂的关系,这就必然导致数据挖掘过程中搜索维数和搜索空间的激增,采用并行数据挖掘显然能提高效率。因此,数据库的巨大规模、异地分布及数据挖掘方法的计算复杂性要求进行并行数据挖掘。利用高性能并行计算机,设计并行关联规则算法来进行高效的并行挖掘已经成为当前数据挖掘的一个迫切解决的问题。目前的并行挖掘处理系统研究主要是围绕无共享机群结COW(ClusterofWorkstations),COW是实现并行计算的一种新主流技术,是属于分布式存储的MIMD并行计算机结构,由工作站和互连网络两部分组成,主要利用消息传递方式实现各主机之间的通信,充分利用各工作站的资源,统一调度、协调处理,以实现高效并行计算。1 并行关联规则简介设Pi(i=1,2,…,n)为n台基于无共享体系结构的计算机,即它们之间除了通过网络传递信息外,其它资源(如硬盘、内存等)全部...  (本文共4页) 阅读全文>>

重庆大学
重庆大学

并行数据挖掘理论研究与应用

通过数据挖掘进行知识发现是对大型数据库或数据仓库的一种分析,用于发现隐藏在数据仓库中的关系和知识,这些知识会影响管理者的决策和实施。数据仓库上的数据挖掘能够从利用机群并行计算中获利,从而提高其性能和数据分析质量。实际上,挖掘大量数据集会消耗巨大的计算资源,因为在传统的计算机上,对海量数据集进行数据挖掘得到结果是要花费非常多的时间的。一种减少响应时间的方法就是采样,但是在一些情况下,减少训练数据会导致计算模型不准确,甚至不可用。另外一种方法就是并行计算了。高性能计算机和并行数据挖掘结合在一起,就能为挖掘巨型数据集提供一个最佳方案,更快的处理速度意味着用户能够试验更多的模型以更好地理解复杂数据。高性能计算让用户能够分析更多的数据变成现实。这样并行数据挖掘为数据分析和知识提取发挥了越来越重要的作用,在诸如商业和工业领域的数据提取和决策支持中得到应用。虽然目前已提出过一些并行数据挖掘算法,但是存在着通信量过大、可扩展性差、数据分布不合理...  (本文共140页) 本文目录 | 阅读全文>>

中国科学技术大学
中国科学技术大学

关联规则挖掘及其在基因表达数据中的应用

关联规则挖掘是数据挖掘领域中一个重要的研究问题,从1993年Agrawal等人提出至今,一直是学术界和产业界广泛关注的热点。随着生物数据的快速增长,生物信息学已成为关联规则挖掘最富有机遇与挑战性的应用领域之一。本文围绕关联规则挖掘问题,对关联规则挖掘算法及其并行化、以及关联规则挖掘在基因表达数据中的应用展开了较全面和深入的研究,其主要内容和贡献包括:(1)基于FP-tree的最大频繁模式挖掘算法研究由于最大频繁模式搜索空间是项目数的指数级,所以修剪策略在最大频繁模式挖掘算法中一直是一个非常重要的技术。本文在分析研究了前人提出的最大频繁模式挖掘算法FPmax~*基础上,使用本文提出的完全子集修剪和起始项目集修剪策略,提出了进一步优化的改进算法FPmax~(**)。实例分析表明,这两项修剪技术可进一步减少计算开销,提高原FPmax~*算法的性能。(2)基于FP-tree的频繁闭合模式挖掘并行算法研究由于在频繁闭合模式挖掘过程中,除了...  (本文共131页) 本文目录 | 阅读全文>>

《计算机工程与科学》2018年12期
计算机工程与科学

多策略候选集构建与实体链接

1引言实体广泛存在于各类文本中,而文本中自然语言的表述往往具有多样性和歧义性,存在大量的简写、缩写、不规范和模糊的表达[1]。面对歧义或未知实体时,需要通过实体链接技术对有歧义的实体进行判别,并利用知识库中相关信息为原文本添加丰富的语义信息,帮助读者了解实体,同时也协助计算机对文本进行理解和分析。实体链接任务的基本目标是将从文本中抽取的实体指称项正确地链接到知识库中对应的实体上。实体链接是自然语言处理各个应用领域的基础环节,对于信息检索、自动问答、信息抽取和知识库扩容都具有重要Address:School of Computer Science and Technology,Soochow University,333Ganjiang East Rd,Gusu District,Suzhou 215006,Jiangsu,P.R.China的研究意义,作为知识图谱的关键环节实体链接任务也已经逐步被研究者们深入研究[2]。尽管目前...  (本文共10页) 阅读全文>>

华南理工大学
华南理工大学

基于背景先验和物体候选集的显著性对象检测研究

在一个复杂的场景中,总存在着突出的,引人注目的区域,我们称之为显著性区域。显著性对象检测的主要任务就是准确提取出图像中显著性目标区域,并输出一副显著图来表示每个像素属于显著目标的可能性。由于其能够更好帮助人们理解图像以及有助于计算机快速高效地处理复杂的视觉任务,目前已广泛运用到了与计算机视觉相关的多个领域中,如目标检测,图像分割,视频压缩等。本文基于边界背景先验和物体候选集,提出了两种自底向上的显著性对象检测框架。同时本文提出了一种新颖的物体位置先验计算模型,对显著图进行优化。本文的主要工作和创新点如下:第一,本文在传统的流形排序显著性检测模型(MR)基础上,将边界背景先验和区域对比集成到一个模型中,本文称作为EMR模型。传统流形排序(MR)显著性检测模型不仅利用了业界常用的边界背景先验,还假设除了边界,其他地方都是显著性区域,该假设不是很合理,与最终的需求有所矛盾。因此,本文的EMR模型舍弃了该假设,重新定义了一个新的代价函数...  (本文共75页) 本文目录 | 阅读全文>>

华中科技大学
华中科技大学

基于SVD++推荐系统候选集生成及冷启动解决方法

随着互联网上信息爆发式的增长,用户对信息也呈现出个性化的需求。推荐系统通过用户偏好数据获取用户兴趣取向,从而为用户提供个性化的信息或商品推荐服务。SVD++算法由于其良好的精确度与可扩展性,非常适合用于大型互联网系统,已成为推荐系统领域的研究热门。但冷启动与候选集生成问题一直是SVD++算法应用的瓶颈。推荐系统需预测用户对商品子集即候选集的偏好从而形成推荐。而SVD++算法基于随机抽样的候选集生成方法不能生成符合用户兴趣的候选集,推荐结果的个性化程度不高,这便是候选集生成问题。另一方面,系统扩展引入的新用户、新商品不存在评分数据,SVD++算法不能训练新用户新商品的特征参数,产生新用户、新商品无法加入推荐系统的冷启动问题。针对候选集生成问题,考虑到用户历史行为与候选集之间的关联,本文利用关联挖掘方法解决候选集生成问题,提出了基于FP-Tree的候选集生成方法。本文利用FP-Tree存储商品间的关联关系,挖掘与用户的浏览历史相关联...  (本文共60页) 本文目录 | 阅读全文>>

《应用科学学报》2017年02期
应用科学学报

多候选集广义正交匹配追踪算法

随着信息技术的快速发展,人们对信息的需求量越来越大,这对现有的信号采集系统和信号的后续处理带来了一定的挑战.传统的信号采样要求满足Nyquist采样定理,即要求采样速率不低于信号带宽的两倍.传统方法的压缩过程先经过高速采样再压缩,这一过程浪费了大量的采样资源.压缩感知(compressed sensing,CS)理论[1-3]表明,只要信号是稀疏的或者是在特定域上可压缩的,就能以远低于Nyquist的采样速率进行随机采样,最后重构出原信号.针对可稀疏的信号,这种将数据采集和数据压缩合二为一的新理论在众多领域有着巨大的吸引力和应用前景[4].重构算法是压缩感知理论中的三大关键技术之一,如何从压缩测量的低维数据中最大限度地恢复重构出原始的高维数据是其难点所在.常用的重构算法主要有组合算法、凸松弛算法、贪婪算法三大类.在这些算法中,贪婪算法由于结构简单、运算量小等特点而受到重视.传统的贪婪算法有匹配追踪(matching pursui...  (本文共11页) 阅读全文>>