分享到:

基于巩固学习的网络蜘蛛搜索策略研究

随着因特网技术的广泛应用,因特网上Web信息资源呈指数级增长,传统的搜索引擎正面临巨大的挑战。各类专业搜索引擎应运而生并受到广泛关注。网络蜘蛛搜索策略问题的研究,对专业搜索引擎的应用与发展具有重要意义。本文主要从机器学习的角度,围绕提高搜索效率的问题,采用巩固学习(Reinforcement Learning,RL)的方法,对专业搜索引擎网络蜘蛛的搜索策略进行了深入研究。本文首先介绍了巩固学习的基本概念和网络蜘蛛搜索策略的研究进展,在分析和比较现有专业搜索引擎网络蜘蛛搜索策略的特点和优缺点的基础上,归纳了提高搜索效率的几个关键因素。本文针对提高网络蜘蛛的学习效率问题展开研究,提出了一种基于隐偏向信息学习的巩固学习模型并改进了SARSA算法。改进算法的主要思想是,通过学习环境状态中的隐偏向信息,动态调整巩固学习代理体的搜索策略,以减小搜索空间,提高学习效率。针对“推箱”任务的实验表明该算法具有良好的性能。在此基础上,本文提出了一种  (本文共61页) 本文目录 | 阅读全文>>

重庆邮电大学
重庆邮电大学

基于仿生学的主题爬虫搜索策略及关键技术研究

主题爬虫(Focused Crawler)是主题搜索引擎的关键部件,目的是检索最大数量的与特定主题相关的网页。它会根据相关算法或者特定策略进行网页筛选,直到达到一定的下载数量、迭代次数或者主题相似度的精度阈值为止。比之通用爬虫,主题爬虫需要解决以下问题:主题定义、网页数据的分析、未知URL的搜索策略。对于主题定义、网页数据的分析已经比较准确和全面。而未知URL的搜索策略一直是主题爬虫研究领域的热点及难点,该领域的研究从最初的基于内容和链接到利用叙词表和本体,再到目前基于机器学习算法,主题爬虫的搜索精度和覆盖率都有了一定的提升。然而,当前主题爬虫的搜索策略研究依然存在着主题计算准确率较低,抓取网页的覆盖率不高,容易出现主题偏移,种子页面选取不合理等问题。为了解决以上问题,本文对主题爬虫搜索策略及相关技术进行了如下研究:1.本文设计了一个基于变异思想改进粒子群算法的主题爬虫模型。首先,对于每个主题基于点击率获取3种容易产生大规模聚集...  (本文共66页) 本文目录 | 阅读全文>>

大连理工大学
大连理工大学

基于技术位的企业知识搜索策略研究

在知识经济时代,加强、加快技术创新是企业生存发展的第一要义。重组搜索理论认为,企业通过一系列的知识搜索行为来进行技术创新。在资源约束条件下,企业需要采取合适的搜索策略,不断平衡各个方面之间的关系,以求在动荡的市场竞争中占据有利地位。那么企业的知识搜索策略演化有哪些特征呢?如何科学地评判企业的知识搜索行为呢?本文以重组搜索理论为基础,结合生态学“适应性景观图”的思想,基于技术位这一概念构建“搜索范围、搜索深度、搜索价值”的三维分析框架,运用MATLAB软件,基于CPC分类号构建技术位测度方案,将关于搜索范围、搜索深度和搜索价值的测算落至实际操作层面。并以华为和思科2005-2015年在美国专利商标局申请的专利为例,描述两家企业知识搜索策略演化的特征及差异。本文通过分析得到如下结论:(1)华为和思科在2005-2015年间的知识搜索策略均以本地搜索为主、远程搜索为辅,思科的搜索深度和搜索价值均普遍高于华为;(2)尽管思科在技术位布局...  (本文共58页) 本文目录 | 阅读全文>>

大连理工大学
大连理工大学

时间敏感的蚁群优化MANET资源搜索策略

近年来,随着移动设备的应用日益普及,人们对移动网络和移动自组织网络(MANET)的需求也在不断增加。在此背景下,如何共享资源,特别是如何满足移动用户对资源的需求,已经引起了研究人员们的广泛关注。到目前为止,已经有很多相关资源搜索的研究策略提出,然而大多数研究策略并未针对MANET节点的抖动性问题提出有效的解决方案,也没有研究策略考虑到节点移动的时间特性。已有研究表明,MANET中的节点是以日或者周为周期进行有规律的移动。因此,本文首次将时间因素引入到MANET资源搜索中,并根据节点在不同时间段内的历史交互记录,获取时间敏感的节点可用邻居集合和邻居的资源偏好,为接下来MANET下的资源搜索奠定了基础。由于MANET中节点传输距离有限且传输效率低下,所提出的资源搜索策略必须满足轻量高效的要求,而蚁群算法具有发现最优解的能力,能够对搜索路径进行优化。为此,本文提出了蚁群优化资源搜索策略。在该策略中,将计算出的节点邻居可用性和资源偏好作...  (本文共56页) 本文目录 | 阅读全文>>

北京邮电大学
北京邮电大学

主题爬虫搜索策略的设计与实现

在互联网迅速发展的大背景下,垂直搜索引擎发挥着越来越重要的作用,其提供了更加专业化的主题爬虫搜索和信息检索服务。主题爬虫是垂直搜索引擎的基础和关键,其搜索策略直接影响检索结果的质量。现有的主题爬虫在搜索覆盖率、效率以及主题判断精确度方面仍然存在可提升的空间。为了提高主题爬虫的整体性能,本文提出了一种主题爬虫搜索策略,主要研究成果如下。互联网蕴藏的信息是随时动态变化的,完全保证主题爬虫获取信息与互联网中信息的同步性比较困难。本文提出了一种更为合理的网页抓取优先级评估模型,从而达到最优的抓取效果。该模型从网页内容主题相关度、链接分析和网页更新频率三个维度衡量网页的重要性,使得重要的网页可以优先进行再次抓取和信息更新,从而尽可能与互联网的动态信息保持同步。为了提高主题爬虫的搜索覆盖率和主题判断的精确度,本文设计了一种更加专业化的主题爬虫搜索策略。该策略增加网页类型判断和正文提取,使得主题爬虫的主题判断更有针对性。同时,增大主题不相关网...  (本文共67页) 本文目录 | 阅读全文>>

《情报杂志》2017年10期
情报杂志

创新战略对知识搜索策略的影响——基于市场环境的调节作用

[目的/意义]知识搜索是企业获取外部知识,实现开放式创新的重要途径,但现有文献对知识搜索的研究主要集中在知识搜索对创新绩效的影响,很少有文献分析影响知识搜索的前因。研究知识搜索的前因,有利于弥补现有文献对知识搜...  (本文共8页) 阅读全文>>