分享到:

网络蜘蛛

互联网上有着无穷无尽的资源,其中不乏大量精美的图片:山水、明星、可爱的动物,当然还有  (本文共2页) 阅读全文>>

湖南大学
湖南大学

基于巩固学习的网络蜘蛛搜索策略研究

随着因特网技术的广泛应用,因特网上Web信息资源呈指数级增长,传统的搜索引擎正面临巨大的挑战。各类专业搜索引擎应运而生并受到广泛关注。网络蜘蛛搜索策略问题的研究,对专业搜索引擎的应用与发展具有重要意义。本文主要从机器学习的角度,围绕提高搜索效率的问题,采用巩固学习(Reinforcement Learning,RL)的方法,对专业搜索引擎网络蜘蛛的搜索策略进行了深入研究。本文首先介绍了巩固学习的基本概念和网络蜘蛛搜索策略的研究进展,在分析和比较现有专业搜索引擎网络蜘蛛搜索策略的特点和优缺点的基础上,归纳了提高搜索效率的几个关键因素。本文针对提高网络蜘蛛的学习效率问题展开研究,提出了一种基于隐偏向信息学习的巩固学习模型并改进了SARSA算法。改进算法的主要思想是,通过学习环境状态中的隐偏向信息,动态调整巩固学习代理体的搜索策略,以减小搜索空间,提高学习效率。针对“推箱”任务的实验表明该算法具有良好的性能。在此基础上,本文提出了一种...  (本文共61页) 本文目录 | 阅读全文>>

哈尔滨工程大学
哈尔滨工程大学

网络蜘蛛垂直搜索算法的改进与实现

网络蜘蛛在垂直搜索引擎中占据着重要的地位,它的搜索算法是垂直搜索引擎的核心技术,基于何种策略的搜索算法才能得到更高的搜索回报率是近几年网络蜘蛛研究的热点问题。本文对网络蜘蛛垂直搜索算法进行了改进与实现。本文研究了网络蜘蛛的通用搜索算法和几种垂直搜索策略,分析了现有启发式搜索算法的优缺点,改进了垂直搜索算法,设计并实现了一个基于改进后的算法的网络蜘蛛,对手机行业网站作了垂直搜索实践。对算法的改进主要体现在以下三个方面。第一,通过对大量网页源文件的分析给出了一个新的链接价值估计的方法,并给出了一个经验公式。第二,把阈值的估计和ε——贪婪策略结合起来,使链接的选择序列优化,从而得到更高的搜索回报率。第三,巧用MD5算法把url映射成两个数,使判断任意两个url是否相同的比较次数小于等于2。对基于改进后的搜索算法的网络蜘蛛进行用例设计和类设计,然后阐述了网络蜘蛛的实现细节。实现部分的说明包括三个部分,分别是程序的初始化,抓取网页和程序结...  (本文共75页) 本文目录 | 阅读全文>>

浙江大学
浙江大学

主题搜索引擎中网络蜘蛛搜索策略研究

随着Web上多元化信息的增长,传统的搜索引擎,即通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,以提供分类更细致精确、数据更全面深入、更新更及时的因特网搜索服务。在主题搜索引擎中,网络蜘蛛以何种搜索策略访问Web,以提高效率,是近年来主题搜索引擎研究中的热点问题之一。而Web的动态性、异构性和复杂性要求网络蜘蛛能够高效率地实现Web信息提取,以保证信息的实时性和有效性。该文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上,提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中,引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性剪枝算法—EPR算法。而...  (本文共57页) 本文目录 | 阅读全文>>

《科技信息》2012年26期
科技信息

网络蜘蛛的研究与实现

本文从搜索引擎的应用出发,探讨了网络蜘蛛在搜索引擎中的作用和地位,提出了网络蜘蛛的功能和设计要求。在对网络...  (本文共2页) 阅读全文>>

《安阳工学院学报》2012年06期
安阳工学院学报

网络蜘蛛模拟系统分析与设计

网络蜘蛛是搜索引擎的基础和底层技术,已成为搜索引擎重点研究和发展的方向。本文在网络蜘蛛的基本结构和工作...  (本文共3页) 阅读全文>>