分享到:

基于本体论的个性化信息搜索系统研究

全文检索式搜索引擎越来越成为用户使用互联网的重要工具,它的技术直接来源于信息检索领域,并根据互联网的特点进行了大规模的改变。然而由于互联网本身的涉及学科众多,用户层次多样,随着互联网数据量的急剧增加,现有搜索引擎技术越来越不能满足用户的要求,在搜索结果中与用户搜索目的无关的网页比例不断增加,而用户很难在结果中顺利找到目标网页。现在的搜索引擎不仅局限于简单返回数据库检索结果,还对这些结果进行再加工,判断哪些最符合用户搜索意图,然后优先排列最匹配的网页。这便是被称为搜索引擎“第一定律”的相关性原则,排序算法的效果直接影响了搜索引擎的使用效率。然而通用搜索引擎统一的返回结果无法满足不同用户的要求。全文检索式搜索引擎是基于关键词匹配技术的,然而自然语言中存在多义词、近义词、同义词的现象,而且用户提供的关键词并不一定存在于目的网页中,因此关键词机械匹配技术并不能达到应有的查全率、查准率要求。而与英语不同,汉语不存在天然的分词标记,这更加降  (本文共71页) 本文目录 | 阅读全文>>

《图书情报导刊》2020年03期
图书情报导刊

资源发现系统服务能力提升初探——以文津搜索系统为例

随着资源发现系统的普及,读者对资源揭示的深度与广度提出了更高的要求。从资源整合、资源揭示、检索功能、服务模式...  (本文共7页) 阅读全文>>

《图书馆杂志》2019年07期
图书馆杂志

新技术环境下图书馆搜索系统发展思考

该文从图书馆搜索系统用户需求的变化出发,在对图书馆搜索系统所依赖的搜索技术、数据资...  (本文共7页) 阅读全文>>

《中国数字医学》2011年10期
中国数字医学

基于数字生物特征识别技术在罹难人员搜索系统的应用

论述了国际维和部队和警察罹难人员搜索系统装备列装意义,利用生物特征识别技术设计了罹难人...  (本文共2页) 阅读全文>>

《计算机应用与软件》2004年02期
计算机应用与软件

特征提取搜索系统的设计与实现

本文针对目前常见搜索系统的搜索机制为关键字相关 ,导致所搜索到的结果过多...  (本文共2页) 阅读全文>>

华中科技大学
华中科技大学

基于分布式爬虫的电影搜索系统的设计与实现

随着大数据的到来,数据的价值显得越来越重要。海量的数据有着巨大的研究价值和商业价值,这其中也包含电影信息数据。数据的来源以前是管理员手动输入相关的数据,现在可以通过网络爬虫代替管理员去获取网络上丰富的电影数据。但传统的爬虫不支持分布式,这往往需要花费大量的时间才能爬取足够多的数据。而分布式爬虫通过多个爬虫协同工作爬取数据可以提升成倍的效率,从而解决单个爬虫爬取效率低的问题。电影搜索系统使用分布式爬虫获取电影数据,分布式爬虫使用了Redis数据库和Scrapy爬虫框架。爬虫分为Master端和Slave端,Master端爬虫主要负责解析网页目录页,把匹配的目录页链接存入Redis以便Master后续继续爬取,同时把匹配的详情页链接存入Redis交给Slave端进行后续处理。Slave端爬虫通过查询Redis数据库中详情页链接进行详情页解析并下载数据,下载完数据后通过脚本将数据格式化后存入MySQL数据库中以便网站访问。在爬虫运行过...  (本文共69页) 本文目录 | 阅读全文>>