分享到:

基于Lucene的Web站内信息搜索系统

随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前Web 搜索引擎(Search Engine)技术正成为计算机科学界和信息产业界争相研究、开发的对象。搜索引擎(Search Engine)是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。自1994年起至今,伴随着因特网的日益发展壮大以及Web信息量的迅速膨胀,Web 搜索引擎技术已经经历了三代发展阶段:集中式检索阶段、分布式检索阶段和智能化检索阶段。当前搜索引擎研究的主要焦点集中在自动化、智能化检索和提高检索结果的精确度上。今后搜索引擎还将不断扩展附加功能,以主题化检索为特征,以适  (本文共82页) 本文目录 | 阅读全文>>

《图书情报导刊》2020年03期
图书情报导刊

资源发现系统服务能力提升初探——以文津搜索系统为例

随着资源发现系统的普及,读者对资源揭示的深度与广度提出了更高的要求。从资源整合、资源揭示、检索功能、服务模式...  (本文共7页) 阅读全文>>

《图书馆杂志》2019年07期
图书馆杂志

新技术环境下图书馆搜索系统发展思考

该文从图书馆搜索系统用户需求的变化出发,在对图书馆搜索系统所依赖的搜索技术、数据资...  (本文共7页) 阅读全文>>

《中国数字医学》2011年10期
中国数字医学

基于数字生物特征识别技术在罹难人员搜索系统的应用

论述了国际维和部队和警察罹难人员搜索系统装备列装意义,利用生物特征识别技术设计了罹难人...  (本文共2页) 阅读全文>>

《计算机应用与软件》2004年02期
计算机应用与软件

特征提取搜索系统的设计与实现

本文针对目前常见搜索系统的搜索机制为关键字相关 ,导致所搜索到的结果过多...  (本文共2页) 阅读全文>>

华中科技大学
华中科技大学

基于分布式爬虫的电影搜索系统的设计与实现

随着大数据的到来,数据的价值显得越来越重要。海量的数据有着巨大的研究价值和商业价值,这其中也包含电影信息数据。数据的来源以前是管理员手动输入相关的数据,现在可以通过网络爬虫代替管理员去获取网络上丰富的电影数据。但传统的爬虫不支持分布式,这往往需要花费大量的时间才能爬取足够多的数据。而分布式爬虫通过多个爬虫协同工作爬取数据可以提升成倍的效率,从而解决单个爬虫爬取效率低的问题。电影搜索系统使用分布式爬虫获取电影数据,分布式爬虫使用了Redis数据库和Scrapy爬虫框架。爬虫分为Master端和Slave端,Master端爬虫主要负责解析网页目录页,把匹配的目录页链接存入Redis以便Master后续继续爬取,同时把匹配的详情页链接存入Redis交给Slave端进行后续处理。Slave端爬虫通过查询Redis数据库中详情页链接进行详情页解析并下载数据,下载完数据后通过脚本将数据格式化后存入MySQL数据库中以便网站访问。在爬虫运行过...  (本文共69页) 本文目录 | 阅读全文>>