分享到:

基于SDD中文农业网页搜索系统的设计与实现

由于我国数字鸿沟的存在,农业信息的获得非常困难,特别是急需农业科技信息和市场信息的企业、部门、农户,他们通过传统的综合搜索引擎,在这些海量的信息中,搜索一个准确的信息已非常困难,而使用通用的搜索引擎则搜索到很多无关的信息。要实现信息的精确搜索,就需要研究专业的搜索引擎。因此,针对于中文农业网页,研发专业化的搜索引擎,实现农业信息的精确搜索是本文研究的出发点。本文通过研究背景的分析提出了一种“二次主题漂移”检索模式。详细介绍了全文检索与语义检索技术,为后面的研究奠定技术基础,提出了基于SDD算法的语义检索技术实现方法。根据SDD算法,构建了一个实验系统来验证SDD算法处理大规模文档的能力,同时利用国家农业科学数据中心10个主题数据库中的10万条记录,来进一步验证“二次主题漂移”技术的可行性。最后介绍了基于SDD中文农业网页搜索系统的设计与实现,包括系统的结构与功能以及实际运行的情况。本文的主要成果:(1)研究并实践“二次主题漂移”  (本文共72页) 本文目录 | 阅读全文>>

《中国诗歌》2017年01期
中国诗歌

纸鸟群

能来与我一起看鸟实在是十分感谢。很久以前还是你教我剖开身体从肺叶中放飞绿色的纸鸟不过局部麻醉的手法学自网页搜索而且,我每天下午欲罢不能的剥离也并非从那时开始那是几年后,毫无契机地如今,我们已经可以来到公园的中心观赏这些鸟群:到了归巢的时间...  (本文共1页) 阅读全文>>

《今日中学生》2017年26期
今日中学生

寝室兵法

在漫长的求学路上,住校是我们多数人无可避免的选择,而在这之后,几个素昧平生的人将会在缘分的牵引下成为你朝夕相处的室友。不同个体的交融,兴许你们会亲密无间,但也可能会水火不容。此前,各大社交网站上关于“我的奇葩室友”的讨论一度成为热门话题,含有“寝室矛盾”“室友关系不和”等关键词的网页搜索结果更是达到了900多万条。室友关系作为学生时期最重要的人际关系之一,如今显得复杂而棘手。如何才能妥善解决这些问题,将矛盾纠纷大事化小小事化了,同室友好好相处呢?除了“小不忍则乱大谋”这样的金科玉律外,有没有更具体、更行之有效的秘籍宝典呢?下面出场的这套“寝室兵法”,是根据广大学生的实际经验总结而成,但愿能助大家在寝室这一方寸之地里如鱼得水。第一式:不战而屈人之兵“不战而屈人之兵”乃行兵作战的最高境界,放之于寝室,则要求我们将问题解决在矛盾发生之前。住校生涯伊始,面对新认识的室友,众人不妨坦诚相待,自陈优缺点与好恶,有了互相了解的基础,大家在往后...  (本文共5页) 阅读全文>>

《现代计算机》2013年21期
现代计算机

基于布隆过滤器的网页搜索去重方法

介绍布隆过滤器的相关理论,对MD5哈希算法进行较为详细的分析,对GPU和CPU的结构及运算特点进行分析比较,提出一种基于布隆过滤器并使用GPU进行URL的MD5计算的网页搜索去重方法。0引言根据2013年4月的最新数据,互联网上活动网站的数量达到了630,795,511个[1],存在的网页的数量则更加巨大。对此,如果没有一个高效的URL去重模块,用以防止系统对已经抓取过的网页进行重复抓取,浪费宝贵的网络带宽和CPU时间,网络爬虫系统必将不堪重负。在众多的URL去重技术中,布隆过滤器(Bloom Filter)是其中优秀的一个,而其主要缺点在于较高的误识别率,但若在布隆过滤器中仅选用一个哈希映射空间大、分布均匀设计良好的函数,可以大大降低误识别率,而MD5就是一个很好的选择。本文提出一种基于布隆过滤器并使用GPU进行URL的MD5计算的网页搜索去重方法,并给出程序设计方案及伪代码描述。1布隆过滤器布隆过滤器由巴顿布隆(Burton...  (本文共4页) 阅读全文>>

《计算机时代》2001年10期
计算机时代

网页搜索有否技巧?

问:为什么我输入的词中含有单个的数字或字母时,却不能查到相应的信息呢?如何避免这种情况? 答:网易搜索忽略“http”和“com”等字符,以及数字和单个英文字母,因为此...  (本文共1页) 阅读全文>>

合肥工业大学
合肥工业大学

基于文本分类的网页搜索排序

根据艾瑞iUserTracker监测数据显示,2017年1月PC端网站类别中,搜索引擎类稳居月度覆盖人数榜首位置,占比为98.4%。可见,虽然如今互联网呈现出爆炸式、多元式的增长,搜索引擎作为第一大流量入口的地位仍不可动摇,值得人们投入更多的关注。然而,搜索引擎多存在领域漂移的问题。所谓领域漂移,即指网页内容与查询关键词领域无关的现象,严重影响了用户的使用。文本数据是在网络这个庞大的信息库中占信息比重最大的,且多数用户使用搜索引擎时都是根据关键字进行搜索。基于此,本文对网页文本信息进行深入挖掘,结合文本分类相关技术,为解决领域漂移及相关改进算法需要人工建立领域向量的问题,提出了基于文本分类的网页搜索排序算法。论文主要工作如下:(1)本文研究了基于堆叠自编码器的文本分类方法。该方法通过堆叠自编码器的降维建模,解决了传统机器学习方法在处理文本问题时会出现的维数灾难问题。实验结果表明,该方法减少了原始数据的维度,提取出了更高阶的特征,...  (本文共56页) 本文目录 | 阅读全文>>