分享到:

基于Exchange文档数据库的全文索引技术

Exchange 2000是当今开发办公自动化系统的主流产品之一,如何快速有效地查询Exchange数据库中的各种文档数据,是实现智  (本文共5页) 阅读全文>>

贵州大学
贵州大学

云环境下全文索引压缩关键技术研究

随着网络技术和信息技术迅猛发展,社交网络、电子商务、资讯信息流、网络游戏以及多媒体视听内容空前繁荣,其中以文本为载体的信息呈现出爆炸式的增长,人们逐步被淹没在数据汪洋里。如何在数据汪洋中快速的检索到所需的有用是亟待解决的难题,因此信息检索已成为当下最热研究领域之一。全文索引是检索引擎、信息过滤等信息检索领域中的关键技术,它是实现快速信息检索的关键数据结构,然而存储索引本身所需的磁盘空间开销为原始语料库的数倍,这不但会造成巨大的磁盘空间浪费,而且也是影响检索性能优劣的重要原因之一。因此,研究全文索引压缩算法具有重要的意义,因为压缩全文索引不仅可以降低索引的磁盘空间开销,同时也可以在检索时减少磁盘I/O开销以提高检索性能。本课题对全文索引中目前应用最广泛的倒排索引的压缩算法进行了深入研究,主要工作如下:从理论上分析了目前典型的倒排索引压缩算法磁盘空间占用情况;基于文本聚类思想提出了一种文档标识符分配算法;提出了自适应分段压缩ASCS...  (本文共72页) 本文目录 | 阅读全文>>

《电脑知识与技术》2012年03期
电脑知识与技术

面向中文全文索引的中文分词策略

中文分词是中文信息化处理的基础环节。在中文全文索引中,中文分词更起着举足轻重的作用。该文首先比较了常见的中文分词算法,最后选用了综合...  (本文共5页) 阅读全文>>

北京交通大学
北京交通大学

压缩全文索引的研究

全文索引用于处理大文本集合,利用它人们可以在海量文本中快速获取需要的信息。现有的全文索引技术归纳起来通常有两种类型的方法:基于倒排索引的方法和基于后缀数组的方法。随着文本信息的爆炸式增长,现有的这些方法在空间消耗、查询速度或者灵活性上显得不足,因此,需要探索更好的方法来满足人们的需求。压缩全文索引研究的目的是,利用文本压缩技术和全文索引技术找到一种有效的方法,以相对较小的空间索引原文,支持灵活查询,甚至可以通过索引恢复原文,从而完全取代原文。本文实现了倒排索引和压缩后缀数组索引,并提出了二级压缩自索引方法。该方法由两层结构组成,分别是索引层和表示层。表示层是该索引的第二层结构,它以原始文本为输入,为单词构建编码,并将原文转换成两个序列,分别是词形序列和词干序列。索引层是该索引的第一层结构,它接收表示层输出的序列,通过对词干序列构建压缩自索引,为原文提供查询功能,并可与词形序列结合实现原文提取功能。本文提出了分层重排的编码方法用于...  (本文共66页) 本文目录 | 阅读全文>>

吉林大学
吉林大学

全文索引结构的压缩与应用

自20世纪90年代以来,互联网在世界范围内得到了迅速的发展,网络上的信息呈爆炸式增长.同时,生物测序技术迅猛发展,来自全球测序中心的序列数据一直以飞快的速度在增长。面对着海量的网络数据、生物信息数据,管理、分析、使用这些信息就成了一个急需解决的问题。关于如何有效地进行信息检索是海量数据处理的核心和热点,而全文检索结构的设计与实现是应用中的关键问题。本文研究的目标是设计和实现高性能的全文索引数据结构,包括降低全文索引的空间占用、提高索引的速度等。本文的研究主要有以下三个方面:1对几种现有的常用索引结构进行了总结和综述。介绍了索引结构的原理以及应用,对其中几种经典结构给出了详细的介绍,包括其定义,时间空间复杂特性,以及构造算法。研究了各种索引结构之间的关系。2研究了一种基于后缀数组的全文索引结构,此结构可实现一种占用空间极小的压缩的后缀自动机(DAWG.)。在空间占用方面,此数据结构使用nlg|Σ|+o(n lg|Σ|)比特,其中n...  (本文共48页) 本文目录 | 阅读全文>>

《吉林大学学报(信息科学版)》2013年02期
吉林大学学报(信息科学版)

基于后缀数组改进的全文索引结构研究

为在网络数据中搜索到所需相关数据,通过对基于后缀数组的全文索引结构的改进研究,设计和实现一种降低空间占用率...  (本文共4页) 阅读全文>>