分享到:

基于向量空间模型的文本过滤系统

文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的  (本文共8页) 阅读全文>>

西南石油大学
西南石油大学

基于向量空间模型的文本相似度算法研究

随着Internet的飞速发展以及互联网技术的快速变革,如何对各式各样的文本进行相似度计算成为了研究的热点与难点。目前,文本相似度计算技术被广泛应用于文本数据挖掘、文本分类、信息检索、信息过滤、机器翻译、文本查重等领域,各种关于这些领域中的文本相似度研究也如火如荼的进行着。对文本相似度的研究主要是从提高查准率、查找速度等方面进行,目前已有诸如布尔模型、概率模型、向量空间模型等文本表示模型,相似度度量及距离度量等相似度计算方法,也有关于文本分词及语义等方面的研究。这些技术应用较为广泛,但在效率及性能等方面还存在一些无法忽视的问题,比如本文的研究重点向量空间模型,该模型存在无法表现特征项的出现顺序、向量维度高、计算效率低等问题,这些问题都需要我们进行研究与改进。本文对文本相似度计算相关技术进行研究,并针对传统向量空间模型在文本相似度计算时,无法体现特征项在不同位置的特殊文本表现能力的问题,研究了其改进模型:文本段向量空间模型。并针对...  (本文共58页) 本文目录 | 阅读全文>>

辽宁科技大学
辽宁科技大学

中文信息过滤技术的研究与应用

Internet的迅速发展在给人们的生活带来极大方便的同时,也带来了诸如“信息过载”“信息迷向”等问题,信息过滤技术应运而生。信息过滤就是根据用户的信息需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用和不良的信息。本文首先介绍了信息过滤技术的提出背景、发展历史、研究现状和应用价值,随后综述了信息过滤的特点、模型,信息过滤系统的体系结构、分类、实现技术和评估方法。文本是当前Internet上信息最主要的表现形式,中文文本过滤的相关技术是本文的研究重点。本文在对信息过滤系统的体系结构和文本过滤的原型研究的基础上,给出了一个基于向量空间模型的中文文本过滤的逻辑模型。中文文本的特征项抽取和表示是中文文本过滤基础。获取中文文本的表示需要经过分词、停用词处理、特征项抽取和特征项权重计算等过程,本文对这几个过程进行了详细的研究并提出了一种基于位置加权的特征项权重计算方法。用户信息需求是文本过滤的依据,本文探讨了获取用户信息需求的方式和...  (本文共77页) 本文目录 | 阅读全文>>

《中国科技信息》2007年09期
中国科技信息

超文本检索特点研究

对超文本检索的研究,是目前情报检索领域的一个重要课题。笔者通过对超文本检索技...  (本文共2页) 阅读全文>>

《潍坊学院学报》2006年02期
潍坊学院学报

浅谈超文本检索的制约因素与优化

在网络资源检索中,超文本检索占据着很大的比重,但在实际的检索利用中,多种因素制约着检索效果,限制了超文...  (本文共4页) 阅读全文>>

《现代计算机》2006年10期
现代计算机

基于内容的维文文本检索系统

介绍了一个基于内容的维文文本检索系统,该系统采用向量空间模型。文中对该系统的设计思想进行了介...  (本文共3页) 阅读全文>>

《情报杂志》2005年08期
情报杂志

超文本检索模式的优化探讨

超文本检索在网络资源检索中起着重要的作用,基本上有两种检索模式,但在实际...  (本文共3页) 阅读全文>>