分享到:

寻“宝”有术

文本信息检索中的核心技术大致包括:最基本的信息检索模型,为实现检索系统所必须的手段,以及为提高检索性能所采取的措施。这些技术已经成为人们“信息堆里”寻“宝”的工具。 $$信息检索模型——对检索问题进行形式化描述 $$信息检索系统的目的就是要从纷繁复杂的大量信息中筛选出符合用户需求的信息。为了实现这个目的,首先要解决的问题就是如何表示要检索的文档和需求查询,以及如何计算文档与查询间的相关程度。这就需要建立一个模型,以便对检索问题进行形式化的描述。 $$从20世纪60年代中期以来,人们提出了大量的检索模型。当前应用中最主要的三个基本模型是布尔模型、向量空间模型和概率模型。 $$1. 布尔模型 $$布尔模型(Boolean Model)是最简单的信息检索模型。直到目前为止,仍有很多商业信息检索系统应用布尔模型。这种模型的理论基础是集合论。在布尔模型中,文档和查询都被表示为索引项的集合。用户可以根据检索项在文档中的布尔逻辑关系提交查询,...  (本文共4页) 阅读全文>>

《情报学报》1989年03期
情报学报

基于词相依性的向量空间模型

情报检索的向量空间模塑的基木前提是把文献和提问用向量表示。这种对文献和提问的处理方法把检索问题转化为一个关于向量空间的问题。这种模塑的优点是可以将输出结果排序和控制输出量的大小。现阶段人们对于向量空间模型的研究是在较强的假设条件下进行的,即假设了词向量之间是相互正交的(从而标弓协司的出现是独_句,(J)。这种假设增加一r这种理论的可行性,但却忽略了词之间的相互关系。实际上标引词的出现常常是有联系的,}}:独立的。因而,墓于独立性假设的检索模塑就不能确切地反映实际情况。木文通过对已有的向量空间模型的分析与评价,提出了一种在向量空间模型中考虑词相依性的一般理论,即将通常讨论中关于词关系矩阵C的计算转化为对标引词向量生成的欧氏空间,卜一组正交墓的确定。通过介绍和评价K.M.Wong等人的工作,说明了这种理论的暇要性和,.r行性,井提出了考虑词相依性的一些新的设想。步)与价 设D是一个包括。:篇文献的文献集合: D二{d工,d:,…,d...  (本文共9页) 阅读全文>>

《农业网络信息》2012年10期
农业网络信息

一种面向语义检索的向量空间模型改进方法

在本体理论中,文本的分类和语义检索成为研究的重点,分类模型决定了分类效果。现有的分类模型中比较常用的就是向量空间模型(Vector Spatial Mod-el,VSM),但是随着信息量的增大、文本格式的多样化以及语义网的发展,传统的VSM已不能满足需求,尤其是在体现领域本体之间关系方面。1向量空间模型的文本分类1.1向量空间模型的描述向量空间模型是数据挖掘中统计方法常用的一种技术。传统的向量空间模型本质上是用词频的数值信息表示文档。其中重要的几个概念:(1)特征项t:构成文档的基本的语言单位被统称为文本的项。那么一个文本就可以表示成为D(t1,t2,…,tn)。扩展一下一个文本集就可以表示成为。(2)特征项权重W:对于一个文本D(t1,t2,…,tn),项tk被赋予一定的权重wk,表示它在文本中的重要程度,那么这个文本就可以表示成为D(w1,w2,…,wn),其中1kn。在权重方面使用的计算方法是TF-IDF方法,通过统计特征...  (本文共3页) 阅读全文>>

《医疗卫生装备》2002年05期
医疗卫生装备

向量空间模型法用于网上卫生装备信息资源自动搜集技术研究

1引言Internet蕴涵着大量时效性很强、不断更新的卫生装备信息。及时跟踪网上卫生装备信息是卫生装备情报研究的重要方面。为克服网上信息的不确定性,各种与卫生装备相关的信息最终被规范化成数据库,以结构化的形式、稳定的内容提供服务。同时为确保数据库得到及时更新,保持与Internet信息的同步,还需要网上信息自动搜集模块作为数据库与Internet的接口。网上卫生装备信息自动搜集可采用卫生装备信息索引数据库和卫生装备指引库两种技术途径实现。前者采用网络机器人自动搜索Internet,搜集与卫生装备相关网页存入索引数据库,以卫生装备专业搜索引擎的方式提供服务;后者首先建立不断扩充的卫生装备关键词数据库,利用搜索引擎对全部关键词逐一进行检索,并对检索结果进行信息相关度判断,将与卫生装备相关的网址存入指引库,通过主题树检索方式为用户提供查询服务。上述两种实现方式的关键都在于如何在大量纷繁复杂的网页中识别出与卫生装备相关的网页。本文采用向...  (本文共3页) 阅读全文>>

《情报理论与实践》1989年03期
情报理论与实践

情报检索的向量空间模型

向量空间模型是情报检索问题的一种数学描述。它使得借报检索理论通过吸取已成熟的数学知识而更趋于完善。这种模型的优点是可以排序和控制输出量的大小。现阶段人们对向量空间模型的研究是在较强的假设下进行的,即假设了词向量之间是相互正交的。这种假设增加了这种理论的可行性,从而使其在实验系统中得到了应用。本文将通过对现有理论的分析和讨论,指出其中存在的问题。并根据向量空间中正交基的基本原理提出一种改进的措施,即在标引词向量生成的向量空间中找出一组正交基,将实际的检索问题转化为符合独立性假设而事实上又没有作出假设的检索问题。 一、向量方法的基本思想 设D是一个包括m篇文献的文献集合: D= (d, dz,……dind为D的元素。假设文献集合D共有几个不同的标引词ti,雹2,…,tZ,即D中的每篇文献都可以用这几个标引词中的若干个子以表示。把每个标引词看作是一个向量,则由几个标引词所对应的向量可以生成一个几维欧氏空间,我们把它称为标引词空间。 文...  (本文共3页) 阅读全文>>

东北大学
东北大学

基于DNN及向量空间模型的中文微博情感分析

随着互联网的飞速发展,新兴的社交网络平台微博逐渐渗透到人们社会生活的方方面面。微博文本信息通常包含发布人强烈的主观态度和个人情感倾向,且在短时间内可以汇聚大量的微博文本信息,有效的中文微博情感分析具有巨大的商业价值和社会价值。本文将在深度剖析中文微博语言风格的基础上,对基于DNN及向量空间模型的中文微博情感分析作深入研究。主要的研究内容如下:对微博抽象情感特征自动抽取技术进行了深入研究。本文在传统的文本表示模型基础上,采用DNN算法对抽象情感特征进行自动抽取。结合微博文本短小精简的特点,本文采用SAE对DNN进行构造。在向量空间的构建过程中,为了更加充分有效的表示微博文本的情感信息,本文引入情感因子和结构因子对信息增益特征选择方法进行改进,且引入特征词的位置信息对TF-IDF权重计算方法进行改进。对微博情感分类进行了深入研究。在中文微博情感分类的过程中,微博文本与具体情感类别之间的关系可以有效的提升文本所属情感类别的预估。本文采...  (本文共79页) 本文目录 | 阅读全文>>