分享到:

基于向量空间模型的自适应文本过滤系统研究

近年来,随着互联网的不断发展和普及,各种各样的信息以爆炸般的速度产生。信息资源已经成为一种新的财富。但是,信息的日益增多带给人们诸多便利的同时也带来了诸如犯罪、色情、暴力、迷信以及邪教宣传等不良信息泛滥和信息过载等等很多问题。而且那些无用或者有害信息的信息量远远超过了我们所需要的信息量,这给人们带来了很多不便。如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信息并过滤掉无用信息和不良信息,使人们更有效地利用信息资源,已经成为当前互联网研究和发展的一个重要问题。信息过滤便是在这种情况下产生的。信息过滤随着信息检索的发展而长期被人们研究。它是一个寻找符合人们兴趣的信息的处理过程,也就是从大量的动态信息中找出最大程度地满足用户真实需求并且滤除其它无用信息和非法信息的过程。信息过滤根据处理的信息内容可以分为文本信息过滤和非文本信息过滤。文本信息过滤,即文本过滤,就是根据用户的信息查询需求,从动态文本流中检索满足用  (本文共55页) 本文目录 | 阅读全文>>

复旦大学
复旦大学

文本过滤关键技术研究

随着互联网的发展和存贮技术的提高,计算机可读的文本信息也越来越多。而对于特定的用户而言,所需要的信息往往只占其中极小的一部分。大规模的可用网络资源和特定用户对特定的信息的需求使得大规模文本信息处理软件成为信息用户的迫切需求。而要从大规模的网络信息中抽取有用的信息资源,对信息处理的智能性、速度和精度都将提出极为严格的要求。文本过滤所研究的内容就是如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信息,使人们更有效地利用信息资源。论文的工作主要集中在文本过滤尤其是自适应文本过滤中的关键技术上,设计并实现了大规模文本过滤的实验平台,参加了两届国际文本检索会议(TREC10、TREC11)并取得了好成绩。以此为基础,我们实现了多个实用系统,包括中文文本过滤系统、因特网话题信息检索系统等均达到了非常好的效果。在文本表示方面,我们用向量空间模型来表示文本,以词汇、概念、术语等作为向量空间模型的特征项,并根据文本中的统计...  (本文共103页) 本文目录 | 阅读全文>>

长安大学
长安大学

基于朴素贝叶斯算法的不良文本过滤技术研究及应用

随着互联网技术的迅猛发展,网络信息逐渐成为个人及企业的主要信息来源,这些丰富多样的信息资源在给人们带来便利的同时,也充斥着大量不良信息,如反动、色情、毒品、赌博、非法营销的产品广告等,既不利于建设绿色健康的网络环境,也会对获取信息的过程造成障碍。鉴于网络信息中文本信息所占比例较大,对不良文本过滤技术的研究有助于净化整体网络信息,从而快速有效地取得有用文本信息,具有很高的实际应用价值。本文以基于向量空间模型(VSM)的朴素贝叶斯算法为核心,提出了一种面向大量流动网络信息的不良文本过滤技术,并对其中所包含的方法、模型进行研究及改良,最终实现针对指定系统的不良文本过滤。本文主要研究工作和成果如下:(1)使用VSM作为文本表示方法,通过对特征选择方法的改良,确定类中心向量集合。优化朴素贝叶斯算法的方法模型,从而训练得到适用于文本过滤的分类算法,为后续技术的提出奠定基础。(2)提出一种基于朴素贝叶斯算法的不良文本过滤技术,该技术引入假设检...  (本文共73页) 本文目录 | 阅读全文>>

北京邮电大学
北京邮电大学

网络内容安全中不良文本过滤研究

随着互联网的高速发展,信息共享的时效性与传递的即时性也得到了一定的提升,网络上信息的增长达到指数级。网络的发展是把双刃剑,一方面,信息的丰富和多样性使得用户可以更加高效、便捷地获取到所需要的信息;另一方面,一些不法分子利用网络上信息传播的广泛和快速等特点,散布反动、色情等不良内容,对社会的稳定和人民生活带来了不良影响,特别是对青少年的健康成长,有着一定的危害。因此,净化网络环境、对不良文本的过滤,是当前互联网建设中丞待解决的问题。网络中的信息以多种形态存在,其中主要部分是文本格式,因此不良文本的过滤是网络不良内容过滤的重要组成部分。目前,不良文本过滤的主流方法是将网络中的信息分为正常文本和不良文本两类,然后通过一定的方式将不良文本进行过滤,而没有考虑不同种类不良文本间的差异。本文的主要目的是分析不同类别不良文本之间的特点,针对不同类别文本使用不同的过滤方法,提高过滤的准确率、降低过滤的复杂度。本文的主要工作包括:首先回顾和总结了...  (本文共64页) 本文目录 | 阅读全文>>

《大连理工大学学报》2002年02期
大连理工大学学报

基于聚类的文本过滤模型

为了帮助用户在因特网上搜索感兴趣的在线文本 ,提出了基于聚类的文本过滤模型 .其基本思想是 :在预定的层次目录之下 ,根据用户给出的过滤模板进行动态扩...  (本文共4页) 阅读全文>>

《计算机工程与应用》2003年25期
计算机工程与应用

基于概念扩充的文本过滤模型

该文在介绍文本过滤的背景及向量空间模型的同时,提出了基于语义词典对用户模板进行扩充的文本过滤模型,该模型首先对文本进行分析,把文本表示成向量空间中的向量形...  (本文共4页) 阅读全文>>