分享到:

文本内容的信息过滤技术研究

随着互连网络的迅速发展,人们获得越来越多的网络信息,但同时也存在着很大的负面性,如各种迷信、色情、暴力、反动和其他非法信息的传播,内部网中机密信息的泄漏等,都已成为人们日益关注的焦点问题。传统的过滤技术,如基于关键字或基于IP地址的过滤等,不能有效的解决这些问题。本文对文本分类和信息过滤技术进行了研究,提出了一种多特征选择方法。将机器学习和信息过滤技术相结合,设计出了自适应信息过滤系统。本文主要工作如下。(1)概述了信息过滤的发展历史、研究现状和实际意义,以及数据挖掘、文本分类等相关知识。(2)分析了信息过滤的相关理论。文本分类是信息过滤的基础,文章详细介绍了文本分类过程,文本预处理、特征选择、文本表示模型和分类算法等关键技术。对信息过滤的主要方法、信息过滤系统构成和模型也作了重点介绍。(3)详细讨论了几种常见的特征选择方法。通过实验,对各种特征选择方法的效果进行比较,分析了影响文本分类器性能的几种因素。在此基础上,我们提出一种  (本文共61页) 本文目录 | 阅读全文>>

西南石油大学
西南石油大学

基于内容的网页文本信息过滤技术研究

伴随网络的开放性和规模越来越大,它方便人们自由交流信息的同时,也存在许多负面影响,如各种迷信、色情、暴力、反动等非法信息传播或内部机密信息泄漏,已经成为人们日益关注的焦点问题。为了屏蔽这些不良信息,人们提出了各种自动抽取和过滤技术,如IP地址过滤器、关键字过滤技术、智能内容理解过滤等技术,并在实际应用中取得了良好效果。本文主要在研究基于内容的网页文本信息过滤技术的基础上,期望能使用一种新的编辑距离算法对网页文本进行分析、挖掘,以达到更快、更准确地过滤不良信息的目的。统计分析和知识挖掘是目前常用到的文本内容分析、挖掘方法。在初步研究这些方法的基础上,从文本语句的结构分析入手,提出了对网页文本内容进行模板匹配找出符合某种模式的内容,进而对其进行分析挖掘找出所需信息的方法。根据用户的过滤需求,从用户预先收集的实验样本中提取句子模型,并转化为匹配模板,建立中文模板库。再根据待测文本与中文模板的匹配情况,以及匹配关键词的权值来判定待测文本...  (本文共55页) 本文目录 | 阅读全文>>

辽宁科技大学
辽宁科技大学

中文信息过滤技术的研究与应用

Internet的迅速发展在给人们的生活带来极大方便的同时,也带来了诸如“信息过载”“信息迷向”等问题,信息过滤技术应运而生。信息过滤就是根据用户的信息需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用和不良的信息。本文首先介绍了信息过滤技术的提出背景、发展历史、研究现状和应用价值,随后综述了信息过滤的特点、模型,信息过滤系统的体系结构、分类、实现技术和评估方法。文本是当前Internet上信息最主要的表现形式,中文文本过滤的相关技术是本文的研究重点。本文在对信息过滤系统的体系结构和文本过滤的原型研究的基础上,给出了一个基于向量空间模型的中文文本过滤的逻辑模型。中文文本的特征项抽取和表示是中文文本过滤基础。获取中文文本的表示需要经过分词、停用词处理、特征项抽取和特征项权重计算等过程,本文对这几个过程进行了详细的研究并提出了一种基于位置加权的特征项权重计算方法。用户信息需求是文本过滤的依据,本文探讨了获取用户信息需求的方式和...  (本文共77页) 本文目录 | 阅读全文>>

华东理工大学
华东理工大学

基于移动网络信息安全的内容过滤技术的研究

随着经济的发展,我们逐渐步入了信息时代。可以说信息无时无刻不在影响着我们的生活,互联网更是我们生活各个方面都需要的工具。然而它们在给我们的生活注入新鲜和活力的同时,也带来了许多负面的东西。这就要求相关部门做好信息监测工作,对网络信息进行严格筛选,这样一来,既保护了互联网群众的隐私,又净化了网络环境,让人们能做到开心上网。但如何才能做到这点呢?本文根据网络监测方法的原理,然后通过分析非法网络信息的特征,结合移动网络中增量式信息的分类和统计方法,提出一种基于文本内容的混合过滤模型和算法。同时,把信息过滤系统和信息推送技术联合起来,进而提高信息过滤的效果以及相应的价值。本文的主要技术路线是依据对移动网络中信息安全的分类分析,结合对基于网络信息文本内容分析的混合过滤模型的研究,提出相应的解决算法,从而实现预先设定的研究目的。对传统的过滤模型布尔模型、概率推理模型和向量空间模型以及信息过滤方法做了分类比较。在此基础上开发出一个以向量空间模...  (本文共59页) 本文目录 | 阅读全文>>

哈尔滨理工大学
哈尔滨理工大学

基于文本分类技术的信息过滤方法的研究

Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷失、色情和暴力充斥网上等很多问题,为解决这些问题,信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支,它是根据用户的需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用的信息。但传统的基于关键字或基于IP地址的过滤等过滤技术已不能很有效的解决这些问题,由此该课题对基于文本分类技术的过滤方法进行深入研究,希望能对网络信息内容进行分析,达到对网络信息的安全过滤。本课题将文本分类技术应用到中文信息过滤领域,提出了一种基于文本分类技术的信息过滤算法。首先对网络中收集的文本进行预处理工作,改进的预处理方法使两个字以上的纯中文词成为代表文本信息的特征项。其次,该文借助向量空间模型的思想,将文本表示为向量空间的形式,并在此基础上结合词的属性特征来分析文本的整体特征。该系统还根据用户的过滤需求,从用户预先收集的训练样本中提取出信息特征过滤模型作为匹配模板...  (本文共67页) 本文目录 | 阅读全文>>

《计算机应用研究》2009年02期
计算机应用研究

基于内容理解的不良信息过滤技术研究

针对当前基于内容理解的网络不良信息过滤国内外研究现状,简要介绍了基于内容理解的不良信息过滤技术的相关概念和特...  (本文共7页) 阅读全文>>