分享到:

基于向量空间模型文本过滤算法

文本过滤是指从大量的文本中寻找满足用户需求的文本的过程。本文详细地论述了基于向量空间模型的文本过滤算法,该算法由训  (本文共4页) 阅读全文>>

上海交通大学
上海交通大学

物理隔离网闸的过滤技术研究和实现

随着互联网的普及和电子政务在日常工作、学习和生活的普遍使用,网络信息安全的重要性愈发引人关注,保证网络信息的安全已成为推进社会网络化的一个关注点。基于隔离技术的隔离网闸的发明和使用正是符合了网络信息安全的要求。目前隔离网闸使用的文本内容过滤大多基于关键字过滤和URL过滤,在使用性能上不但过滤效果欠佳且效率差,已不能满足日益增长的网络信息的安全要求。而随着文本过滤技术的研究和发展,特别是在文本的向量空间表示和基于向量空间的过滤算法的技术都较为成熟,有助于我们选择合理的文本智能过滤技术来取代在隔离网闸中使用的传统关键字和URL过滤技术以提高隔离网闸中内容安全过滤的性能,以达到和满足网络信息安全的要求。本论文的课题就是对适合于隔离网闸的过滤技术的研究。作者在综合运用中文信息处理、粗糙集理论、隔离技术理论等学科的相关知识,深入研究了文本信息过滤的模型、文本预处理技术、文本特征选择技术、过滤算法以及相关应用等,提出了基于统计的适合于隔离网...  (本文共83页) 本文目录 | 阅读全文>>

华中师范大学
华中师范大学

网络文本信息过滤模型及优化策略研究

网络文本信息过滤属于信息过滤的一个分支,它主要根据因特网上信息的表现形式大多为文本的方式,将信息过滤技术应用于其上,依据用户的信息需求模型,在动态的文本信息流中,搜索用户感兴趣的文本。网络文本信息过滤涉及的知识范围非常广泛,它综合了知识论、人工智能、自然语言理解等领域的原理与技术。作为一个崭新的研究领域,网络文本信息过滤研究一直在逐渐深入,技术难度也在越来越大,其发展也在越来越模拟现实环境需求。随着计算机应用的发展,从设想变为现实,并在因特网日益普及的今天有效解决了网络信息迷航的问题,在信息服务与管理方面发挥着越来越大的作用。本文主要对网络文本信息过滤模型进行重点研究,主要就网络文本过滤模型涉及的用户建模和用户匹配两大技术进行了初步探讨,并在阐述信息过滤一般应用模型的基础上提出网络文本信息过滤模型,分析网络文本信息过滤模型的应用特征及其重要组件比如用户模板、文档模型、用户反馈等,并着重讨论了常用的三大匹配模型技术即布尔逻辑模型、...  (本文共59页) 本文目录 | 阅读全文>>

山西大学
山西大学

基于内容和协作的科技文献过滤方法研究

面对因特网上日益增多的在线可读文本,文本过滤旨在帮助用户获取自己感兴趣的文本,实现信息服务的个性化,因此它具有广泛的应用背景和较高的实用价值。文本过滤的形式可大致分为两种:内容过滤和协作过滤。内容过滤主要采用自然语言处理、人工智能、概率统计等技术对文本进行内容分析,然后与用户模型进行相似度计算,主动将相似度高的文本发送给该用户模型的注册用户。协作过滤主要利用兴趣相似用户的评价进行预测和推荐。目前它已被成功地应用于个性化推荐系统中。但随着系统规模的扩大,它的效能会逐渐降低,暴露出矩阵稀疏性、扩展性和早期级别等问题。本文首先对文本过滤的两种形式进行了描述,然后对协作过滤技术进行了较深入的探讨。针对协作过滤方法的某些缺点,提出了一种改进的过滤算法-基于信息项的协作过滤算法。该算法有效地解决了稀疏性和扩展性等问题。本文还提出了一种结合内容过滤和协作过滤的文本过滤方法,该方法充分利用两种过滤技术的优点,有效地解决了早期级别等问题,使过滤系...  (本文共53页) 本文目录 | 阅读全文>>

四川大学
四川大学

基于内容分析的信息安全过滤技术研究

网络的开放性和日益增长的规模,使其成为人们自由交流信息的便捷手段。但同时这种开放性也使网络中存在着很大的负面效应,如各种迷信、色情、暴力、反动和其他非法信息的传播,或者内部网中机密信息的泄漏等,都已成为了人们日益关注的焦点问题。而传统的过滤技术,如基于关键字,或基于IP地址的过滤等,现已不能很有效的解决这些问题。在这种需求下,本文针对文本内容的分析过滤技术进行了研究,希望能对网络信息内容进行分析,达到对网络信息的安全过滤。目前基于内容的分析方法常用的是基于统计和知识或两者相结合的方法。本文对这些方法做了初步的研究后,提出了一种基于文本内容的过滤算法。首先根据用户的过滤需求,从用户预先收集的训练样本中提取出信息特征过滤模型作为匹配模板,再根据待测文本与信息特征过滤模型的匹配情况来判定待测文本是否满足用户过滤需求。在该算法中我们综合考虑了文本的统计特性和知识特性两方面因素,借助向量空间模型的思想,将文本表示为向量空间的形式,并在此基...  (本文共58页) 本文目录 | 阅读全文>>

北京化工大学
北京化工大学

基于向量空间模型的网页过滤研究

随着网络信息技术的飞速发展,用户可以通过网络方便快捷地利用海量的共享信息,同时“信息爆炸”、“信息过载”、“信息垃圾”等很多问题日趋严重。而且那些无用或者有害信息的信息量远远超过了我们所需要的信息量,这给人们带来了很多不便。如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信息并过滤掉无用信息和不良信息,使人们更有效地利用信息资源,已经使我们亟待解决的问题。基于以上存在的问题,本文提出了一个基于局域网中的信息过滤研究的课题。它不仅可以实现不良网页的过滤,也可以实现基于兴趣主题的网页过滤。本文介绍了网页文本过滤的发展现状、信息过滤的方法,并详细讨论了在网页文本过滤中所用到的关键技术及其实现的过程。基于网页的过滤研究,本文是采用了分级过滤的策略,首先是对流经网关的数据包实行基于IP和关键字的过滤技术,然后重点论述了基于DOM树的网页正文抽取的实现过程和基于内容的过滤技术。对于网页正文的提取部分本文实现了基于DO...  (本文共75页) 本文目录 | 阅读全文>>