分享到:

基于内容挖掘的垃圾邮件过滤技术

随着Internet的迅速普及,电子邮件以其快速、便捷的优势成为了现代通信的主要手段。但人们也惊异的发现,他们的收件箱中有为数不少的垃圾邮件。本课题的研究内容是基于内容挖掘的邮件分类与过滤,它不仅可以解决垃圾邮件的过滤问题,而且可以广泛地应用于电子政务和电子商务。在电子政务和电子商务的平台上,邮件是使用十分广泛的交互手段。采用基于内容挖掘的邮件分类可以实现对每天收到的大量邮件进行自动分类和转发,有效地减少系统分发邮件的工作量。本课题主要包括邮件采集与预处理、文本分词、特征选取、邮件分类器和过滤器等功能模块,并且分析了各模块的核心技术和部分Java实现。论文的结构如下:第1章:对目前的邮件分类技术进行了分析,提出了研究的主要内容。第2章:对邮件分类器和过滤器的实现进行了总体设计,制订了它的各个功能模块及每个模块的主要功能。第3章:讲述了邮件采集与预处理的相关内容,主要介绍了JavaMail API,并且分析了对邮件内容进行结构化解  (本文共77页) 本文目录 | 阅读全文>>

东北财经大学
东北财经大学

基于内容挖掘的中文垃圾邮件过滤技术研究

随着计算机网络与通讯技术的迅速发展,电子邮件已经成为了现代通信的重要手段之一。然而,人们在享受到电子邮件便捷服务的同时,也饱尝了垃圾邮件带来的烦恼。垃圾邮件的日益泛滥,不仅浪费网络资源,侵犯用户的个人利益,甚至破坏社会的安全与稳定,因此越来越得到社会大众和研究人员的重视与关注,垃圾邮件过滤技术已经成为当前研究的热点之一。本文首先深入研究了国内外大量反垃圾邮件的文献和数据,系统地分析了垃圾邮件问题的背景和现状;然后,进一步介绍了与电子邮件紧密相关的SMTP协议及电子邮件的工作原理,分析了电子邮件的安全缺陷及垃圾邮件泛滥的原因;最后,在对电子邮件工作原理进行研究的基础上,深入分析了基于内容的垃圾邮件过滤技术,包括邮件正文提取、中文分词处理、特征值选取、文本的表示方法这几个部分。针对垃圾邮件制造者为了逃避过滤而设计的干扰信息,在分词处理之前,进行了提取邮件纯文本的预处理,并提前做好特征词的预降维处理,从而有效地降低了特征词的维度,很大...  (本文共68页) 本文目录 | 阅读全文>>

湖南大学
湖南大学

基于内容挖掘的中文垃圾邮件过滤技术研究与实现

随着因特网的迅猛发展,在线的可用电子信息业迅速增加,电子邮件作为一种最快捷、最经济的通信方式也得到了飞速发展。同时,许多垃圾邮件也在网络中蔓延,占据了邮件服务器中的大量存储空间,用户往往要花费大量的时间去删除这些垃圾邮件。因此,研究邮件的自动过滤具有重要的意义。本文首先深入研究了国内外反垃圾邮件相关文献和数据,对已有的垃圾邮件过滤技术进行了分析和总结。垃圾邮件过滤技术是反垃圾邮件的重要手段,目前主要有基于IP地址的垃圾邮件过滤技术、基于规则的垃圾邮件过滤技术和基于内容的垃圾邮件过滤技术。本文主要研究基于内容挖掘的中文垃圾邮件过滤技术,其中文本挖掘、邮件预处理以及分类是邮件过滤系统的关键技术,在对其基本原理和实现机制进行深入研究的基础上,为减少邮件的误判对用户造成的损害及垃圾邮件漏判造成的影响,本文提出了一个基于文本挖掘的垃圾邮件过滤框架,并针对该框架的各个部分进行了相应的研究和改进。在邮件过滤系统的预处理部分,本文提出了一种支持...  (本文共77页) 本文目录 | 阅读全文>>

中国海洋大学
中国海洋大学

基于文本挖掘的垃圾邮件过滤技术研究

随着Internet的迅速发展,电子邮件的应用变的十分广泛,它给人们的生活带来了极大的方便,然而,作为其发展的副产品——垃圾邮件,却给广大用户、网络管理员和ISP(Internet服务提供者)带来了大量的麻烦。垃圾邮件问题日益严重,受到研究人员的广泛关注。垃圾邮件通常是指未经用户许可,但却被强行塞入用户邮箱的电子邮件。对于采用群发等技术的垃圾邮件,必须借助一定的技术手段进行反垃圾邮件工作。目前,反垃圾邮件技术主要包括:垃圾邮件过滤技术、邮件服务器的安全管理以及对简单邮件通信协议(SMTP)的改进研究等。过滤技术是反垃圾邮件用到的主要技术。本文是基于数据挖掘技术进行的邮件过滤研究,论文根据电子邮件可转化为文本这一特性,通过对邮件过滤技术现状及发展趋势的了解,提出了将文本分类算法运用到垃圾邮件过滤技术之中。本论文的主要内容包括以下几个方面:第一章对垃圾邮件的危害及当前状况以及反垃圾邮件的技术作了简要介绍。第二章给出了利用文本挖掘对邮...  (本文共70页) 本文目录 | 阅读全文>>

西南大学
西南大学

基于粗糙集的垃圾邮件过滤研究

电子邮件是互联网的最重要应用之一。它在给人们日常工作和生活带来很大便利的同时,也带来了一种令人讨厌的副产品——垃圾邮件。随着垃圾邮件越来越泛滥,人们在技术和法律方面都进行了不断的努力,垃圾邮件已经得到了一定的控制。垃圾邮件过滤的主要技术包括白名单与黑名单技术、规则过滤、基于关键词匹配的内容扫描,以及基于内容的文本分类方法等。目前的垃圾邮件过滤系统如贝叶斯过滤系统等,从过滤效果来看,并不是十分理想,存在的主要问题是将非垃圾邮件判定为垃圾邮件的几率较高,使用户宁愿接收到垃圾邮件也不愿意使用邮件过滤系统。基于粗糙集的垃圾邮件过滤是一种基于规则的内容过滤方法,将粗糙集理论用于垃圾邮件过滤是一个新的研究方向,可以降低垃圾邮件错判率。本文的选题正是基于上述背景,本文的工作主要包括以下几个方面:1.给出了垃圾邮件的定义,探讨了垃圾邮件的危害;2.分析并总结了当前主要的垃圾邮件过滤技术,对常用邮件分类方法的基本原理及分类准确率进行了介绍;3.介...  (本文共56页) 本文目录 | 阅读全文>>

南京信息工程大学
南京信息工程大学

基于内容的垃圾邮件过滤研究与实现

随着Internet的迅速普及,电子邮件以其快捷、方便、低成本的特点逐渐成为人们进行信息交流的主要媒介之一,但是随之而来的垃圾邮件也越来越泛滥。垃圾邮件占用了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影响和干扰了用户的正常工作、生活和学习。如何有效地治理垃圾邮件问题是全世界共同面临的一道难题,也是互联网上目前亟待解决的问题。本文首先深入研究了大量近期垃圾邮件样本,归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量反垃圾邮件文献和数据,对已有的反垃圾邮件技术作出分析和总结,尤其是基于内容的垃圾邮件过滤方法进行了研究。并针对在基于内容的垃圾邮件过滤中使用最广的简单Bayes算法进行分析,提出了一种改进算法。该算法能在正确分类邮件的同时,减少合法邮件的误判率,在对垃圾邮件进行分类与过滤时具有较好的性能。本文还研究了基于复制检测技术的垃圾邮件过滤方法,实现了Nilsimsa算法。最后针对一种以HTML形式...  (本文共64页) 本文目录 | 阅读全文>>

《计算机与数字工程》2020年03期
计算机与数字工程

基于改进贝叶斯原理的垃圾邮件过滤算法研究

为了提高垃圾邮件过滤系统的对邮件过滤的准确性和返回率,论文改进了传统的贝叶斯定理。提出一种改进的垃圾邮件过滤方法,该方法使用基于单词提取特征值和使用特征向量来描述频率...  (本文共5页) 阅读全文>>