分享到:

垃圾邮件的过滤技术研究

简单阐述了垃圾邮件的定义、现状和危害,对目前垃圾邮  (本文共3页) 阅读全文>>

内蒙古大学
内蒙古大学

中文垃圾邮件过滤技术的研究与应用

随着Internet应用在全球的快速普及,电子邮件以其成本低廉、传播迅速的特点,已经成为人们日常生活中通信、交流的重要手段之一。然而,一些人出于个人目的,利用Internet滥发垃圾邮件,不仅浪费了大量的网络资源,而且给整个社会带来很大危害。其中中文垃圾邮件也占很大的比重。目前,随着垃圾邮件过滤技术的不断发展,已经有一些垃圾邮件过滤系统在英文环境中取得了较好的过滤效果,但在中文环境中,这些过滤系统的过滤效果均不够理想,不能满足用户的要求。针对中文垃圾邮件,本文在对电子邮件系统工作原理进行分析的基础上,对文本分类、邮件编解码、中文分词以及特征选取等做了详细分析,并将DFR方法应用于特征选取过程,取得较好的实验效果。本文对几种常用的过滤算法进行了研究,分析了它们在中文环境中存在的问题,根据各算法的优缺点,提出了一种中文环境中的垃圾邮件综合过滤方法,首先通过白名单过滤,将在白名单中的正常邮件直接接收,然后通过第二层基于规则的过滤方法,...  (本文共78页) 本文目录 | 阅读全文>>

上海交通大学
上海交通大学

三维复合型垃圾邮件过滤技术的研究与实现

在垃圾邮件与反垃圾邮件的斗争中,邮件过滤技术是主要手段。当前的邮件过滤技术基本上是基于邮件内容的机器学习,包括支持向量机、K-NN、Boosting、Winnow、贝叶斯过滤等。这些技术存在的问题是:要么召回率等指标不能令人满意,要么训练时间长、误报率高。本文提出并实现了一种三维复合型垃圾邮件过滤系统。该系统采用基于下列三种过滤技术的复合过滤模型:基于用户反馈的协同过滤技术、基于个人邮件网络的白名单过滤技术和自适应贝叶斯过滤技术。协同过滤技术用来过滤群发垃圾邮件,其中使用了改进的Nilsimsa摘要算法判断相似邮件,并采用了显式和隐式反馈收集技术。白名单过滤技术用来过滤群发合法邮件,依据所构建的个人邮件网络的群体相关性进行判断。贝叶斯过滤技术充分使用了前两种过滤的输出结果进行训练,通过特征提取方法、多次迭代训练方法等进行自适应过滤。实验结果分析表明,与当前最普遍使用的简单贝叶斯过滤结果相比,复合过滤系统的召回率提高了4.26个百...  (本文共75页) 本文目录 | 阅读全文>>

四川大学
四川大学

基于多规则的垃圾邮件过滤技术的研究与实现

随着互联网的越来越普及,电子邮件正成为一种最快捷、最经济的通信手段。但是,在用户接收到有用的邮件的同时,各种各样的广告邮件、邮件炸弹以及邮件病毒等都不请自来的充斥着用户的邮箱,使得用户不得不花费大量的时间和精力来处理这些垃圾邮件。此外,这些垃圾邮件在互联网上不分昼夜的大量传输造成了邮件服务器拥塞,降低了整个网络的运行效率,给邮件服务提供商们带来了很大的损失。所以,如何准确的从大量邮件中寻找到所需要的有用邮件,减少垃圾邮件的干扰,已经成为无论是电子邮件提供商还是普通用户都很关心的焦点问题。因此研究开发垃圾邮件过滤系统变的极为迫切。文章在对电子邮件协议进行深入剖析的基础上,首先讨论了主要的垃圾邮件过滤技术,包括:内容过滤技术、黑/白名单技术和SMTP认证技术。文章对各种技术的优缺点进行了阐述,并对垃圾邮件的过滤技术进行了小结。接着探讨了垃圾邮件的数学描述,这是本文的重点部分。首先讨论了数学描述的基础,包括:垃圾邮件的发送机制、垃圾邮...  (本文共68页) 本文目录 | 阅读全文>>

大连海事大学
大连海事大学

垃圾邮件过滤技术的研究

电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件的泛滥已带来严重后果,有效地区分合法邮件和垃圾邮件成为一项紧迫的任务。近年来,有关垃圾邮件过滤技术的研究逐渐兴起,常见的过滤方法有黑/白名单技术、规则过滤等,但这些方法都具有一定的局限性。目前,把垃圾邮件过滤与机器学习、文本分类和信息过滤技术结合起来,对邮件正文内容进行分析,成为研究的热点。本文深入研究了大量近期垃圾邮件样本,归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量反垃圾邮件文献和数据,对已有的反垃圾邮件技术作出分析和总结,尤其是对基于内容的垃圾邮件过滤方法进行了研究。文章重点分析了当前使用最广泛的Na(?)ve Bayes算法,指出其在实际应用中的不足,并采用N-gram理论对该算法进行了改进。同时,针对Na(?)ve Bayes算法性能受邮件特征影响这一特点,本文提出了一个基于结构特征的双层过滤模型。实验证明,改进后的Na(?)v...  (本文共76页) 本文目录 | 阅读全文>>

北京邮电大学
北京邮电大学

针对中文的图像型垃圾邮件过滤技术

随着传统文本型垃圾邮件过滤技术的成熟,垃圾邮件制造者开始使用图像作为载体传播垃圾邮件信息。这种方式的垃圾邮件更加难以检测、消耗的网络带宽和存储也更大,因此带来的危害也更加严重,在中文图像型垃圾邮件过滤中也难度更大。通过对传统图像型垃圾邮件方法的研究,同时考虑更多的对垃圾邮件图像语义信息的需求,本文针对中文图像型垃圾邮件,提出了基于传统OCR技术进行改进的伪OCR过滤技术。综合考虑对图像语义信息的抽取和整体的过滤性能,伪OCR过滤技术认为传统OCR技术中大部分的识别都是冗余的,是不必要的。因此在具体的实现中,我们放宽了对汉字的具体识别需求,优化了预处理技术以适应垃圾邮件图像的特点,同时以真实的垃圾邮件图像生成匹配样本库。实验结果表明,同基于传统OCR过滤技术相比,伪OCR在过滤中文垃圾邮件图像时具有更好的效果,尤其在要求误识别率比较低的情况下,而且通过调节具体的参数还可以在一定程度上控制伪OCR技术的系统性能以满足不同的应用需求。...  (本文共52页) 本文目录 | 阅读全文>>