分享到:

基于向量空间的信息过滤关键技术研究

随着全球计算机与通讯技术的飞速发展、互联网的普及与应用,越来越多的商务、日常活动通过Internet进行,网络跟人们的生活越来越紧密。因特网上的信息呈指数级增长,信息增长带来了双面的效果。一方面,可以从因特网上获取丰富的、最新的信息。另一方面,网络上信息浩繁,内容庞杂,面对信息的汪洋大海,人们往往感到束手无策,无所适从,更由于网络信息的自由性,使得提供有用信息的同时也为形形色色的不良信息提供了藏污纳垢的便捷场所,人们在上网的过程中不可避免地接触到大量的不良信息。因而如何帮助人们有效地选择和利用所感兴趣的信息,尽量剔除不相关和不良的信息,如何管理网络用户尤其是青少年学生对Internet的访问,而又不影响用户对网络的正常访问,越来越引起人们的关注。本选题涵盖了信息过滤的各个处理阶段,围绕信息过滤模型的过滤精度和过滤速度两个主要指标,在如下几个方面进行研究和探讨:1.对现有的信息过滤模型进行了分析,并对基于向量空间的信息过滤进行了深  (本文共50页) 本文目录 | 阅读全文>>

东北师范大学
东北师范大学

基于内容的中文文本过滤关键技术研究

随着网络技术的迅猛发展,信息处理成为了人们获取有用信息不可缺少的工具,其中,信息过滤是中文信息处理的一个重要的研究领域。信息过滤,就是根据用户的信息需求,利用一定的工具从大规模的动态信息流中自动筛选出满足用户需求的信息,同时屏蔽掉无用信息和非法信息的过程。广义的信息过滤包括对文本、音频、图像、视频等多种信息存在形式的过滤处理,狭义的信息过滤是特指对文本信息的过滤处理。由于目前网络上的主要信息载体为文本形式,文本信息过滤技术首先成为研究的焦点。此外,信息过滤的研究方法主要分为基于内容的过滤和社会过滤两种,本文主要对基于内容的文本信息过滤进行研究。利用向量空间模型表示的基于关键字的过滤系统简单、易于实现,但它不能解决语义方面的问题,影响过滤结果,针对该问题,本文在过滤系统中引入概念因素,利用同义词词典对用户模板进行概念扩充,以解决同义词问题,提高系统查全率。另外,随着文本过滤的进行,用户的需求可能会不断变化。构造一个好的过滤模板虽然...  (本文共45页) 本文目录 | 阅读全文>>

山东师范大学
山东师范大学

基于微粒群和遗传优化的文本过滤关键技术研究

计算机技术的发展使得网络上的各种信息急剧增长,随之而来的还有大量的冗余信息和垃圾信息。这些信息不但影响Internet的使用效率和质量,而且影响网络的健康发展。在这种情况下,网络信息过滤技术应运而生,而通常所说信息过滤一般指对文本信息的过滤处理,本文相关研究就是针对文本信息过滤特别是中文文本信息过滤中存在的问题而提出的。国内外很多研究机构和个人针对信息过滤技术,特别是面向中文的信息过滤技术进行了大量的研究工作,也取得了很多成绩。但是,由于文本信息特别是中文信息特有的复杂性、多义性,导致文本信息过滤研究中仍然存在以下问题有待解决:(1)基于内容的文本信息过滤在分词后通常产生大量的候选特征项,如果把所有的候选特征项都用来进行文本表示会增加训练的时间和空间复杂度,并且影响过滤效果。因此,寻找适用于文本信息过滤的权重计算方法是一个需要解决的问题。(2)在抽取特征项集合基础上需要选择适当的优化算法生成类别过滤模板,目前建立过滤模板的方法都...  (本文共97页) 本文目录 | 阅读全文>>

山东师范大学
山东师范大学

基于进化模型的网络信息过滤关键技术研究

随着信息技术的发展和因特网的日益普及,网络上的信息量急速倍增,广大计算机用户深受信息过载和信息污染的严重困扰。网络信息过滤的出现与发展为人们快速、准确、全面地获取信息指明了方向。网络信息过滤技术是以一种系统化的方法,将用户需求与动态信息流进行匹配计算,从信息流中抽取出符合用户需求的信息并传送给用户。本文从过滤系统涉及的关键技术入手,所做的主要工作如下:1.对当前主要的汉语分词方法进行分析和研究,设计了一种简单高效的分词方法。考虑到中文自动分词是信息过滤的基础,分词质量的好坏直接影响过滤结果的优劣。我们针对语言丰富,新词量大且对速度有很高要求的网络环境的实际需求,对当前主要的汉语分词方法进行分析和研究,设计了一种简单高效分词方法。本方法最大特点是实现简单,分词速度快,且对新词识别能力强。对研究和开发具有一定的实用价值的中文自动分词系统具有一定的借鉴意义。2.提出了一种用于大规模语料的类别权重计算方法和一种单Web文本权重计算方法。...  (本文共53页) 本文目录 | 阅读全文>>

吉林大学
吉林大学

数字图书馆个性化信息服务关键技术研究

随着信息技术的日臻成熟,信息资源正以指数级的速度增长,用户被信息的汪洋大海所包围,经常出现“信息迷航”和“信息过载”等现象。在浩如烟海的信息世界中,人们寻找有用信息存在着很大的困难,为了更好地满足用户的需要,个性化信息服务便产生了。本文围绕数字图书馆的个性化信息服务,针对其相关的关键技术展开研究。完成以下工作: 1 分析比较各种个性化信息推荐系统,尝试的构建一个性化信息推荐系统。2 针对用户感兴趣问题,通过建立个人数字图书馆更加准确的获取用户的需求信息。3 在内容过滤中,提出一个改进的概率模型算法来实现基于内容过滤。4 在协同过滤中,提出基于分类的协同过滤算法。5 在聚类分析中,引入知识学习的循序性,提出一个基于时间性的聚类分析算法。  (本文共90页) 本文目录 | 阅读全文>>

山东大学
山东大学

网页内容过滤的关键技术研究及实现

互联网给我们带来信息爆炸、快速经济的同时,也带来了很多不利于经济发展和人民生活的不良信息,对WEB信息的过滤成为一个热门的研究课题。当前的网页过滤系统主要采用URL过滤和关键字过滤的技术,而这些技术在网页过滤的准确性和速度方面都存在不足。要提高网页过滤的准确性和速度,必须对网页内容进行智能分析。本文在对当前网页过滤技术进行综述的基础上,提出了一种对基于人工神经网络的智能分析网页内容和高效过滤网页的技术,并用软件实现了对色情网页的过滤。网页是一种结构化的文档,DOM是一个针对HTML和XML文档进行灵活操作的编程接口。在对网页结构进行详细分析后,本文提出了按照结构对网页进行解析,利用DOM技术提取网页文档的不同元素中的文本内容的方法。把文档以向量的形式定义到实数域中,能够使用模式识别和其它领域中各种成熟的计算方法,极大地提高自然语言文档的可计算性和可操作性。本文论述了几种经典的信息过滤模型,并对其优缺点进行了剖析,根据系统的特点选...  (本文共61页) 本文目录 | 阅读全文>>