分享到:

网页中的文本自动输出

在网页中经常有人使用Swish来做文本输出的打字效果,其实JavaScript也能做出那样的效果,按如下方法在HTML文件中加入JavaScript代码便可。$$  第一步:把如下代码加入〈head〉区域中$$  〈SCRIPT LANGUAGE="JavaScript"〉$$  〈!-- Original: Tarjei Davidsen (the@rescueteam.com) --〉$$  〈!-- This script and many more are available free online at --〉$$  〈!-- The JavaScript Source!! http://javascript.internet.com --〉$$  〈!-- Begin$$  var max=0;$$  function textlist() {$$  max=textlist.arguments.leng...  (本文共1页) 阅读全文>>

北京邮电大学
北京邮电大学

海量文本信息的Web采集与自动分类研究

随着近年来科学技术日新月异般高速发展,互联网中各种信息呈现井喷之势令人应接不暇。如何更好的发现、获取并使用网络文本信息也就成了一个越来越值得关注的问题。海量文本信息的采集与自动分类,是获取、组织和处理大量信息数据的关键核心技术。优秀的采集与分类系统能够快速高效地根据需求从网络中获取相关网页,分析提取网页信息,继而将得到的文本内容按照一定方法进行自动分类处理,以待更好的为人所用,这些无疑对快速发现、研究和解决问题有很大的帮助。因此本文结合网络采集、信息处理和文本自动分类技术,同时引入词池演化特征词的方法对海量文本信息的采集与自动分类问题进行了深入的研究,解决了海量网络信息时代文本数据的有效采集与自动分类问题。基于上述分析,本文主要完成了以下工作:第一,本文分析了信息采集领域与文本自动分类领域常见的关键技术和相关算法。着重阐述了信息采集过程中的源码获取、链接分析匹配和网页信息处理等技术,以及文本分类领域的文本表示、特征选择和常用的分...  (本文共71页) 本文目录 | 阅读全文>>

北京语言大学
北京语言大学

基于关键短语的文本内容标引研究

爆炸式增长的信息资源缺乏内容的结构化,大大降低了人们的检索效率。因此,如何将庞杂无序的资源组织起来,提高人们利用信息的效率,成为信息科学当前的一个重要课题。良好的信息组织和资源表示是高质量信息检索的基石,文本内容标引,特别是其内部特征如类目和主题词的标引,是信息组织和资源表示的核心。本文利用特征提取方法,在大规模分类语料库中将具有较强特征表示功能的关键短语(Key Phrase)提取出来,并按主题聚类。在此基础上,完成了一个知识与统计相结合的文本分类和主题词标引系统,从而将文本内容以精练准确的形式标引出来,方便用户只须查看容量少信息量大的类目和主题词,即可快速把握文本内容,围绕分类主题一体化,本文主要取得了以下研究成果:1、提出并证明了关键短语比词更适合作为文本表示特征的观点。关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的內容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来。关键短语具有结构稳定、语义完...  (本文共106页) 本文目录 | 阅读全文>>

燕山大学
燕山大学

网页分类及存储查询系统的设计及实现

随着信息技术的高速发展,Internet上的Web页面数量呈指数增长。有效地组织和处理这些海量信息,为人们创建一个绿色的网络交流环境已经成为网络信息服务需解决的关键问题之一。网页自动分类是处理海量网页的有效手段,它能提供网页集的良好组织结构,简化网页的存取和操作,提高网页处理效率。因此,研究如何对网页进行高效准确的分类,并将网页分类结果进行永久保存将有着重要的意义。首先,本文对系统进行了需求分析,对网页分类和存储查询两个模块,分别从原理和过程出发进行了系统的总体分析。详细研究了文本自动分类技术和网页分类的一般过程,并对网页分类评价体系进行了描述。其次,本文详细分析了系统各模块所需的技术和方法,主要包括文本表示模型、网页信息提取和分词算法等,分析比较了几种特征提取算法并提出了特征权重算法的改进策略。针对网页分类结果的存储查询需求,提出了增量存储和反馈查询的策略,有效地节省了存储空间,便于用户查询,同时弥补了网页收集范围的局限性。鉴...  (本文共72页) 本文目录 | 阅读全文>>

内蒙古大学
内蒙古大学

HTML文本自动分类技术的研究与工具的实现

随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,我们需要对网络中繁杂的信息进行合理的组织与分类。本文的目标就是以HTML文本信息处理为背景,从理论及应用两个层次对文本信息的分类方法进行了较为深入的研究。本文主要研究内容包括:1.构建了一个实验用语料库。2.研究了HTML标记对网页内容的修饰作用,以前人理论为基础设计和实现了基于HTML标记的网页分析和加权策略与算法。3.分析了HTML文本自动分类的重要技术:文本预处理;特征赋权;特征提取和特征选择的六种评估函数:信息增益,互信息,期望交叉熵,X~2统计,文本证据权,右半信息增益。对用Webdup抓取得的HTML文本集进行了系统测试,分析了各种评估函数对不同分类器的优劣。4.研究了HTML文本分类算法:朴素贝叶斯、K近邻、支持向量机等几种分类算法,将k近邻方法和支持向量机相结合形成KNN-SVM分类器,更加适用于网页文本自动分类的需要。并对KNN和K...  (本文共64页) 本文目录 | 阅读全文>>

东北大学
东北大学

信息抽取算法研究及其在科研服务系统中的应用

随着Internet的迅猛发展,万维网已经成为全球最大的信息源和知识库,如何从中抽取出有用的信息,已成为研究学者关注的热点。科研服务系统是为高校的教师提供一个便捷的从事教学、科研、管理各项成果,以及与外界交流的服务网站。该系统的核心部分是文献管理与教学信息管理,主要技术是针对电子期刊数据库网站中文献信息和教务处网站中课表信息进行抽取。本文分别对两种网页的结构进行了深入研究,并在研究国内外信息抽取方法的基础上,提出了各自的抽取方法。针对文献信息抽取问题,鉴于电子期刊数据库网站中网页大多由相同模板生成,本文充分利用该类网页的特征,采用基于模板的文献信息抽取方法。首先,对信息提取的整体结构进行了设计,其次,对主题信息模板生成方法以及主题信息抽取方法进行了研究和设计。在主题信息抽取模板生成方法中,针对文献网页的特点,提出一种启发式规则,并结合DSE算法,生成精确模板生成算法,用于获取主题信息抽取路径。仿真结果表明本文所设计的方法是可行的...  (本文共90页) 本文目录 | 阅读全文>>