分享到:

网络信息挖掘技术及其应用研究

随着 Internet的飞速发展 ,网络信息资源急剧增长 ,网络信息过载问题日益突出 ,人们越来越多地关注如何开发和利用这些资源 ,以 Yahoo为代表的网络信息检索系统出现并迅速发展。网络信息检索系统一般由 Robot、索引数据库和查询引擎三部分组成。信息搜集器 Robot对 WWW进行遍历 ,尽可能多地发现新的信息 ;采用全文检索技术对搜集到的信息建立索引 ,并存入索引数据库中 ,能够极大地提高信息检索的速度 ;查询引擎接收并分析用户的查询 ,根据较为简单的匹配策略 (简单布尔模型或模糊布尔模型 )遍历索引数据库 ,最后将结果地址集提交给用户。由于受人工智能研究水平的限制 ,目前 Robot还无法实现信息的准确分类 ,多数搜索站点都是通过人工方式对信息进行二次处理 ,信息整理的速度远远落后于网络信息的增长速度。因此 ,目前的中英文搜索引擎均存在查准率、查全率不高的现象 ,这种现状无法适应用户对高质量的网络信息服务的需求 ;同...  (本文共3页) 阅读全文>>

哈尔滨工程大学
哈尔滨工程大学

面向web的文本地理信息挖掘技术研究

地理信息在民用、商用、国防等方面都有着重要的应用,而地理信息的获取却受到多方面限制。目前,互联网中存在着大量的地理信息,通过网络获取地理信息,突破传统地理信息获取手段的限制,已经成为地理信息获取的一种重要手段。但网络数据海量、数据类型繁杂,导致从网络获取地理信息十分困难。为解决这一问题,本文对地理信息的获取及地理信息的分类展开了研究。本文提出一种结合地理信息本体库的主题网络爬虫算法,通过构建地理信息本体库,对网页内容相关度进行评估;同时结合网页链接过滤、网页链接权威度评估,对网页进行网络地理信息的筛选。实验结果表明,本文提出的算法能够有效地过滤与地理信息不相关网页,并提高了地理信息网页获取的准确度。本文针对地理信息分类提出了一种融合距离阈值的最近邻分类算法,该算法依据类别的重心与待分类样本的空间距离,通过对比设定的距离阈值对分类样本进行类别划分。实验结果表明,本文提出的算法能够有效地对地理信息进行分类,分类准确度较高。同时利用A...  (本文共86页) 本文目录 | 阅读全文>>

重庆大学
重庆大学

基于XML的Web信息挖掘技术的研究

如何让Internet更好地为人类服务,是未来的一个真正挑战。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是Internet上信息的纷繁芜杂,在着两者之间假设一座桥梁的确是一个巨大的挑战。作为从浩瀚的Web信息资源中发现潜在的有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注。本文对Web挖掘的有关理论进行了论述,着重讨论了Web内容挖掘系统的结构和技术。本文的主要内容包括:一、介绍了数据挖掘技术和Web挖掘技术。二、描述了Web内容挖掘系统的构建,包括Web的数据模型,体系结构,系统功能等;三、介绍了XML的产生的背景、特点以及有介绍了XML的相关规范;四、针对基于XML的Web内容挖掘提出了一个挖掘模型和数据抽取方法。五、针对基于XML在Web内容挖掘中的运用,进行了相关的实验并详细地介绍和说明了XML在Web内容挖掘的具体实现过程。  (本文共54页) 本文目录 | 阅读全文>>

武汉理工大学
武汉理工大学

互联网舆情信息挖掘与群体行为分析

随着互联网的普及,国内互联网用户的不断增多,网络舆情逐渐渗透社会、经济、政治各个层面,网络虚拟群体业已成为推动互联网舆情发展不可忽视的力量。因此,基于互联网的舆情信息挖掘技术和网络群体行为研究越来越受到广泛关注。舆情是指一定时期内一定范围内的社会群体对某些社会现象和现实的主观反映。互联网舆情信息挖掘技术作为舆情主题检测的有效手段逐渐成为研究热点。然而,现有的互联网舆情信息挖掘技术在处理海量网络信息时曝露出很多问题,在网络群体行为分析方面研究尚不成熟,因此亟需在互联网舆情信息挖掘和群体行为分析的理论体系和技术方法上实现突破。本文利用网络信息挖掘的方法分析了互联网舆情信息挖掘的流程,针对网络舆情产生、传播的特点,对传统网络信息抓取和预处理技术进行了改进。此外根据舆情主题检测的特点和要求对传统的文本聚类算法进行了改进。基于社会网络分析方法对网络舆情群体的组织结构和行为规律进行了分析,并以博客圈子和论坛小组为例进行了拓扑分析和中心度分析...  (本文共53页) 本文目录 | 阅读全文>>

《华南金融电脑》2007年08期
华南金融电脑

面向电子商务的网络信息挖掘技术研究

一、引言电子商务正以其成本低廉、方便、快捷、安全、可靠、不受时间和空间的限制等突出优点而逐步流行。电子商务过程中产生了大量的网络数据信息,网络信息挖掘是对这些数据信息进行分析的有效办法。一方面,可以大大提高数据收集的可控制性;另一方面,原本难以收集或不可能收集的数据在电子商务环境下变得可能或容易收集;此外,由于电子商务自动化的特点,网络信息挖掘系统更容易和电子商务系统相结合。根据电子商务中产生的数据信息的特点,把电子商务技术和网络信息挖掘技术进行有机结合,选用适合电子商务数据信息的挖掘方法,可以提高网络信息挖掘的效率,使网络信息挖掘技术更好地为电子商务服务。近年来,在电子商务过程中,网络信息挖掘主要用于商品的市场定位和消费分析,以辅助制定市场策略,还可以用来分析购物模式,预测销售行情等。二、电子商务中网络信息挖掘的主要方式(一)、数据抽取网络信息挖掘的任务之一,就是从零散的、无规则的数据中寻找有用的、规则的数据,其基本的方法就是...  (本文共3页) 阅读全文>>

西北大学
西北大学

遥感影像数据挖掘技术研究

随着传感器技术的发展,遥感影像的数量以飞快地速度增长。人们收集和存储影像的能力已经大大超过分析和从影像上获取信息的能力。这一切促使我们发展图像挖掘技术,它需各学科如图像处理、数据库、信息提取、机器学习和软件设计等同仁共同付出努力。图像挖掘旨在发现隐藏在数据库中含蓄的不明确的知识、影像数据的关系或其它模式,是数据挖掘的一个重要分支。遥感图像数据挖掘(remote sensing image mining,(ReSIM))技术不仅是图像挖掘技术在遥感领域的应用,也是空间数据挖掘技术的一个重要拓展分支。它既要应用图像挖掘的一般性的理论和技术,又要结合遥感数据和空间数据的特殊性如独特的空间位置信息、复杂的空间关系和空间尺度,是空间数据挖掘与图像挖掘交叉的研究学科。其中,分类和预测方法是遥感图像分析和信息挖掘的重要研究内容,也是研究的重点。本文围绕遥感影像信息自动化与智能化的获取和利用这一线索,对遥感影像数据挖掘理论和技术进行了研究,主要...  (本文共149页) 本文目录 | 阅读全文>>