分享到:

XML聚类集成研究

XML聚类集成也与传统的聚类集成算法一样都是通过对原始数据集进行学习和集成,得到一个能较好地反映数据集内在结构的数据划分,因此它比单一XML聚类算法更能处理好数据集的噪声和孤立点、获得更好的聚类效果而成为当前聚类分析的研究热点之一。XML聚类集成又分为小规模的XML聚类集成和大规模的XML聚类集成,由于目前大部分的聚类集成算法是针对小规模数据的聚类集成,这些算法应用到大规模数据聚类集成中不会获得好的聚类效果,因此,本文在研究小规模数据的聚类集成的同时,特别针对大规模的XML数据进行更深入的研究。为了达到实现XML聚类集成的目的,在研究聚类集成前,其首要任务就是选择好的XML文档相似度计算方法,通过本文设计出的XML文档相似度的计算方法与传统的相似度计算方法对比,选择本文设计出的XML文档相似度的计算方法具有更高的准确性和精度,因此在本文的XML聚类集成研究中都采用本文设计的XML相似度计算方法;其次在研究小规模的XML聚类集成算  (本文共72页) 本文目录 | 阅读全文>>

山东师范大学
山东师范大学

Web挖掘中的XML文档聚类研究

信息技术的快速发展促使Web上的数据爆炸式的增长,如何从海量的Web数据中高效准确的获得想要的知识成为热门的研究课题。Web挖掘就是从Web信息中获取潜在的、有价值的知识或模式的过程,分类、聚类、特征选择等作为Web挖掘的主要技术已经得到长足的发展。聚类分析在Web挖掘中占有重要的地位,所谓聚类就是按照某种相似性度量,根据一定的准则将一个对象集合成若干类,使得同类对象之间尽可能的相似,不同类对象之间尽可能的相异。聚类作为Web挖掘的预处理阶段可以通过分类数据来提高挖掘的效率和精确率。Web页面多数以HTML文本的形式存在,但随着Web数据的多样化和复杂化,HTML文档已经满足不了信息处理和信息交换的要求。XML是由W3C提出的标准,由于灵活性、开放性和自描述性等特点,逐渐成为Web上主流数据格式和交换标准。因此XML聚类研究具有重要的意义。本文对XML聚类进行了系统的分析和研究,针对XML特性提出了一种能够包含语义的特征提取方法...  (本文共54页) 本文目录 | 阅读全文>>

《计算机应用研究》2012年06期
计算机应用研究

基于量子遗传算法的XML聚类集成

为了改善单一聚类算法的聚类性能,提出一种基于量子遗传算法的XML文档聚类集成解决方法。该方法首先利用KNN分类算法将XML文档划分成k个差异性的聚类成员;其次根据聚类成员的关系获得内联相似度矩阵,并通...  (本文共5页) 阅读全文>>

哈尔滨工业大学
哈尔滨工业大学

相似XML文档合并方法的研究

随着网络的发展,Internet上出现了越来越多的信息,XML(eXtensibleMarkup Language)是当前网络上最流行的交换和存储数据的工具。不同信息源的XML文档可能表示相同或相似的信息,但是这些信息可能存在大量的冗余。集成这样相似或者相同的信息是有意义的,因为用户能够从集成的数据中去除XML文档中冗余的信息并获得更为完整和有用的信息。本文介绍了几种XML相似性的度量方法,并提出了一种基于子树匹配的XML相似性度量方法。在XML子树相似性计算的过程中,本文不仅考虑子树叶子节点的PCDATA的值,还考虑了匹配的叶子节点所在路径的相似性。结合文本与路径相似性的计算,本文给出了子树相似性的定义。基于子树的相似性,本文提出了XML的相似性度量算法和XML的相似连接算法。实验结果证明了子树的相似性的计算有利于XML文档的连接。XML的聚类算法大多数都是基于树编辑距离的方法,这些聚类算法将XML文档两两比对,随着XML文档...  (本文共60页) 本文目录 | 阅读全文>>

东北大学
东北大学

XML集成方法的研究

可扩展标记语言(Extensible Markup Language, XML),是一种用于对电子文件信息进行标记,使电子文件信息具有结构性的标记语言,它不仅可以对数据进行标记,而且能对数据类型进行定义,允许开发者自定义标签,同时可将标签和数据有效分离。与超文本标记语言(Hypertext Markup Language,HTML)不同的是XML侧重地不是数据的如何表示,而是更多的侧重于数据的存储和传输,于是,XML逐渐演变成了一种跨平台的数据交换格式,一种轻量级的数据存储方案,现在已发展成为web数据交换的标准。目前,XML在各个领域都得到了广泛的应用,在网络上也产生了大量的XML数据文件,然而这些数据文件并不具有统一的格式,它们的结构各异,这就给数据的分类存储和统一的数据查询带来了困难。于是,如何有效地集成这些异构的XML数据文件,将原本分离的、但内容相关的数据文件进行准确地和快速地合并,进而给用户提供一种统一的检索和服务,...  (本文共83页) 本文目录 | 阅读全文>>

南京航空航天大学
南京航空航天大学

结构全寿命安全保障体系及集成研究

结构的安全性一直是工程中普遍关心的重要问题,结构强度学逐渐发展到疲劳断裂统一理论,结构安全保障手段已向多方法、微小化、网络化和全寿命在线保障与监测发展,建立全寿命安全保障系统,涉及材料、机械、力学、电子等学科的交叉融合。随着MEMS (MicroElectroMechanical System)加工尺度向下发展,微器件中一些被忽略的物理效应逐渐发挥作用,因此本文还在这方面展开研究。全文主要研究内容与成果如下:(1)充分考虑实验室试验载荷与实际服役载荷的差异,将能更准确地预测结构的寿命。在结构全寿命安全保障架构下,发展了结构寿命指针技术,通过实时监测结构危险部位所受的载荷,在线分析损伤演变,预测结构的剩余寿命,实施结构的寿命监测。利用现场总线组成寿命监测网络,可实现大型结构的寿命指针网络。为满足结构安全保障中信号处理的需求,研制和发展了几种信号放大器。(2) CAN (Controller Area Network)总线技术实时性...  (本文共120页) 本文目录 | 阅读全文>>

浙江大学
浙江大学

基于数字化的生物分类鉴定及知识集成研究

21世纪是信息时代,随着计算机与网络的广泛普及与应用,数字化信息越来越被人们推崇与重视,知识数字化、传播网络化已成为传统学科信息化发展的必然要求。生物分类是物种多样性研究与保护中重要的基础工作,尽管现有的纸质分类信息十分丰富,但由于分类信息数字化开发工具匮乏,分类专家直接数字化比例低,生物分类信息资源的数字化发展相对缓慢。为改善此局面,推进生物分类信息资源的数字化建设,论文依托现代信息技术,以检索表数字编码、智能编制和二次重构三大创新技术为核心研制了生物分类鉴定知识系统与物种多样性数据库开发工具,为检索表等生物分类数字化信息的制作、整理、发布、使用与推广提供一套完整的电子化解决方案,并在此基础上建立了中国昆虫鉴定分类系统InsectX与植物检疫性昆虫信息平台W-QPM等网络系统。1.检索表数字编码技术基于规则的检索表数字化方式直接模拟专家思路,存在扩展性弱等诸多缺点。论文提出采用基于二维的特征分值数字矩阵保留检索表中对象与特征的...  (本文共110页) 本文目录 | 阅读全文>>