分享到:

信息集成中的字符串匹配技术研究

信息集成是指综合运用查询处理、中间件、包装器等技术,把相互关联的分布式异构信息源集成在一起,实现变异构为同构,最终实现信息语义的统一[1,2],从而有效地实现信息的共享[3]。在信息集成中,一个关键问题就是不同数据源模式中对等实体的识别,即匹配问题[4,5]。1匹配的内涵匹配的目标是发现不同模式结构相关实体之间的映射关系,基本思想是:首先通过对标识结点的分析推得相关结点间的对应关系,然后根据获得的对应关系,通过运用各种筛选技术(Filtering)来确定最终的映射集。一般匹配系统中输入的是两个分布在不同信息源中的实体(如表格、XML元素、属性、规则、断言等),而输出的则是这些实体间所蕴含的关系(如相等、包含、兼容等)[4],其结果可以采用一个四元组的映射进行描述。其中,n是反映两个模式不同实体(e,e′)间的对应关系的相似系数(Coefficients),其大小直接反映了两个模式不同实体间的相似程度。当n为1时,表示e和e′完全...  (本文共5页) 阅读全文>>

国防科学技术大学
国防科学技术大学

异构数据映射技术研究

数据集成是信息集成的基础。随着人们对信息综合利用要求的不断深化,大规模异构数据的集成已经成为当前信息集成领域的研究热点。异构数据集成的关键是通过映射技术建立异构数据之间的一致性,包括数据属性或模式的一致性,数据主体或元组实例的一致性。本文工作围绕大规模数据集成中建立模式和数据一致性的映射与匹配技术展开研究,利用机器学习、自然语言处理以及模糊理论对已有的模式映射、实例映射和失效映射检测方法进行发展与改进,并扩展了异构数据集成平台StarEAI,在实际应用中验证了本文给出的方法与技术的有效性。本文主要工作包括:1、在模式层面的一致性方面,本文提出了一种基于数据实例的多策略模式映射方法MSMA,首先针对实例数据具有良好的结构化特征的情况,根据大量样本特征信息,设计了数据格式、约束、均值、贝叶斯等基于实例结构的学习器,并产生预测分类模型,运用机器学习方法,抽取待匹配数据的特征信息,进行模式映射;进而改进了组合算法,将标签作为组合器的输入...  (本文共116页) 本文目录 | 阅读全文>>

中国科学技术大学
中国科学技术大学

网络内容分析中基于硬件的字符串匹配算法的研究

Internet代表的信息革命极大改变了人们的生活、生产方式,网络无处不在。但是在巨大的信息浪潮中,内容安全问题也同样无处不在,各种令人不安的信息如湍急暗流隐藏在互联网大潮下。一方面是人们生活越来越多地依靠网络,许多政府业务越来越多地使用网络,而另一方面却是Internet上信息的鱼龙混杂,黑客、病毒、网络攻击等日益盛行。保护网络空间的洁净,保护网络空间中的“国土”,已成为未来国家发展的重要问题,也是摆在人们面前的一个巨大挑战。为了建立起高效、绿色、安全的互联网世界,网络内容分析技术已经越来越受到人们的关注。论文主要针互联网中内容分析的基本问题,从算法和系统的角度研究基于硬件实现的字符串匹配技术在网络内容分析中的应用。论文有以下几点创新之处:●提出了硬件实现的基于ABNF范式的字符串匹配和协议解码方法在网络内容分析中,除了要对特定的模式串匹配,还需要对数据报文中的真实含义进行解码检查。而在传统字符串匹配中,网络数据包被简单的看成...  (本文共103页) 本文目录 | 阅读全文>>

华北电力大学(北京)
华北电力大学(北京)

基于语义的地理信息集成方法研究

针对同一个客体,不同地理信息系统(GIS)所提供的数据类型不同,为了给用户提供更加全面、完整的地理信息,需要对不同数据源进行信息集成。随着互联网的发展,Web等数据源中存在着越来越多的地理信息数据。通常,不同数据源的数据类型是异构的,对多种数据源的数据进行集成存在着许多问题,其中最关键的问题是如何对不同数据源进行特征分类以及如何进行不同数据源间的地理信息的映射。本文文采用基于语义的特征分类定义方法,提出一个以语义为核心的地理信息模型,解决了分布式地理信息源的语义异构问题。并可以利用集成方法对获取的语义数据实现地理信息的集成。本文针对目前多源地理信息数据集成过程中存在着异构性且精度难以保障等问题。首先,分析当前国外与互联网相关的电子地图网站的地理信息下载方法,获取相关范围的地理数据,并对地理信息进行数据解析,得到研究所需的原始数据。然后,对各自地理信息的数据特征分类体系进行研究,对数据源间的特征进行语义映射及异构性消除。其次,采用...  (本文共57页) 本文目录 | 阅读全文>>

东北大学
东北大学

Web环境下基于语义模式匹配的实体关系提取方法的研究

随着互联网的迅猛发展,Web信息资源已成为全球最大的知识库,为了应对信息爆炸带来的挑战,合理而高效地利用Web信息资源,迅速找到有价值的信息,研究者们提出了Web信息抽取(Web Information Exrtaction)的概念。Web信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查询以及进一步分析利用。Web信息抽取有三个基本任务,命名实体识别、实体关系抽取和事件发现。实体关系抽取不仅是信息抽取的一项重要任务,也是事件发现和多种应用系统的基础,具有重要意义。模式匹配作为Web信息提取的主要方法之一,近年来备受研究者关注。本文分析了现有的实体关系抽取技术并进行了总结。在此基础上提出了一种基于语义模式匹配的实体关系抽取模型(SPMREM)。该方法采用机器学习思想,可以将一个包含有限数目个已确知关系的实体元组的集合作为训练集,从Web页面中提取蕴含命名实体的关系模式,再由此关系模式从...  (本文共69页) 本文目录 | 阅读全文>>

燕山大学
燕山大学

基于编辑距离的字符串模式匹配算法研究

编辑距离是模式匹配的重要组成方面,是模式匹配中相似度的一种度量指标。它在模式匹配中具有重要的基础作用,有着不可替代的意义。由于现有的模式匹配的匹配速度并不是很好,编辑距离值的准确性也不是很高。因此,编辑距离逐渐成为模式匹配问题中的研究热点。本文针对已有的编辑距离定义和模式匹配速度不佳的问题,详细了解了编辑距离的定义和各种模式匹配算法以及不同模式匹配的相似度的计算方法,同时对编辑距离的定义和编辑距离算法进行了深入的研究和分析。首先,对模式匹配中已有的编辑距离定义和编辑距离算法的优缺点进行了详尽的分析,针对模式配中编辑距离的准确性,提出了一种新的编辑距离定义,使用新的编辑距离定义,可以使得计算出来的编辑距离的值具有更好的准确性。其次,本文综合、详细的分析了几种编辑距离的计算算法,针对已有的模式匹配速度效率不佳的问题,提出了基于编辑距离的模式匹配算法,即在新的编辑距离定义的基础上,增加了一个字符串快速扫描算法,在大规模数据集中使用该模...  (本文共58页) 本文目录 | 阅读全文>>