分享到:

字符串匹配技术研究

字符串匹配是模式匹配中最简单的一个问题,但在文本处理领域中字符匹配是一个非常重要的主题。它可用于数据处理、数据压缩、文本编辑、信息检索等多种应用中,大多数操作系统中软件实现的字符匹配算法是基本组件之一。字符串匹配技术通常也和其他字符问题有一定关联。在实际应用中字符串匹配技术不仅适用于计算机科学,在语义学、分子生物学等领域也具有相当重要的应用,在以模式匹配为特征的网络安全应用中也发挥了举足轻重的作用。1 问题描述 定义1 一个文本(text)标识为y=y[0…n-1],它的长度为n,text就是待匹配的文本。 定义2 用于进行匹配的字符串称为模式(pattern),标识为x=x[0…m-1],它的长度为m。 定义3 定义1和2中的字符串建立在有限字符集上,该字符集称为字母表(alphabet),由∑标示,大小为σ。该文是建立在这样一个假设上的,即从字母表∑中选取的字符串strings对算法的有效性有着严格的...  (本文共3页) 阅读全文>>

《现代图书情报技术》2007年07期
现代图书情报技术

信息集成中的字符串匹配技术研究

信息集成是指综合运用查询处理、中间件、包装器等技术,把相互关联的分布式异构信息源集成在一起,实现变异构为同构,最终实现信息语义的统一[1,2],从而有效地实现信息的共享[3]。在信息集成中,一个关键问题就是不同数据源模式中对等实体的识别,即匹配问题[4,5]。1匹配的内涵匹配的目标是发现不同模式结构相关实体之间的映射关系,基本思想是:首先通过对标识结点的分析推得相关结点间的对应关系,然后根据获得的对应关系,通过运用各种筛选技术(Filtering)来确定最终的映射集。一般匹配系统中输入的是两个分布在不同信息源中的实体(如表格、XML元素、属性、规则、断言等),而输出的则是这些实体间所蕴含的关系(如相等、包含、兼容等)[4],其结果可以采用一个四元组的映射进行描述。其中,n是反映两个模式不同实体(e,e′)间的对应关系的相似系数(Coefficients),其大小直接反映了两个模式不同实体间的相似程度。当n为1时,表示e和e′完全...  (本文共5页) 阅读全文>>

华中科技大学
华中科技大学

入侵检测系统中字符串匹配算法与实现

作为网络内容安全检查的重要技术,字符串匹配算法被广泛的应用在入侵检测、入侵保护、网络防病毒和网络内容监控等网络安全系统中。字符串匹配是网络安全系统中对计算资源要求最高的部分,例如在当前的入侵检测系统中字符串匹配占用了百分之五十以上的计算资源。随着网络攻击的手段日益增多,网络安全设备中需要定义的模式字符串数量随之上升,这使得字符串匹配占用网络安全系统计算资源的比例还将增大。另外,从近二十年的发展来看,网络速率的提升速度大约为处理器的处理能力提升速度的3倍。基于处理器的软件字符串匹配技术不能满足网络速率发展的需求。基于专用集成电路的字符串匹配算法能够提供高速的字符串匹配,但是其模式字符串更新比较困难,不能适应安全系统检测规则的频繁更新。本文使用兼顾了软件的灵活性和专用集成电路速率的FPGA来实现高速的字符串匹配。目前已有很多基于FPGA的字符串匹配研究,但是这些算法还有提高的余地,主要体现在如下几个方面:1)部分算法字节比较器不能充...  (本文共114页) 本文目录 | 阅读全文>>

哈尔滨工程大学
哈尔滨工程大学

网络数据流的正则表达式匹配技术研究

正则表达式是一种包含普通字符和通配符的模式串,它具有很灵活的的表达能力,其丰富的语义和强大的表达能力赋予了它对各种特征有效的描述能力,也就是具有这样的能力使得正则表达式匹配技术占据了网络内容过滤分析系统和网络入侵监测系统中的核心地位。随着互联网的快速发展,尤其是移动互联网的崛起,新型网络应用的井喷,网络信息量呈指数级增长,带来了待检测数据量以及正则表达式的规则数目的急增,这对正则表达式匹配技术的匹配性能提出了巨大的挑战。国内外的研究者目前对正则表达式匹配技术的研究工作主要集中在将其转化为自动机进行匹配时的匹配效率和空间存储两方面。本文选择正则表达式匹配算法的匹配效率作为研究方向进行了一系列的研究,主要的研究工作可以分为以下的两个部分:研究了空间高效,时间低效的非确定型自动机(NFA)匹配算法,对基于Glushkov构造方法的NFA进行改进,提出了基于激活状态过滤的正则表达式匹配算法,通过多加载一个待匹配字符进入自动机从而降低激活...  (本文共62页) 本文目录 | 阅读全文>>

哈尔滨理工大学
哈尔滨理工大学

软件漏洞并行检测方法研究

随着云计算、互联网+和互联网金融等技术兴起,传统行业中海量的数据和业务都被迁移到互联网,随之而来的安全问题不得不引起人们深切关注,及时地在攻击者实施攻击之前发现并修复软件漏洞是解决安全问题的核心。为了适应海量的业务和数据处理的场景,并行化的应用是提高对安全事件响应速度的一种关键方法,本文对软件漏洞检测方法中的关键技术进行了并行优化方面的研究,在进行总结现有方法的优缺点的工作后,在并行多模式字符串匹配技术中提出一种基于多核架构的并行多模式字符串匹配算法,通过启发式算法优化模式集合,提高并行字符串匹配算法的执行速度。同时,本文提出一种基于敏感信息的并行化动态符号执行路径优化方法,通过对敏感函数进行判断,进行路径剪枝,以优化并行化动态符号执行中路径爆炸所产生的高昂计算代价问题。在研究PHP解释器的实现的过程中,提出一种基于镜像代码执行的实时应用程序自我防护方法,用于缓解以往自适应安全架构中RASP系统以及其它漏洞扫描方法部署在生产环境...  (本文共55页) 本文目录 | 阅读全文>>

东北大学
东北大学

支持带有通配符的字符串匹配算法

带有通配符的字符串匹配问题已成为诸多领域的研究热点,例如生物信息学、数据库系统中的SQL查询、搜索引擎的文本索引、文件名查找、网络入侵检测等领域。然而,带有通配符的查询模式在更好的满足用户查询需求的同时,也使得查询处理过程变得更加复杂,如何高效地支持带有通配符的字符串匹配问题面临着很大的挑战。目前,关于通配符的匹配问题大多都是针对在线数据搜索,基于索引的离线查询方法较少,并且这些算法中索引占用的存储空间较大,对于通配符的定义也有所限制,不具有普遍性。本文主要研究查询模式串中含有可代表任意长度字符串的通配符“*”以及可代表任意一个字符的通配符“?”时的字符串匹配问题,包括精确字符串匹配问题以及近似字符串匹配问题。由于gram索引结构在空间大小以及查询效率上的优势,本文首次将gram索引结构用于带通配符的字符串匹配问题。首先,本文对现有的支持带有通配符的字符串匹配技术进行了概述。通过对现存算法的对比分析,本文提出了基于gram索引结...  (本文共79页) 本文目录 | 阅读全文>>