分享到:

字符串匹配的自动机方法

字符串匹配的自动机方法王世昌烟台大学数学与信息科学系(264005)摘要本文讨论了字符串的连续匹配、离散匹配及求解最长公共子串的自动机算法,给出了上述各算法的形式化。关键词字符串,匹配,自动机,最长公共子串THEAUTOMATICMODEOFSTRINGMATCHINGWangShichangDepartmentofMathematicsandInformationScience,YantaiUniversity264005AbstractInthispaper,theautomatalgorithmofthestringmatchingisdiscussed.Itincludescontinuous-matching、dispersed-matchingandthelongestcommonsubstringbesolved.Threematchingalgorithmformalizationsalsoaregivenres...  (本文共3页) 阅读全文>>

杭州电子科技大学
杭州电子科技大学

基于正则表达式的多模式匹配算法研究

随着计算机和Internet技术的普及与发展,网络在人们日常生活中发挥越来越重要的作用,但是随之而来的网络安全问题也日益突出。入侵检测系统作为保障网络安全的重要防护措施得到了广泛应用,模式匹配作为入侵检测系统中的一项关键技术,其性能优劣关系到整个入侵检测系统的效率,提高模式匹配的效率是提高这类系统检测能力的关键所在。本文简单介绍了入侵检测系统,分析了多模式匹配算法在其中的应用,并对AC、AC_BM和WM算法做了详细说明。但是,随着网络技术的发展和规则集复杂性的增加,这些传统的字符串匹配引擎正逐渐被先进的正则表达式引擎所替代。正则表达式匹配引擎一般是基于非确定的有限自动机(Nondeterministic FiniteAutomaton,NFA)和确定的有限自动机(Deterministic Finite Automaton, DFA)的。基于NFA的匹配引擎匹配速度慢,但存储空间相对较小。基于DFA的匹配引擎具有先天的速度优势,...  (本文共73页) 本文目录 | 阅读全文>>

解放军信息工程大学
解放军信息工程大学

基于FPGA的高性能模式匹配引擎研究与设计

模式匹配是计算机科学的一个基本问题,在各个领域尤其是高速入侵检测、深包内容过滤中应用广泛。随着网络速度的不断提高,传统由软件实现的模式匹配引擎已经不能满足高速网络环境下线速检测的需要,成为各种实际应用的性能瓶颈。基于AC自动机、Bloom Filter、TCAM等高速可并行的硬件结构,采用辅助硬件单元和各种优化策略设计合理的方案完成模式的高速匹配,是目前比较热门的研究方向。其中AC自动机算法匹配性能稳定,适合硬件实现,成为硬件模式匹配引擎的首选算法。然而,现在的各种方案在存储开销和匹配速度方面都不够优化,仍有许多方面需要优化和改进。论文在研究基于硬件平台实现模式匹配的各种算法及相应的匹配结构的基础上,优化设计并在FPGA上实现了基于AC算法高性能的模式匹配引擎。引擎通过扩展自动机步长提高匹配速度,同时提出了两种存储优化技术降低引擎的资源开销,实现以低的资源消耗获得高的匹配性能。具体地讲,本文成果包括以下几个方面:1、针对单步长A...  (本文共78页) 本文目录 | 阅读全文>>

浙江大学
浙江大学

用位并行法进行过滤的中文近似串匹配算法

字符串的匹配问题被视为计算机科学的基本问题之一。早期的研究多集中于精确匹配领域,提出了许多单模式匹配算法和多模式匹配算法。然而人们逐渐发现在实际应用中有时更需要进行近似字符串匹配。它在信号处理、文本检索、计算生物学、病毒检测、模式识别、OCR纠错等领域均有重要的应用价值。因此,研究(设计)高效的近似字符串匹配算法具有重要的理论价值和实际意义。应该说,近似匹配是精确匹配的变种和发展,也就是按照一定的近似标准在文本串中找出与模式串相匹配的子串。对应的,多模式近似匹配则是按照一定的近似标准在文本串中找出与模式串集合相匹配的子串。尽管对近似字符串匹配问题的研究历史已不短,相应的文献资料也不少,不过其中绝大多数的研究对象(字符集)都是针对英文等中等大小字符集或者针对DNA等微小字符集,而针对汉字及亚洲语言等大字符集的研究却很少。其次,对多模式近似字符串匹配问题的研究也还不成熟,不管是针对中小字符集还是大字符集,均没有特别成功的解决方法。基...  (本文共64页) 本文目录 | 阅读全文>>

东北大学
东北大学

支持正则表达式的文本匹配优化算法

正则表达式本身具备描述复杂查询的能力,能够通过特定的语法描述一类文本的共同特征。正则表达式因其强大的表达能力和简洁的语法,使得其计算机语言以及相关领域中的应用十分广泛。因此,支持高效的正则表达式的文本匹配技术也就显得尤为重要。目前,支持正则表达式的文本匹配的搜索引擎种类很多。但是,基本上所有的正则表达式匹配算法,都采用了自动机理论。也就是说,正则表达式通常先转换成确定(或非确定)有限状态自动机,然后利用自动机在文本中进行搜索匹配。由于需要在线地处理正则表达式并构建自动机,因此,基本上支持正则表达式的文本匹配算法都是在线的。按照匹配类型不同,支持正则表达式的文本匹配可以分为正则表达式的全局匹配与正则表达式的局部匹配。全局匹配是判断字符串是否属于正则表达式表达语言。而局部匹配在判断字符串中的任何子串是否属于正则表达式所表达的语言的同时,并同时需要返回子串的位置信息。根据匹配类型的不同,本文设计了正则表达式的局部匹配和全局匹配的算法。...  (本文共85页) 本文目录 | 阅读全文>>

燕山大学
燕山大学

正则表达式匹配算法研究

正则表达式匹配是从文本中找出与给定正则表达式匹配的所有字符序列的起始和结束位置,该操作在文本编辑、生物信息学、模式识别等领域有着重要的应用。通过分析发现现存方法需要对文本建立后缀树索引,而本文后缀树索引空间大,建树过程复杂且查找正则表达式的前缀、后缀位置信息时需要遍历整个后缀树效率较低。为了提高匹配效率,本文从以下几个方面对正则表达式匹配问题进行了深入研究:首先,提出了基于数组索引的访问策略,该策略先查询正则表达式中一定出现的字符序列的位置,然后根据这些位置进行对正则表达式左右匹配,最后找出能够与此正则表达式匹配的所有位置,从而避免遍历整个后缀树,并提出了基于上述策略的正则表达式匹配算法-Match算法。其次,针对在正则表达式的匹配阶段存在的冗余计算问题,提出了新的匹配方法,即依照出现次数最少的字符序列位置进行左右匹配;根据左右匹配的不同限制以及以前方法的过滤思想提出了两种过滤策略,即左右匹配的过滤策略和基于消极因子的过滤策略,...  (本文共57页) 本文目录 | 阅读全文>>