首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 81 毫秒
1.
正则表达式的研究及在Web中的应用   总被引:1,自引:0,他引:1  
唐惠丽  郑小妹 《微机发展》2013,(2):82-84,88
文中利用正则表达式能够完成对字符串的匹配,替换的功能,以抽取HTML文档中的信息为例,介绍了正则表达式的理论和在Web中的不同使用方法。以达到从大量数据中挖掘出某些特定信息的目的。其原因是正则表达式是代表具有特殊意义字符的字符串,它能实现将某个字符模式与所预先定义的字符串模式进行匹配,从而抽取出所需的字符串。所以正则表达式使字符串的模式匹配变得更加容易。对于处理字符串的应用程序而言,它起着很重要的作用,应用十分广泛,是一个不可缺少的工具。  相似文献   

2.
正则表达式在数据库查询中的应用   总被引:1,自引:0,他引:1  
SQL语句在数据库查询中具有非常重要的地位,但是标准的SQL语句在复杂的数据库查询中却存在着诸多不足。而正则表达式有着强大的查询功能,通过对正则表达式特殊字符以及数据库查询语言中谓词的分析,提出了将正则表达式运用于数据库查询当中的新查询方法,并对该方法在实际查询应用当中会遇到的几个普遍问题进行了探讨。从而证明该方法不仅可以降低查询语句的复杂程度而且还能简化对出错语句的修改工作。  相似文献   

3.
正则表达式与XML配置文件相结合的数据提取   总被引:1,自引:0,他引:1  
针对特定搜索引擎的实际需求,需要从网站中提取有效的数据作为它的数据源.本文通过对网页内部结构的分析,利用正则表达式与XML配置文件相结合的方法,建立了基于特定网页的框架和规则的数据内容提取方法,并加以实现.该方法成功运用到多个信息提取系统中,实现了高效、准确的数据提取.  相似文献   

4.
Internet正在日益成为一个重要的信息来源,如何对Web数据进行检索和加工,使得用户能够更好地利用Internet上的数据资源己经成为了新的研究热点。文中论述了半自动化数据提取算法,其中使用了基于扩展正则表达式的信息槽提取算法和基于网页特性的事件分割算法。同时描述了利用这些算法的信息提取系统,并详细介绍了系统的体系结构和实现细节。该系统可以被用于真实的Web环境中以提高存储、利用信息的效率,在一定程度上解决在Internet上获取信息及利用信息的困难。  相似文献   

5.
正则表达式的Web数据提取研究   总被引:1,自引:0,他引:1  
Internet正在日益成为一个重要的信息来源,如何对Web数据进行检索和加工,使得用户能够更好地利用Intemet上的数据资源己经成为了新的研究热点。文中论述了半自动化数据提取算法,其中使用了基于扩展正则表达式的信息槽提取算法和基于网页特性的事件分割算法。同时描述了利用这些算法的信息提取系统,并详细介绍了系统的体系结构和实现细节。该系统可以被用于真实的Web环境中以提高存储、利用信息的效率,在一定程度上解决在Internet上获取信息及利用信息的困难。  相似文献   

6.
随着网络带宽的快速增长,正则表达式匹配逐渐成为网络数据处理系统的性能瓶颈。为了获得更高的匹配效率,基于FPGA的正则表达式匹配引擎成为近年来的研究热点之一,而将正则表达式高效的转换成硬件描述语言是其中的关键技术。首先分析了正则表达式转换为硬件电路的算法,然后在此算法基础上实现了一个编译器。最后在Modelsim平台上进行了仿真,仿真结果证明了编译器的正确性。  相似文献   

7.
正则表达式具有强大的描述能力,在计算机领域,正则表达式匹配技术应用十分广泛。目前,已经有多个正则表达式匹配引擎,在实际应用中,对于不同的匹配规则集和正则语法,不同的匹配引擎会有不同的性能表现。本文通过对PCRE、Greta、Boost、RE2四种常用正则表达式匹配引擎的性能测试,给出在不用的正则语法情况下的匹配速度,并深入分析不同坏境下适用的正则表达式匹配引擎。对实际系统设计中正则表达式库的选择有指导意义。  相似文献   

8.
基于一种新型分类方法的知识点识别研究   总被引:1,自引:0,他引:1  
为了实现ICAI中知识点的自动识别,提出了一种适合计算机处理的知识点分类方法,又利用人工统计的方法提出了知识点模式的概念,利用正则表达式将知识点模式表示成知识点规则,利用决策树C4.5算法实现了自动识别。  相似文献   

9.
微软在Word 2000及后续所有版本中,提供基于正则表达式的查找替换功能,可对文中符合正则表达式规则的文字实现一次定位选中,并可对查找到的文字按照替换表达式进行批量替换。Word正则表达式提供包括转义符、限定符、定位符、字符集合、分组符、反向引用等元字符功能。Word正则表达式可结合文本格式功能实现联合查找。  相似文献   

10.
浅谈正则表达式在web系统中的应用   总被引:10,自引:1,他引:9  
  相似文献   

11.
正则表达式是对一类字符串共性描述的规则,提供了一种从字符集合中搜寻特定字符串的机制。信息抽取的主要功能是从文本中抽取出特定的事实信息(factual information)。该文利用正则表示式快速匹配文本的特点,以抽取电子文档的主要信息为例,介绍了正则表达式理论以及在信息抽取中的应用。  相似文献   

12.
面向网络安全的正则表达式匹配技术   总被引:1,自引:0,他引:1  
张树壮  罗浩  方滨兴 《软件学报》2011,22(8):1838-1854
分析了基于有穷状态自动机的正则表达式匹配方法的时间复杂度、空间复杂度以及二者之间的制约关系,深入讨论了在网络安全应用中遇到的特有问题与挑战.围绕这两个问题,对当前出现的多种优化技术和策略进行了全面的综述和评价,最后对未来的研究方向进行了总结和展望.  相似文献   

13.
主要分析了企业主页上描述企业基本信息表达语句的结构特点,提出了基于正则表达式的企业主页信息抽取的方法和技术,并设计开发了一个相应的原型系统对一些企业信息项进行抽取。实验结果表明,该系统可以有效地从企业主页上抽取企业相关信息,并得到较高的抽全率和抽准率。  相似文献   

14.
正则表达式在计算机科学的许多领域具有广泛应用. 然而, 由于正则表达式语法比较复杂, 并且允许使用大量元字符, 导致开发人员在定义和使用时容易出错. 测试是保证正则表达式语义正确性的实用和有效手段, 常用的方法是根据被测表达式生成一些字符串, 并检查它们是否符合预期. 现有的测试数据生成大多只关注正例串, 而研究表明, 实际开发中存在的错误大部分在于定义的语言比预期语言小, 这类错误只能通过反例串才能发现. 研究基于变异的正则表达式反例测试串生成. 首先通过变异向被测表达式中注入缺陷得到一组变异体, 然后在被测表达式所定义语言的补集中选取反例字符串揭示相应变异体所模拟的错误. 为了能够模拟复杂缺陷类型, 以及避免出现变异体特化而无法获得反例串的问题, 引入二阶变异机制. 同时采取冗余变异体消除、变异算子选择等优化技术对变异体进行约简, 从而控制最终生成的测试集规模. 实验结果表明, 与已有工具相比, 所提算法生成的反例测试串规模适中, 并且具有较强的揭示错误能力.  相似文献   

15.
刘鹏  姚远  邰铭  张铮 《计算机工程》2010,36(12):39-42
分析现有方法处理状态爆炸的局限性,将条件函数和位图结构引入自动机,提出一种位图移位有限自动机(Bs-FA),并给出由正则表达式到Bs-FA的一般方法。对计数字符组与前缀交迭的情况,仅需引入较小位图空间,就能使整个自动机内存空间明显减少。在实际规则集上评估,并与现有方法进行比较,说明该自动机的应用价值。  相似文献   

16.
正规式相交判定问题在扩展标记语言(extensible markup language,XML)类型检查中起着十分重要的作用。传统方法是将其转化为自动机的相交问题,在转化过程中会产生大量计算。基于XML模式语言的特点,提出了一种基于规则推导的正规式相交判定算法。该算法直接根据输入的正规式进行推导而无需进行任何转化计算。对于一般的正规式,尽管其仍然是指数级算法,但无需进行复杂的构造自动机的计算;而对于一些特殊的正规式,特别是在XML类型检查中广泛使用的One-Unambiguous正规式,该算法的时间复杂度降为多项式级。最后证明了该算法所使用的推导规则的正确性和完备性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号