首页 | 本学科首页   官方微博 | 高级检索  
     

XML内容筛选中的快速串匹配算法
引用本文:刘萍,谭建龙.XML内容筛选中的快速串匹配算法[J].中文信息学报,2005,19(2):21-28.
作者姓名:刘萍  谭建龙
作者单位:中国科学院计算技术研究所软件室,北京 100080
基金项目:国家高技术研究发展计划(863计划)
摘    要:本文提出了一种对XML 文本进行快速串匹配的算法- XMatch。在对于XML 文本的含路径信息的模式串匹配中,由于XML 文本的结构化特点,使得传统的串匹配算法不能直接有效的使用;而现有的大部分XML 内容筛选方法都是基于SAX 分析的事件驱动过程,效率普遍较低。XMatch 在对XML 文本的结构-schema 进行分析的同时,结合模式串的路径信息,建立一个扫描自动机的有限状态自动机;此外,算法还支持带循环引用路径信息的模式串匹配。XMatch 容易扩展,可以支持普通的结构化文本的串匹配。实验结果显示,本算法的效率比使用SAX事件驱动的方法有明显的提高。

关 键 词:计算机应用  中文信息处理  XML  数据处理  串匹配  多关键词匹配  
文章编号:1003-0077(2005)02-0020-08
修稿时间:2004年6月21日

A Fast String Matching Algorithm in Content-based XML Filtering
LIU Ping,TAN Jian-long.A Fast String Matching Algorithm in Content-based XML Filtering[J].Journal of Chinese Information Processing,2005,19(2):21-28.
Authors:LIU Ping  TAN Jian-long
Affiliation:Software Division , Institute of Computing Technology ,Chinese Academy of Sciences.Beijing 100080 ,China
Abstract:We propose an algorithm to do fast string match of XML files-XMatch. In the pattern string matching of XML files which contain path information , traditional string match algorithms canpt be effectively directly used due to the structured characteristics of XML files ; Most of the available methods of XML content filtering are based on SAX event driven which is not very efficient. When analyzing schema-the structure of XML files , XMatch utilizes the path information of pattern string to construct a DFA ; In addition , the algorithm support pattern matching with loop reference path information. XMatch is scalable and can support string matching of common structure text.Experiment results show that , the efficiency is distinctly improved compared with using the method of SAX event driven.
Keywords:computer application  Chinese information processing  XML data processing  string matching  multiple keyword matching
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号