首页 | 本学科首页   官方微博 | 高级检索  
     

正则表达式在网络信息监控分析系统中的应用
引用本文:李丽莉,李娅,周琪云. 正则表达式在网络信息监控分析系统中的应用[J]. 信息技术, 2008, 32(4): 33-34
作者姓名:李丽莉  李娅  周琪云
作者单位:江西师范大学信息工程学院,南昌,330022
摘    要:在网络信息监控系统中,利用正则表达式和HTMLparser对网页HTML代码进行递规匹配,实现了对网站的整体解析.实际应用表明,新信息从发布到抓取的时间小于5分钟,没有出现信息漏抓、不抓和重复抓取的现象.系统利用Java语言实现,准确率和遗漏率分别达到99%和0.

关 键 词:正则表达式  网络监控  信息抓取  正则表达式  网络  信息监控系统  分析系统  应用  system  monitoring and analysis  Web information  regular expression  遗漏率  准确率  语言实现  Java  系统利用  现象  时间  抓取  新信息  整体解析  网站
文章编号:1009-2552(2008)04-0033-02
修稿时间:2007-10-12

Application of regular expression in Web information monitoring and analysis system
LI Li-li,LI Ya,ZHOU Qi-yun. Application of regular expression in Web information monitoring and analysis system[J]. Information Technology, 2008, 32(4): 33-34
Authors:LI Li-li  LI Ya  ZHOU Qi-yun
Affiliation:LI Li-li,LI Ya,ZHOU Qi-yun(College of Information Engineering,Jiangxi Normal University,Nanchang 330022,China)
Abstract:In web information monitoring system,a comprehensive analysis of a web site is realized by using regular expression and HTMLparser in terms of recursive matching.The actual testing shows a time efficiency of less than five minutes between news is published and scratched.Scratching omission and repetitive scratching never happens in the analysis process.The system is built in Java language and reaches a precision of 98% and omission ratio of 0.
Keywords:regular expression  web monitoring  information scratching  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号