首页 | 本学科首页   官方微博 | 高级检索  
     

基于正则表达式的信息滤除算法
引用本文:高丙坤,成战刚,李倩.基于正则表达式的信息滤除算法[J].现代计算机,2008(2):54-55,64.
作者姓名:高丙坤  成战刚  李倩
作者单位:[1]大庆石油学院电气信息工程学院,大庆163318 [2]中国石油测井有限公司长庆事业部解释中心,西安710201
摘    要:摈弃了传统网页清洗算法实现繁琐、效率低下、准确丰差等种种弊端,分析了当前网页的代码结构,提出了基于正则表达式的信息筛选、滤除算法,并在Visual Studio.NET 2003环境下结合Kegex类、MatchCollection类、Match类,用C#语言实现了该算法.

关 键 词:网页清洗  信息滤除  正则表达式
收稿时间:2007-11-01
修稿时间:2007-11-12

Algorithm of Information Filtration Based on Regular Expression
GAO Bing-kun,CHENG Zhan-gang,LI Qian.Algorithm of Information Filtration Based on Regular Expression[J].Modem Computer,2008(2):54-55,64.
Authors:GAO Bing-kun  CHENG Zhan-gang  LI Qian
Affiliation:GAO Bing-kun1,CHENG Zhan-gang1,LI Qian2 (1. College of Electricity Information Engineering,Daqing Petroleum Institute,Daqing 163318,2. CNPC Logging Changqing Business Division Explanation Center,Xi'an 710201)
Abstract:Proposes a method of information filtration algorithm based on regular expression by ana- lyzing the current structure of web page. Comparing with traditional method, the new algo- rithm is more efficient and convenient to be utilized with high precision. Combining the class of Regex, MatchCollection and Match together, implements the algorithm by C# in the envirnment of Visual Studio.NET 2003.
Keywords:Web Cleanout  Information Filtration  Regular Expression
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号