首页 | 本学科首页   官方微博 | 高级检索  
     

基于标签的信息抽取预处理算法
作者姓名:范春晓,  和晓军,  李淑云
作者单位:[1]沈阳理工人学信息科学与工程学院,辽宁沈阳110168; [2]沈阳理工大学信息科学与工程学院,辽宁沈阳110168; [3]烟台南山学院软件工程学院,山东烟舟265713
摘    要:针对现有现有HTML网页的特点,提出了一种基于标签的Web网页的清洗技术,该方法基于HTML各种标签的特点,对修饰性等与内容无关的标签进行清洗,首先界定清洗的规则,对呵清洗的标签进行定义;然后根据清洗规则对HTML网页进行处理。本论文所提方法没有改变文档的半结构特点,使后续信息的抽取较之未改进有明显的优势。

关 键 词:标签  规则  网页清洗
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号