首页 | 本学科首页   官方微博 | 高级检索  
     

基于脚本代码和局部数据匹配的网页抽取研究
引用本文:高永平.基于脚本代码和局部数据匹配的网页抽取研究[J].计算机光盘软件与应用,2014(15):124+126.
作者姓名:高永平
作者单位:雅安职业技术学院
摘    要:随着科技的进步互联网的普及,InYXrnXY逐渐成为我们日常生活中的重要角色,变成学习和社会生活中的一部分。随着网络的高速发展,导致用户对信息的需求量也越来越高。HYML作为WXD信息的主要载体在发展中逐渐变得复杂,内容变得丰富。WXD普遍以HYML语言的形式出现,不用直接进行分析处理。WXD信息在网页信息抽取上可以分为手工抽取、半自动抽取、全自动抽取三种,对于网页信息抽取来说其发展的结果就是将逐步被全自动化网页信息抽取技术所取代。通过新方案对网页信息抽取上市进行总结,第一步网页控制代码树可以从网页脚本代码的嵌入转换而来,通过对网页信息抽取的最小编辑距离来动态的规划网页信息抽取的算法,并且将同类阈值的网页结合在一起,最后再根据网页自动生成的规则采取相应的容错性策略,完成对同类网页的抽取。

关 键 词:全自动网页信息抽取  脚本代码  控制代码树
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号