一种基于XQuery的优化Web信息抽取方法 Optimized Web information extraction based on XQuery期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种基于XQuery的优化Web信息抽取方法

引用本文：	支宗良,陈少飞. 一种基于XQuery的优化Web信息抽取方法[J]. 计算机应用, 2008, 28(1): 152-154,

作者姓名：	支宗良陈少飞

作者单位：	河北省烟草专卖局,烟草经济信息中心,石家庄,050051;河北省烟草专卖局,烟草经济信息中心,石家庄,050051

摘要：	由于缺乏对页面特征适应性的分析，现有的典型系统难以保障抽取规则的健壮性。提出一种优化的Web信息抽取方法，该方法引入了相互关联的三层规则，在分析页面特征适应性的基础上，从准确率和召回率两方面出发提出了抽取规则的优化算法，并用标准XQuery表达复杂对象抽取规则。实验证明，该方法有效地增强了抽取规则的健壮性及可用性。
关键词：	信息抽取规则优化 XPath XQuery
文章编号：	1001-9081(2008)01-0152-03
收稿时间：	2007-08-10
修稿时间：	2007-08-10
Optimized Web information extraction based on XQuery

ZHI Zong-liang,CHEN Shao-fei. Optimized Web information extraction based on XQuery[J]. Journal of Computer Applications, 2008, 28(1): 152-154,

Authors:	ZHI Zong-liang CHEN Shao-fei

Affiliation:	ZHI Zong-liang,CHEN Shao-fei(Tobacco Economic Information Center,Hebei Province Tobacco Monopoly Administration,Shijiazhuang Hebei 050051,China)

Abstract:	Due to lack of the analysis of the adaptability of the Web page's characteristics, the current typical systems can hardly provide robust extraction rules. This paper proposed an optimized Web information extraction method which divided rules into three associated layers, suggested an optimized algorithm for extraction rules from the view of the precision and recall ratio through analyzing the adaptability of the page's characteristics, and expressed the complicated object rule in standard XQuery. Experiments indicate that our approach enhances the robustness and usability of the rules.

Keywords:	Information extraction XPath XQuery Rule optimizing
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《计算机应用》浏览原始摘要信息
	点击此处可从《计算机应用》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏