期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	1篇
免费	0篇

专业分类

无线电

1篇

出版年

2017年

1篇

排序方式： 共有1条查询结果，搜索用时 0 毫秒

一种DOM树标签路径和行块密度结合的Web信息抽取方法

马晓慧李泓莹《智能计算机与应用》2017,7(4)

本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取.该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本.实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91％,召回率达到95％,F值达到93％.本算法对于包含过多短文本的网页抽取的准确度还有待提高. 相似文献