一种基于标签路径聚类的文本信息抽取算法 A TEXT INFORMATION EXTRACTION ALGORITHM BASED ON TAG XPATH CLUSTERING期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种基于标签路径聚类的文本信息抽取算法

引用本文：	刘云峰.一种基于标签路径聚类的文本信息抽取算法[J].计算机应用与软件,2010,27(11).

作者姓名：	刘云峰

摘要：	针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法.该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板.对不同类型网站实验表明,该方法获得快速和较高准确度的效果.
关键词：	Xpath 网页分割信息抽取聚类阈值
A TEXT INFORMATION EXTRACTION ALGORITHM BASED ON TAG XPATH CLUSTERING

Liu Yunfeng.A TEXT INFORMATION EXTRACTION ALGORITHM BASED ON TAG XPATH CLUSTERING[J].Computer Applications and Software,2010,27(11).

Authors:	Liu Yunfeng

Abstract:

Keywords:
本文献已被万方数据等数据库收录！