首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于标签路径聚类的文本信息抽取算法
引用本文:刘云峰.一种基于标签路径聚类的文本信息抽取算法[J].计算机应用与软件,2010,27(11).
作者姓名:刘云峰
摘    要:针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法.该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板.对不同类型网站实验表明,该方法获得快速和较高准确度的效果.

关 键 词:Xpath  网页分割  信息抽取  聚类  阈值

A TEXT INFORMATION EXTRACTION ALGORITHM BASED ON TAG XPATH CLUSTERING
Liu Yunfeng.A TEXT INFORMATION EXTRACTION ALGORITHM BASED ON TAG XPATH CLUSTERING[J].Computer Applications and Software,2010,27(11).
Authors:Liu Yunfeng
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号