首页 | 本学科首页   官方微博 | 高级检索  
     

基于重复模式的论坛信息抽取研究
引用本文:韩普,王泽.基于重复模式的论坛信息抽取研究[J].南京师范大学学报,2010,10(3).
作者姓名:韩普  王泽
作者单位:韩普(南京大学,信息管理系,江苏,南京,210093;南京师范大学,教育技术系,江苏,南京,210097);王泽(南京师范大学,教育技术系,江苏,南京,210097) 
摘    要:针对现有网络论坛信息抽取的不足,提出了一种基于重复模式发现算法的论坛信息抽取方法.该方法首先利用SgmlReader解析器将HTML文档转换为格式规范的XHTML文档,然后通过计算XHTML文档结构中DOM子树相似度,自动发现论坛页面结构的重复模式.该方法通过自动定位重复模式进行论坛信息抽取,较好地解决了在论坛信息抽取过程中需要人工查找、定位重复模式或者通过人工分析论坛页面代码定制抽取规则的问题.试验结果表明,该方法具有较好的准确性、通用性和实用性.

关 键 词:重复模式  论坛抽取  信息抽取

Information Extraction for Web Forum Based on Repeated Pattern
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号