首页 | 本学科首页   官方微博 | 高级检索  
     

面向网上论坛的信息抽取技术
引用本文:奚伟鹏,李昕,蒋凯,武港山. 面向网上论坛的信息抽取技术[J]. 计算机工程, 2005, 31(4): 66-68
作者姓名:奚伟鹏  李昕  蒋凯  武港山
作者单位:南京大学计算机软件新技术国家重点实验室,南京大学计算机科学与技术系,南京,210093;南京大学计算机软件新技术国家重点实验室,南京大学计算机科学与技术系,南京,210093;南京大学计算机软件新技术国家重点实验室,南京大学计算机科学与技术系,南京,210093;南京大学计算机软件新技术国家重点实验室,南京大学计算机科学与技术系,南京,210093
基金项目:国家自然科学基金资助项目(60073030),国家“863”计划基金资助项目2002AA117010-10),富士通研究开发中心基资助项目
摘    要:在分析了网上论坛内部的信息组织模式和链接结构的基础上,提出了一套面向网上论坛的语义话题线索抽取框架、叙述了其具体实现。为信息抽取定义了完善的抽取规则规范,提供了用户定制规则的可视化工具和论坛站点中语义信息单元自动下载抽取的后台引擎。

关 键 词:信息抽取  包装器  网上论坛
文章编号:1000-3428(2005)04-0066-03

Information Extraction Technology for Web Forums
XI Weipeng,LI Xin,JIANG Kai,WU Gangshan. Information Extraction Technology for Web Forums[J]. Computer Engineering, 2005, 31(4): 66-68
Authors:XI Weipeng  LI Xin  JIANG Kai  WU Gangshan
Abstract:Based on exhausting investigation for link mode and page format pattern in forum sites, the paper proposes an extraction framework to traw semantic topic threads from Web forums and describes the detailed system implementation for the extraction system. It defines a specification f information extraction, and provides a visualization tool to help users generate rules together with the background engine, which automatically download and extracts semantic information units inside Web forums.
Keywords:Information extraction  Wrapper  Web forum  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号