首页 | 本学科首页   官方微博 | 高级检索  
     

面向网络评论的文本信息抽取方法研究
引用本文:段建勇,高会娟,张梅. 面向网络评论的文本信息抽取方法研究[J]. 北方工业大学学报, 2015, 27(1): 7-12,50. DOI: 10.3969/j.issn.1001-5477.2015.01.002
作者姓名:段建勇  高会娟  张梅
作者单位:北方工业大学信息工程学院,100144,北京;北方工业大学信息工程学院,100144,北京;北方工业大学信息工程学院,100144,北京
基金项目:国家自然科学基金,北京市哲学社会科学规划基金,北京市青年拔尖人才培育计划
摘    要:为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性.

关 键 词:网页提取  信息抽取  URL采集  模式匹配

Research on the Method of Network Review Extraction
DUAN Jianyong,GAO Huijuan,ZHANG Mei. Research on the Method of Network Review Extraction[J]. Journal of North China University of Technology, 2015, 27(1): 7-12,50. DOI: 10.3969/j.issn.1001-5477.2015.01.002
Authors:DUAN Jianyong  GAO Huijuan  ZHANG Mei
Affiliation:DUAN Jianyong;GAO Huijuan;ZHANG Mei;Col.of Information Engineering,North China Univ.of Tech.;
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号