首页 | 本学科首页   官方微博 | 高级检索  
     

网络舆情分析中网页信息预处理方案的实现
引用本文:李舒晨,刘云,李勇.网络舆情分析中网页信息预处理方案的实现[J].广东电脑与电讯,2008(10):30-33.
作者姓名:李舒晨  刘云  李勇
作者单位:北京交通大学通信与信息系统北京市重点实验室,北京100044
基金项目:教育部高等学校科技创新工程重大项目培育基金,通信与信息系统北京市重点实验室资助项目,北京市教育委员会共建项目专项资助项目 
摘    要:网络舆情分析系统中,网页信息预处理方案的实现采用了基于网页结构分析的信息抽取技术和数据存储技术。结合HTML网页的内部结构,设计了一种基于HTMLDOM结构节点路径的网页信息解析模板,用于网页信息抽取。通过网页U1KL的特征研究建立了网页之间的联系机制,应用于数据库存取提高了效率。

关 键 词:舆情分析  预处理  信息抽取  解析模板  数据存储

Implementation of Web Information Pre-processing Scheme in Online Public Opinion Analysis
Li Shu-chen,Liu Yun,Li Yong.Implementation of Web Information Pre-processing Scheme in Online Public Opinion Analysis[J].Computer & Telecommunication,2008(10):30-33.
Authors:Li Shu-chen  Liu Yun  Li Yong
Affiliation:(Key Laboratory of Communication & Information Systems, Beijing Jiaotong University, Beijing Municipal Commission of Education, Beijing 100044)
Abstract:In online public opinion analysis system,the information extraction technology based on the analysis of web pages structure,and the data storage technology are used to implemente the web information pre-processing scheme.According to the internal structure of web pages HTML,a template containing web page HTML DOM node path is designed for web pages information parsing.Via the analysis of URL features, the relation mechanism among web pages are built.Taking advantage of this mechanism in data storage, the efficiency has been improved.
Keywords:opinion analysis  pre-processing  information extraction  parsing template  data storage
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号