首页 | 本学科首页   官方微博 | 高级检索  
     

舆情监控系统的设计与实现
引用本文:张麒岭,丁峰.舆情监控系统的设计与实现[J].通讯世界,2017(1):5-6.
作者姓名:张麒岭  丁峰
作者单位:烽火通信科技股份有限公司,南京,210000
摘    要:本文初探舆情监控系统的设计与实现,从开源框架Heritrix技术着手,对互联网新闻、论坛、微博、网站等数据源进行数据抓取;研究了正则表达式技术,基于DOM规范的网页树实现对网页数据的噪音过滤,抓取有价值的结构化数据;随着爬取数据的不断递增,研究当前大数据环境下的Lucene全文搜索引擎技术,实现海量非结构化数据的高速检索.

关 键 词:舆情  爬虫  全文检索
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号