舆情监控系统的设计与实现 |
| |
引用本文: | 张麒岭,丁峰.舆情监控系统的设计与实现[J].通讯世界,2017(1):5-6. |
| |
作者姓名: | 张麒岭 丁峰 |
| |
作者单位: | 烽火通信科技股份有限公司,南京,210000 |
| |
摘 要: | 本文初探舆情监控系统的设计与实现,从开源框架Heritrix技术着手,对互联网新闻、论坛、微博、网站等数据源进行数据抓取;研究了正则表达式技术,基于DOM规范的网页树实现对网页数据的噪音过滤,抓取有价值的结构化数据;随着爬取数据的不断递增,研究当前大数据环境下的Lucene全文搜索引擎技术,实现海量非结构化数据的高速检索.
|
关 键 词: | 舆情 爬虫 全文检索 |
本文献已被 万方数据 等数据库收录! |
|