首页 | 本学科首页   官方微博 | 高级检索  
     

面向大规模数据的在线新事件检测
引用本文:蔡偃武,高大启,阮彤,蒋锐权.面向大规模数据的在线新事件检测[J].计算机工程,2014(10).
作者姓名:蔡偃武  高大启  阮彤  蒋锐权
作者单位:1. 华东理工大学计算机科学与工程系,上海,200237
2. 上海证券交易所技术开发部,上海,200120
基金项目:国家科技支撑计划基金资助项目“证券业云平台研发与运营”(2012BAH13F02)。
摘    要:通过分析基于新闻要素的在线新事件检测算法的时间消耗,提出一种面向大规模数据环境的在线新事件检测算法。该算法利用基于倒排索引的高效相似报道搜索机制,有效减少单路径聚类算法中的相似度比较次数。通过对报道预处理、报道与事件比较以及索引搜索这3个过程的并行化,提高算法在多机环境下的运行效率和可伸缩性。实验结果表明,该算法在不影响漏检率和误检率的基础上,提高了新事件检测的速度,并且在千万到亿级别的报道规模下,其吞吐量达到150条/s~200条/s。

关 键 词:新事件检测  单路径聚类  大规模数据  并行计算  倒排索引  MapReduce架构

Online New Event Detection for Large-scale Data
CAI Yan-wu,GAO Da-qi,RUAN Tong,JIANG Rui-quan.Online New Event Detection for Large-scale Data[J].Computer Engineering,2014(10).
Authors:CAI Yan-wu  GAO Da-qi  RUAN Tong  JIANG Rui-quan
Abstract:
Keywords:New Event Detection( NED)  single-pass clustering  large-scale data  parallel computing  inverted index  MapReduce architecture
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号