首页 | 本学科首页   官方微博 | 高级检索  
     

基于MapReduce的多文档自动文摘的设计与实现
引用本文:胡琪,邹细勇.基于MapReduce的多文档自动文摘的设计与实现[J].计算机工程与应用,2011,35(35):67-70.
作者姓名:胡琪  邹细勇
作者单位:中国计量学院光学与电子科技学院,杭州,310018
基金项目:国家自然科学基金(No.50905170,No.61007012)~~
摘    要:多文档文摘是将同一主题下的多个文本描述的主要的信息按压缩比提炼为一个文本的自然语言处理技术,它可以从全局的角度对网络信息进行挖掘。在面对飞速增长的网络资源时,如何准确、高效地从海量数据源内进行自动文摘处理,是多文档自动文摘面临的主要难题之一。MapReduce是Google提出的一种分布式并行计算方法,它可以部署在任意一个普通商用计算机组成的集群上,能够有效地协调集群内各计算机的计算任务,充分利用计算机集群的处理能力,能够对海量数据进行有效的分析处理。提出了一个有效的实验模型,将MapReduce分布式并行框架应用在多文档自动文摘技术中。实验结果表明,MapReduce在保证文摘质量的前提下,能够有效地提高文摘抽取过程的处理性能。

关 键 词:多文档自动文摘  MapReduce  并行计算
修稿时间: 

Design and implementation of multi-document automatic summarization using MapReduce
HU Qi , ZOU Xiyong.Design and implementation of multi-document automatic summarization using MapReduce[J].Computer Engineering and Applications,2011,35(35):67-70.
Authors:HU Qi  ZOU Xiyong
Affiliation:HU Qi,ZOU Xiyong College of Optical and Electronic Technology,China Jiliang University,Hangzhou 310018,China
Abstract:Multi-document summarization is a technology of natural languages processing,which extracts important information from multiple texts about same topic according to ratio of compression.It can execute data mining of Internet information from the global perspective.In the face of rapid growth of network resources,how to process automatic text summarization accurately and efficiently from mass data source is a main challenge in multi-document summarization.MapReduce is a distributed and parallel computing meth...
Keywords:multi-document automatic summarization  MapReduce  parallel computing
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号