首页 | 本学科首页   官方微博 | 高级检索  
     

多文档文摘语义单元自动去噪器的监督学习方法
引用本文:龚书,瞿有利,田盛丰.多文档文摘语义单元自动去噪器的监督学习方法[J].计算机研究与发展,2013,50(4).
作者姓名:龚书  瞿有利  田盛丰
作者单位:北京交通大学计算机与信息技术学院 北京 100044
基金项目:国家自然科学基金项目,中央高校基本科研业务费专项基金项目
摘    要:多文档文摘的处理对象是存在噪音的文档集.现有文摘系统一般使用由人工设定阈值的固定阈值去噪器.但通过实验可见,不同文摘算法本身的抗噪能力各有高低,最优阈值随文档集、文摘算法、文本表示方法而改变,人工设定的固定阈值无法达到较好的通用性和去噪效果.为此,提出一种用于生成自动去噪器的监督学习方法,通过从人工文摘中自动获得标注信息,为语义单元提取多个特征,训练语义单元分类器而构成自动去噪器.可通用于不同文本表示所生成的语义单元,在不同多文档文摘系统的预处理阶段为任意文档集自动去除噪音语义单元.实验表明,该监督学习方法所生成的自动去噪器在不同文档集、文摘算法和文本表示方法下具有通用性,较好的去噪性能使各文摘算法的速度及所提取文摘的质量得到不同程度的提升.

关 键 词:自动去噪  监督学习  多文档文摘  文本表示  预处理

Supervised Learning of an Automatic Noisy Semantic Unit Filter for Multi-Document Summarization
Gong Shu , Qu Youli , Tian Shengfeng.Supervised Learning of an Automatic Noisy Semantic Unit Filter for Multi-Document Summarization[J].Journal of Computer Research and Development,2013,50(4).
Authors:Gong Shu  Qu Youli  Tian Shengfeng
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号