首页 | 本学科首页   官方微博 | 高级检索  
     

长度分布约束下的摘要文本无监督分割算法
引用本文:骆俊帆,陈 黎,于中华,丁革建,罗 谦.长度分布约束下的摘要文本无监督分割算法[J].中文信息学报,2017,31(4):138-144.
作者姓名:骆俊帆  陈 黎  于中华  丁革建  罗 谦
作者单位:1. 四川大学 计算机学院, 四川 成都 610065;
2. 浙江师范大学 数理与信息工程学院, 浙江 金华 321004;
3. 中国民用航空总局第二研究所 信息技术分公司, 四川 成都 610041
基金项目:四川省科技支撑项目(2014GZ0063)
摘    要:作为文章内容的浓缩表达,摘要蕴含着文章关键的发现和结论。自动分析挖掘摘要内容,对于充分利用快速增长的科技文献具有重要意义。该文以Medline生物医学文章的摘要为对象,对摘要的文本分割问题进行了研究。针对摘要各论述侧面(内容块)之间在长度分布上倾向于均匀的特点,提出了一种考虑长度分布约束的摘要文本无监督分割算法,该算法以信息熵作为长度分布均匀性的度量指标,将信息熵与块内语义相似度及块间语义相似度相结合作为优化的目标函数,采用动态规划方法搜索最佳分割点。在8 603篇Medline摘要上对算法进行了实验验证,并与文献中最新的无监督分割算法进行了实验对比。结果表明,该文提出的增加了长度分布约束的分割算法更加适用于摘要文本分割,分割的准确率有3%的提高。

关 键 词:文本分割  无监督  动态规划  生物医学  摘要文本  

A Length Distribution Constrained Text Segmentation for Paper Abstracts
LUO Junfan,CHEN Li,YU Zhonghua,DING Gejian,LUO Qian.A Length Distribution Constrained Text Segmentation for Paper Abstracts[J].Journal of Chinese Information Processing,2017,31(4):138-144.
Authors:LUO Junfan  CHEN Li  YU Zhonghua  DING Gejian  LUO Qian
Affiliation:1. Department of Computer Science, Sichuan University, Chengdu, Sichuan 610065, China;
2. College of Mathematics, Physics and Information Engineering, Zhejiang Normal University, Jinhua, Zhejiang 321004,China;
3. Information Technology Branch, The Second Research Institute, General Administration of Civil Aviation of China, Chengdu, Sichuan 610041,China
Abstract:To deal with the text segmentation for academic paper abstracts, an unsupervised text segmentation algorithm is proposed, which incorporates constraint of the length distribution derived from the preference of length uniformity in different discussion aspects (i.e. content blocks) of an abstract. A metric based on information entropy is introduced to the algorithm to measure the length distribution uniformity, and the object function is designed with further combination of semantic similarities of inter-and intra-content blocks. A standard dynamic programming scheme is employed to determine the best segmentation sequence. Experimented on 8603 abstracts from Medline, the results show an improvement of 3% in accuracy compared with baselines.
Keywords:text segmentation  unsupervised  dynamic programming  biomedical  abstract-text  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号