期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

侯圣峦费超群张书涵《中文信息学报》2019,33(7):20-30

修辞结构理论是一种重要的篇章结构理论,其核心是修辞结构关系。该文基于修辞结构理论,结合中文文本特点,提出面向中文的层次化修辞结构关系分类体系及多元定义。同时,针对标注者遇到的歧义问题,提出了无歧义标注方法。为了便于标注,设计并实现了基于Java图形界面的标注工具RSTTagger,该工具以句子的主谓结构关键词构成的元组作为基本标注单位,自底向上逐级标注,最终标注成一棵完整的修辞结构关系树。为验证标注结果的一致性,选取160篇中文外贸领域语料进行标注,不同标注者同时标注其中50篇,标注一致性达到76.63%。该标注框架可以应用到其他领域语料标注中,已标注的160篇语料可以作为篇章结构理论研究的基础语料库。相似文献

2.

文本摘要常用数据集和方法研究综述

侯圣峦张书涵费超群《中文信息学报》2019,33(5):1-16

文本摘要成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述。该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集,给出了文本摘要问题的形式化定义。同时,对经典和最新方法在特定数据集上的实验效果进行了分析。最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题。相似文献

3.

基于无监督学习算法的推特文本规范化

邓加原姬东鸿费超群任亚峰《计算机应用》2016,36(7):1887-1892

推特文本中包含着大量的非标准词,这些非标准词是由人们有意或无意而创造的。对很多自然语言处理的任务而言,预先对推特文本进行规范化处理是很有必要的。针对已有的规范化系统性能较差的问题,提出一种创新的无监督文本规范化系统。首先,使用构造的标准词典来判断当前的推特是否需要标准化。然后,对推特中的非标准词会根据其特征来考虑进行一对一还是一对多规范化;对于需要一对多的非标准词,通过前向和后向搜索算法,计算出所有可能的多词组合。其次,对于多词组合中的非规范化词,基于二部图随机游走和误拼检查,来产生合适的候选。最后,使用基于上下文的语言模型来得到最合适的标准词。所提算法在数据集上获得86.4%的F值,超过当前最好的基于图的随机游走算法10个百分点。相似文献

4.

面向中文电子病历的属性挖掘

费超群张书涵李阳阳《高技术通讯》2022,(6):597-606

电子病历(EMR)的属性挖掘任务旨在从一组同一科室下的病历文本中抽取该科室医学检查项目。传统的频繁项或序列挖掘技术并不能直接用于该任务。本文提出一种新的不需要人工干预的属性挖掘框架,并借助无标注技术来处理这一难题,即将属性挖掘问题形式化为半结构化的频繁子序列挖掘任务,并提出一种有效的算法从电子病历中挖掘候选的词模式。在中文电子病历上进行的各项综合实验,证明了本文提出的方法可以有效处理属性挖掘任务。相似文献

5.

知识图谱平台综述

王传庆李阳阳费超群黄锡昆《计算机应用研究》2022,39(11)

近年来,知识图谱被广泛研究和应用。为了能够更加准确、高效地维护知识图谱的全生命周期,以及对知识图谱进行更多复杂的操作,大量知识图谱平台被设计、开发和应用。而开发者通常是基于他们所拥有的知识图谱而进行设计和开发的,缺少对知识图谱平台整体上的认识以及对应用场景特殊性需求的理解。通过调研当前主流的43个知识图谱平台,分别从知识图谱平台的功能、架构和应用三个角度对其进行系统性地分析和研究,旨在使平台开发和使用人员对知识图谱平台有更深入的认识,进而促进知识图谱平台被高效地开发和使用。相似文献