共查询到17条相似文献,搜索用时 156 毫秒
1.
基于Penn Discourse TreeBank(简称PDTB)语料中的隐式篇章关系类型,提出一种无指导的识别方法。主要依据显式与隐式平行论元对之间的映射关系实现显式到隐式关系的推理,即利用显式论元对的篇章关系,推理与之平行的隐式论元对的篇章关系。推理过程主要包括:基于大规模语料库以及基于搜索引擎的平行语料挖掘,平行语料中显式连接词映射到篇章关系过程的消歧。与传统基于监督学习的分类方法相比,基于统计的无指导方法在隐式篇章关系推理的性能上获得显著提升,识别精确率提高了近15.6%。此外,在分析比较各研究方法的同时,指出目前隐式篇章关系推理研究所面临的主要困难与挑战。 相似文献
2.
篇章是论元经过语义关联和结构化组织形成的自然语言文体.篇章分析研究的核心任务之一是解释论元的语义关系,其中,显式关系因具有直观线索而易于检测,目前检测精度高达90%;相对而言,隐式关系因缺乏直观线索而难于检测,目前精度仅约40%.针对这一问题,基于一种"论元平行则关系平行"的假设,并利用显式篇章关系易于检测的特点,通过平行论元的识别与平行关系的消歧,实现了一种显式关系平行推理隐式关系的隐式篇章关系检测方法.利用标准宾州篇章关系树库(Penn discourse Tree Bank,简称PDTB)对这一检测方法进行评测,结果显示,精确率提升达17.26%. 相似文献
3.
篇章关系识别是篇章分析的核心组成部分。汉语中,缺少显式连接词的隐式篇章关系占比很高,篇章关系识别更具挑战性。该文给出了一个基于多层局部推理的汉语篇章关系及主次联合识别方法。该方法借助双向LSTM和多头自注意力机制进行篇章关系对应论元的表征;进一步借助软对齐方式获取论元间局部语义的推理权重,形成论元间交互语义信息的表征;再将两类信息结合进行篇章关系的局部推理,并通过堆叠多层局部推理部件构建了汉语篇章关系及主次联合识别框架,在CDTB语料库上的关系识别F1值达到了67.0%。该文进一步将该联合识别模块嵌入一个基于转移的篇章解析器,在自动生成的篇章结构下进行篇章关系及主次的联合分析,形成了完整的汉语篇章解析器。 相似文献
4.
5.
基于联合权重的多文档关键词抽取技术 总被引:2,自引:0,他引:2
该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×Proportional Document Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词。该方法综合考虑了词语的频率,词性以及词语之间的语义相似性等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高3%,召回率提高7%,F-measure提高4.4%。 相似文献
6.
篇章关系分析是一种专门针对篇章语义关系及修辞结构进行分析与处理的自然语言理解任务。隐式篇章关系分析是其中重要的研究子任务,要求在显式关联线索缺失的情况下,自动检测特定论元对之间的语义关系类别。目前,隐式篇章关系分析性能较低,主流检测方法的准确率仅约为40%。造成这一现状的主要原因是: 现有方法脱离论元的语义框架进行关系分析与检测,仅仅局限于特定论元特征的关联分析。针对这一问题,该文提出一种基于框架语义的隐式篇章关系推理方法,这一方法有效利用了框架语义知识库(即FrameNet)和相关识别技术,实现了论元语义框架的自动识别,并在此基础上,借助大规模文本数据中框架语义关联关系的分布概率,进行论元语义一级的关系判定。实验结果显示,仅仅利用第一层框架语义知识,即可提高隐式篇章关系检测性能至少5.14%;同时,在考虑关系类别平衡性的情况下,这一方法能提高至少10.68%。 相似文献
7.
隐式篇章关系分类主要任务是在显式关联线索缺失的情况下,自动检测特定论元之间的语义关系类别。前人研究显示,语言学特征能够有效辅助隐式篇章关系的分类。目前,主流检测方法由于缺少足够的已标注隐式训练样本,导致分类器无法准确学习各种分类特征,分类精确率仅约为40%。针对这一问题,该文提出一种基于训练样本集扩展的隐式篇章关系分类方法。该方法首先借助论元向量,以原始训练样本集为种子实例,从外部数据资源中挖掘与其在语义以及关系上一致的“平行训练样本集”;然后将“平行训练样本集”加入原始训练样本集中,形成扩展的训练样本集;最后基于扩展的训练样本集,实现隐式篇章关系的分类。该文在宾州篇章树库(Penn Discourse Treebank, PDTB)上对扩展的训练样本集进行评测,结果显示,相较于原始训练样本集,使用扩展的训练样本集的实验系统整体性能提升8.41%,在四种篇章关系类别上的平均性能提升5.42%。与现有主流分类方法性能对比,识别精确率提升6.36%。
相似文献
相似文献
8.
篇章关系分为显式和隐式两种。显式关系的显著特征是篇章的基本单元之间存在显式连接词。针对汉语显式篇章关系,构建了包括汉语连接词识别和篇章关系分类的显式篇章关系分析平台。该文选取汉语宾州树库(Chinese Penn Treebank, CTB)中的500篇文本进行了汉语显式篇章关系标注;结合连接词的中心词,采用最大熵分类器构建了汉语连接词识别模块,其性能F1值达到了66.79%;基于连接词及其词性等上下文特征,构建了篇章关系分类器,其在最顶层4大类语义关系上的分类性能的F1值为91.92%。 相似文献
9.
功能连接词是一种直接表述篇章单元内部语义关系、结构特性和语境发展趋势的词特征。借助功能连接词的这一优势,该文提出一种基于功能连接词的隐式篇章关系推理方法。该方法首先挖掘词级与短语级的功能连接词,划分功能连接词的篇章关系类别;其次,为每个功能连接词构建概念模型,借以描述由功能连接词连接的论元属性,并建立论元概念与篇章关系的映射体系;最后,利用统计策略识别待测论元的概念模型,并借助“概念—关系”映射体系,实现隐式篇章语义关系推理。实验结果显示,该文基于功能连接词构建概念模型的推理方法,相较于现有的基于监督学习的分类方法,系统性能获得显著提升。 相似文献
10.
隐式篇章关系识别是自然语言处理中一项富有挑战性的任务,旨在判断缺少连接词的两个论元(子句或者句子)之间的语义关系(例如转折)。近年来,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的隐式篇章关系识别方法取得了不错的效果,其性能全面超越了早期基于人工特征的方法。文中分三大类对最近的隐式篇章关系识别方法进行讨论:基于论元编码的方法、基于论元交互的方法和引入显式篇章数据的半监督方法。在PDTB数据集上的实验结果显示:1)通过显式地建模论元中词或文本片段之间的语义关系,基于论元交互的方法的性能明显好于基于论元编码的方法;2)引入显式篇章数据的半监督方法能有效地缓解数据稀疏问题,从而进一步提升识别的性能。最后,分析了当前面临的主要问题,并指出了未来可能的研究方向。 相似文献
11.
Changxing Wu Xiaodong Shi Jinsong Su Yidong Chen Yanzhou Huang 《Neural Processing Letters》2017,46(1):233-250
Implicit discourse relation recognition aims to discover the semantic relation between two sentences where the discourse connective is absent. Due to the lack of labeled data, previous work tries to generate additional training data automatically by removing discourse connectives from explicit discourse relation instances. However, using these artificial data indiscriminately has been proven to degrade the performance of implicit discourse relation recognition. To address this problem, we propose a co-training approach based on manual features and distributed features, which identifies useful instances from these artificial data to enlarge the labeled data. In addition, the distributed features are learned via recursive autoencoder based approaches, capable of capturing to some extent the semantics of sentences which is valuable for implicit discourse relation recognition. Experiment results on both the PDTB and CDTB data sets indicate that: (1) The learned distributed features are complementary to the manual features, and thus suitable for co-training. (2) Our proposed co-training approach can use these artificial data effectively, and significantly outperforms the baselines. 相似文献
12.
13.
14.
隐式篇章关系识别是篇章关系识别的子任务,其挑战性在于难以学习到具有丰富语义信息和交互信息的论元表示。针对这一难点,该文提出一种基于图卷积神经网络(Graph Convolutional Network,GCN)的隐式篇章关系分类方法。该方法采用预训练语言模型BERT(Bidirectional Encoder Representation from Transformers)编码论元以获取论元表示,再分别拼接论元表示和注意力分数矩阵作为特征矩阵和邻接矩阵,构造基于图卷积神经网络的分类模型,从而根据论元自身信息以及交互信息对论元表示进行调整,以得到有助于隐式篇章关系识别的论元表示。该文利用宾州篇章树库(Penn Discourse Treebank,PDTB)语料进行实验,实验结果表明,该方法在四大类关系上分类性能优于基准模型BERT,且其在偶然(Contingency)关系和扩展(Expansion)关系上优于目前先进模型,F1值分别达到60.70%和74.49%。 相似文献
15.
隐式篇章关系识别是在缺少显式连接词的条件下,自动判定论元之间的语义关系。其挑战性在于现有训练数据的规模较小,其蕴含的语义多样性也相对有限。针对上述问题,该文利用掩码语言模型架构建立篇章关系分类模型。其动因包括: ①掩码语言模型在自监督学习过程中具备局部的语言生成能力,即在理解上下文语义的基础上“重构掩码区域语义表示”的能力; ②掩码重构形成了数据增强(潜在的自动数据扩展)的效果,有助于提高篇章关系分类模型的鲁棒性。特别地,该文提出一种基于交互注意力的掩码语言模型,该方法计算论元之间的交互注意力矩阵,并依赖交互注意力动态选择论元之间高关联性的关键词项进行遮蔽、掩码重构,从而形成更有针对性的数据增强(非关键信息的数据增强对关系分类影响不大)。该文利用宾州篇章树库语料进行实验。实验结果表明,相较于基准系统,我们提出的方法的F1值在四大类关系(对比关系、偶然性关系、扩展关系和时序关系)上分别提高了3.21%、6.46%、2.74%和6.56%。 相似文献
16.
Dazhen Lin Shaozi Li Donglin Cao 《Soft Computing - A Fusion of Foundations, Methodologies and Applications》2010,14(12):1317-1327
More and more people use blogs to write down their ideas, opinions and individual thoughts. Mining blogs will obtain useful
information, which can support business policy and decision-making, especially in analyzing product popularity. In this study,
we mine the features of persons as implicit relations between the content of the bloggers’ posts and the bloggers. These kinds
of implicit relations, which are also semantic relations, is called the Blogger Role. To mine this semantic relation, Wordnet
is used to extract the Blogger Role and the features of Blogger Role. To get an appropriate Blogger Role, we cluster all bloggers’
posts and use the clustering result to revise the Blogger Role obtained by single document analysis. To get more relevant
retrieval results, we combine this implicit relation with the classical retrieval model by the Blogger Role-based model. The
combination is performed by the explicit model and implicit model. Results of experiments on TREC corpus show that Blogger
Role reveals bloggers’ characters and mining Blogger Roles is useful in analyzing the popularity of products. 相似文献
17.
Yu HONG Siyuan DING Yang XU Xiaoxia JIANG Yu WANG Jianmin YAO Qiaoming ZHU Guodong ZHOU 《Frontiers of Computer Science》2019,13(6):1266
We study implicit discourse relation detection, which is one of the most challenging tasks in the field of discourse analysis. We specialize in ambiguous implicit discourse relation, which is an imperceptible linguistic phenomenon and therefore difficult to identify and eliminate. In this paper, we first create a novel task named implicit discourse relation disambiguation (IDRD). Second, we propose a focus-sensitive relation disambiguation model that affirms a truly-correct relation when it is triggered by focal sentence constituents. In addition, we specifically develop a topicdriven focus identification method and a relation search system (RSS) to support the relation disambiguation. Finally, we improve current relation detection systems by using the disambiguation model. Experiments on the penn discourse treebank (PDTB) show promising improvements. 相似文献