首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
句子排序是多文档摘要系统中重要的任务之一,排序的质量将直接影响摘要的连贯性与可读性。当前基于时间的句子排序算法过度依赖文档的时间标签,通用性较差;基于大型语料库的句子排序算法训练过于复杂,排序质量不高。对此,提出一种基于主题文档集合的排序算法,其目的是解决不含时间标签的摘要句子排序问题。算法利用条件熵和上下文邻近度算法从源文档集合中学习句子对的关联程度与承接关系,并利用最大权值删减排序算法形成最终的排序结果。本方法只依赖于摘要句子的源文档集合,具有较强的领域通用性。实验结果表明,在现有的句子排序策略中,此方法具有较大提高。  相似文献   

2.
抽象辩论框架中的优先语义是判断争议可接受程度的最重要语义。现有优先扩充求解方法多用标记映射求解,依赖于标记的定义、转换规则、相邻争议的标记。算法每次迭代会产生一个新的抽象辩论框架导致时间、空间复杂度较高。提出一种基于动态规划的优先扩充算法,在动态规划中加入争议可接受性判断,求出辩论框架中极大可容许集得到优先扩充。在基于随机抽象辩论框架与ICCMA提供的数据集进行实验,同Heureka、ArgSemSAT等算法进行对比。结果表明,求解相同数量的优先扩充,算法耗时较少,时间、空间复杂度有所降低。  相似文献   

3.
从文档集合的语义结构理解文档集合可以提高多文档摘要的质量。本文通过抽取中文多文档摘要文档集中的主-述-宾三元组结构构建文档语义图,再对语义图中的节点利用编辑距离进行语义聚类,并应用Page-Rank排序算法对语义图进行权重计算后,选取包含权重较高的节点及链接关系的三元组生成文档集合的多文档摘要。在摘要的评测阶段,将基于句子抽取的多文档摘要结果和基于文档语义图生成的多文档摘要分别与由评测员人工生成的摘要进行ROUGE相关度评测,并对利用编辑距离对语义图进行语义聚类前后的结果进行了比较。实验结果表明,基于文档语义图生成的多文档摘要与人工生成的摘要结果重叠度更高,而利用编辑距离对语义图进行聚类则进一步改进了摘要的质量。  相似文献   

4.
针对基于图的多文档摘要,该文提出了一种在图排序中结合维基百科实体信息增强摘要质量的方法。首先抽取文档集合中高频实体的维基词条内容作为该文档集合的背景知识,然后采用PageRank算法对文档集合中的句子进行排序,之后采用改进的DivRank算法对文档集合和背景知识中的句子一起排序,最后根据两次排序结果的线性组合确定文档句子的最终排序以进行摘要句的选取。在DUC2005数据集上的评测结果表明该方法可以有效利用维基百科知识增强摘要的质量。  相似文献   

5.
姜克鑫  赵亚慧  崔荣一 《计算机应用研究》2022,39(4):1060-1063+1098
针对目前自然语言句子匹配方法未能融合公共语义信息以及难以捕获深层次语义信息的问题,提出了一种融合高低层语义信息的自然语言句子匹配算法。该算法首先采用预训练词向量GloVe和字符级别的词向量获取句子P和句子Q的词嵌入表示;其次,使用双向LSTM(long-short term memory)对P和Q进行编码,再初步融合P和Q获取低层语义信息;然后,计算P与Q的双向注意力,拼接得到语义表征,再计算其自注意力获取高层语义信息;最后,采用启发式的融合函数将低层语义信息和高层语义信息进行融合,得到最终的语义表征,使用卷积神经网络预测得到答案。在文本蕴涵识别和释义识别两个任务上评估了该模型。在文本蕴涵识别任务SNLI数据集和释义识别任务Quora数据集上进行了实验,实验结果表明该算法在SNLI测试集上的准确率为87.1%,在Quora测试集上的准确率为86.8%,验证了算法在自然语言句子匹配任务上的有效性。  相似文献   

6.
该文对基于语义解析的中文地理信息系统(GIS)自然语言接口实现技术与方法进行了探索性的研究。首先,我们针对一个具体GIS应用领域设计和开发了一种函数式的形式化意义表示语言GISQL和一个中文语义解析标注语料库;然后,我们通过引入混合树作为隐变量用于构造输入句子与输出表示结构之间的对应关系,提出了一种基于含隐变量的感知器模型的语义解析算法。在开发的中文语义解析标注语料库上的实验结果显示,该文提出的语义解析算法的F1值达到了90.67%,明显优于baseline系统。更重要的是,该文的研究证明了基于语义解析方法实现中文GIS的自然语言接口是一种有效可行的途径。  相似文献   

7.
王忠林 《计算机科学》2011,38(8):239-241,274
句子语义距离计算是许多智能系统的一项基础技术。基于多尺度分析思想,提出一个多级语义距离计算方法。首先通过词汇级语义距离算法对句子对进行初步过滤,然后对于语义距离小于一定阂值的例子进行语法分析、语义分析;获得标准语义分析框架之后,再次对框架中的中心概念进行比较,最后对通过二级筛选的句子对使用基于动态权重的语义同构算法进行计算,得到最终的语义距离。最后通过实验验证,该方法总精度达到73.3%,对相关度比较高的情况,到达和基于语义级算法相近的91. 4%。  相似文献   

8.
方萍 《计算机应用研究》2021,38(9):2657-2661
近年的自动摘要算法大多是基于监督学习机制,没有考虑到人工标记语料的烦琐,并且大多数摘要模型在句子嵌入时不能结合上下文来更充分表达语义信息,忽略了文本的整体信息.针对上述问题提出了一种基于改进的BERT双向预训练语言模型与图排序算法结合的抽取式摘要模型.根据句子的位置以及上下文信息将句子映射为结构化的句子向量,再结合图排序算法选取影响程度靠前的句子组成临时摘要;为了避免得到有较高冗余度的摘要,对得到的临时摘要进行冗余消除.实验结果表明在公用数据集CNN/DailyMaily上,所提模型能够提高摘要的得分,相对于其他改进的基于图排序摘要抽取算法,该方法效果更佳.  相似文献   

9.
本文介绍和分析了主观题自动评分的国内外研究现状,在基于模糊数学中贴近度理论和单向贴近度字符串匹配方法的基础上,结合动态规划算法思想,设计并实现了基于语义脉络的自动评分算法。该算法以句子作为基本语义单元,将标准答案分解为代表得分点的词串,并为这些词串加入同义词链去匹配学生答案语句,使语义表达更加完善和准确;同时利用动态规划算法使匹配按照词的顺序进行,避免仅仅按照字的出现次数匹配所造成的机械式匹配错误;最后根据文本中句子与关键词的匹配程度给出得分。在给出基本算法的主要思想以及程序流程图的基础上,结合实例分析证明了该算法的可行性。  相似文献   

10.
使数据库自然语言接口(NLIDB)能够处理灵活多变的查询语句,增强NLIDB的可用性,是NLIDB研究的一个重要目标.设计并实现了一种数据库汉语查询接口.该查询接口采用语义依存树作为查询语句向SQL转化的中问语言,在构建了基于Nivre算法的语义依存树生成模型的基础上,提出了解决数据库语义歧义问题的方法以及一种新的将语义依存树划分为集合块的划分策略及其向SQL语句的转化方法.实验表明,该系统能够有效地处理各种形式的查询问句,具有良好的可用性.  相似文献   

11.
面向特定领域的理解型中文自动文摘系统   总被引:8,自引:0,他引:8  
自动文摘是计算机通信网提供智能业务的关键技术之一.介绍了一个面向特定领域-神经网络学习算法的理解型中文自动文摘系统.与其他文摘系统相比,该系统首次采用了基于全信息模型的自然语言理解理论,通过设计义块组配的方法避开了传统的语法语义分析系统所遇到的各种难题,并通过语用信息制导,将语句理解与文摘信息提取直接相连,大大提高了理解的效率和文摘生成的速度.测试结果表明该系统的整套方法是行之有效的.  相似文献   

12.
基于汉语自然语言信息查询的计算机理解实现   总被引:7,自引:0,他引:7  
刘忠  王成道 《计算机应用》2004,24(1):8-10,13
文中根据汉语的二层语义分析结构。深层语义结构-语意指向,表层语义结构-语义指向:针对四种汉语疑问句型进行具体分析其在计算机理解实现中的理论方法和规则;在进行正确的汉语词汇切分之后;根据语意指向与语义指向建立起各词汇的本体言语和本体行为标注,进行组合词汇生成符合语意的短语,再进行本体行为转化为本体言语的研究,归结为专业数据库的语义;最后通过实验系统得以验证。  相似文献   

13.
刘广灿  曹宇  许家铭  徐波 《自动化学报》2019,45(8):1455-1463
目前自然语言推理(Natural language inference,NLI)模型存在严重依赖词信息进行推理的现象.虽然词相关的判别信息在推理中占有重要的地位,但是推理模型更应该去关注连续文本的内在含义和语言的表达,通过整体把握句子含义进行推理,而不是仅仅根据个别词之间的对立或相似关系进行浅层推理.另外,传统有监督学习方法使得模型过分依赖于训练集的语言先验,而缺乏对语言逻辑的理解.为了显式地强调句子序列编码学习的重要性,并降低语言偏置的影响,本文提出一种基于对抗正则化的自然语言推理方法.该方法首先引入一个基于词编码的推理模型,该模型以标准推理模型中的词编码作为输入,并且只有利用语言偏置才能推理成功;再通过两个模型间的对抗训练,避免标准推理模型过多依赖语言偏置.在SNLI和Breaking-NLI两个公开的标准数据集上进行实验,该方法在SNLI数据集已有的基于句子嵌入的推理模型中达到最佳性能,在测试集上取得了87.60%的准确率;并且在Breaking-NLI数据集上也取得了目前公开的最佳结果.  相似文献   

14.
用于管理信息系统检索的自然语言接口模型   总被引:3,自引:0,他引:3  
本文提出了一种适用于管理信息系统中关系数据库查询的自然语言接口模型。该模型具有简单实用的特点,它既能理解用户以中,英文自然语言描述的检索要求,也能直接接受数据库操作命令,从而可以满足不同水平用户的要求。文章介绍了该模型的基本原理,算法及特点。  相似文献   

15.
Atomic transactions are a widely-accepted technique for organizing computation in fault-tolerant distributed systems. In most languages and systems based on transactions, atomicity is implemented through atomic objects, typed data objects that provide their own synchronization and recovery. Hence, atomicity is the key correctness condition required of a data type implementation. This paper presents a technique for verifying the correctness of implementations of atomic data types. The significant aspect of this technique is the extension of Hoare's abstraction function to map to a set of sequences of abstract operations, not just to a single abstract value. We give an example of a proof for an atomic queue implemented in the programming language Avalon/C++.  相似文献   

16.
从语言深度感知设计了一种汉语作文自动阅卷评分算法,抽象出语感特征的计算模型以模拟人类对自然语言的评价标准,弥补了早期作文自动阅卷中的机械统计式自然语言处理技术的不足。采用AC自动机对语感支撑要素,即作文作者的个人语言素材,进行快速分析。利用文本分词和主干提取等技术实现了对诸如句子流畅度等语句级评价,并将待评测作文的上下文结构与标准作文框架进行相似性比对,从而在作文自动评分系统中建立对作者语言运用能力的综合评价。实验结果表明,该算法增强了自动评分的语言能力评定的合理性,也更加贴切与专家校准后的人工评分样本。  相似文献   

17.
One of the primary motivations of text generation is the achievement of a very wide range of linguistic abilities coupled with functional control of that range. This control rests on the appropriate construction of abstract specifications of meaning that can guide the generation process to produce language that is textually, grammatically, and lexically appropriate. Such abstract semantic specifications, when constructed in the right way, preserve much of the meaning required in a translation without unduly constraining syntactic form. This is potentially of great value for machine translation since it opens up the possibility of domain-independent, constrained, meaning-based translation. This paper describes how the upper model of the PENMAN text generation system provides a level of semantic abstraction of this kind. It offers examples of the motivation of broader sets of likely translational equivalents than that possible with transfers at lower-levels of abstraction and sets out types of constraints by which the set of likely translational equivalents may be reduced to high-quality renderings of the source text.  相似文献   

18.

Natural language processing techniques contribute more and more in analyzing legal documents recently, which supports the implementation of laws and rules using computers. Previous approaches in representing a legal sentence often based on logical patterns that illustrate the relations between concepts in the sentence, often consist of multiple words. Those representations cause the lack of semantic information at the word level. In our work, we aim to tackle such shortcomings by representing legal texts in the form of abstract meaning representation (AMR), a graph-based semantic representation that gains lots of polarity in NLP community recently. We present our study in AMR Parsing (producing AMR from natural language) and AMR-to-text Generation (producing natural language from AMR) specifically for legal domain. We also introduce JCivilCode, a human-annotated legal AMR dataset which was created and verified by a group of linguistic and legal experts. We conduct an empirical evaluation of various approaches in parsing and generating AMR on our own dataset and show the current challenges. Based on our observation, we propose our domain adaptation method applying in the training phase and decoding phase of a neural AMR-to-text generation model. Our method improves the quality of text generated from AMR graph compared to the baseline model. (This work is extended from our two previous papers: “An Empirical Evaluation of AMR Parsing for Legal Documents”, published in the Twelfth International Workshop on Juris-informatics (JURISIN) 2018; and “Legal Text Generation from Abstract Meaning Representation”, published in the 32nd International Conference on Legal Knowledge and Information Systems (JURIX) 2019.).

  相似文献   

19.
该文提出了一种结合依存句法分析和深度神经网络的自动句子填空技术。首先,提出了一种依存句法信息展开的序列建模方案,可以在引入句法信息的同时兼顾效率,并在此基础上利用排序学习思想,训练候选答案排序模型;其次,针对整体序列建模的细节建模失准问题,提出了一种基于语言模型多状态信息融合的自动句子填空模型;最后,设计了一种结合序列表示、依存句法信息、多状态信息的多源信息融合模型。该文还构建出一个英文答题数据集并据此进行了实验。实验结果表明,依存句法展开模型相对于常用的序列建模方案,准确率有11%的绝对提升;语言模型状态排序模型相对于基线模型,准确率有9.3%的绝对提升;最终的多源信息融合模型,在测试集上获得最高76.9%的准确率。  相似文献   

20.
针对自然语言处理(NLP)生成式自动摘要领域的语义理解不充分、摘要语句不通顺和摘要准确度不够高的问题,提出了一种新的生成式自动摘要解决方案,包括一种改进的词向量生成技术和一个生成式自动摘要模型。改进的词向量生成技术以Skip-Gram方法生成的词向量为基础,结合摘要的特点,引入词性、词频和逆文本频率三个词特征,有效地提高了词语的理解;而提出的Bi-MulRnn+生成式自动摘要模型以序列映射(seq2seq)与自编码器结构为基础,引入注意力机制、门控循环单元(GRU)结构、双向循环神经网络(BiRnn)、多层循环神经网络(MultiRnn)和集束搜索,提高了生成式摘要准确性与语句流畅度。基于大规模中文短文本摘要(LCSTS)数据集的实验结果表明,该方案能够有效地解决短文本生成式摘要问题,并在Rouge标准评价体系中表现良好,提高了摘要准确性与语句流畅度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号