首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
This research establishes a document summarisation model to generate summaries on the basis of reader requirements. To establish this summarisation model, the document summarisation problem is transformed into a mathematical problem by the analysis of the quality factors for summary and calculation of summary quality indices and constraints of quality factors. The genetic algorithm can be applied to solve the optimisation problem for text summarisation, and the text summary can be generated based on the optimal solution derived via the genetic algorithm.  相似文献   

2.
机器阅读理解要求机器能够理解自然语言文本并回答相关问题,是自然语言处理领域的核心技术,也是自然语言处理领域最具挑战性的任务之一.抽取式机器阅读理解是机器阅读理解任务中一个重要的分支,因其更贴合实际情况,更能够反映机器的理解能力,成为当前学术界和工业界的研究热点.对抽取式机器阅读理解从以下四个方面进行了全面地综述:介绍了...  相似文献   

3.
自动文摘系统中一个关键的问题是找出能构成摘要的重点句子。找出这些句子的方法很多,但用机器学习的方法却较少,该文提出了一种关于文摘句式的自动学习方法。该方法以经过简单的预处理的若干语句为训练样本集,以正例句为基点进行由底向上的泛化学习,抽象出关于句式的一般概念,形成句式规则集,作为判断文中哪些语句可作为文摘句的有效手段。这是文摘系统实现的核心部分。  相似文献   

4.
隐喻在人类语言中普遍存在,是自然语言理解必须面对的问题。该文首先探讨了对隐喻的认识及语言中隐喻表达的分类。把隐喻自动处理分为隐喻识别、隐喻理解和隐喻生成三个子任务,对以往的研究成果进行梳理,着重介绍近几年来隐喻自动处理研究的新成果、新特点。隐喻自动处理离不开隐喻知识库的支持,文章也介绍了国内外隐喻知识库建设的主要成果。隐喻自动处理的目的是为了提高自然语言处理的智能化水平,文章探讨了隐喻处理在自然语言处理任务中的应用。最后展望了汉语隐喻自动处理研究的前景。  相似文献   

5.
机器人自动写作是人工智能和自然语言处理领域重要的研究方向,然而传统的自动写作方法主要针对体育新闻、天气预报等较短的段落级文本进行研究,并没有对篇章级文本自动生成技术进行深入地建模.针对这一问题,我们着重研究面向高考作文的篇章级文本生成任务.具体而言我们提出了一种基于抽取式的高考作文生成模型,即先进行抽取再利用深度学习排序方法进行段落内部的文本组合生成.通过实际专家评测,我们所生成的作文能够达到北京高考二类卷平均分数,具有一定的实际应用价值.  相似文献   

6.
7.
We study the problem of entity salience by proposing the design and implementation of Swat , a system that identifies the salient Wikipedia entities occurring in an input document. Swat consists of several modules that are able to detect and classify on‐the‐fly Wikipedia entities as salient or not, based on a large number of syntactic, semantic, and latent features properly extracted via a supervised process, which has been trained over millions of examples drawn from the New York Times corpus. The validation process is performed through a large experimental assessment, eventually showing that Swat improves known solutions over all publicly available datasets. We release Swat via an API that we describe and comment in the paper to ease its use in other software.  相似文献   

8.
Legal text retrieval traditionally relies upon external knowledge sources such as thesauri and classification schemes, and an accurate indexing of the documents is often manually done. As a result not all legal documents can be effectively retrieved. However a number of current artificial intelligence techniques are promising for legal text retrieval. They sustain the acquisition of knowledge and the knowledge-rich processing of the content of document texts and information need, and of their matching. Currently, techniques for learning information needs, learning concept attributes of texts, information extraction, text classification and clustering, and text summarization need to be studied in legal text retrieval because of their potential for improving retrieval and decreasing the cost of manual indexing. The resulting query and text representations are semantically much richer than a set of key terms. Their use allows for more refined retrieval models in which some reasoning can be applied. This paper gives an overview of the state of the art of these innovativetechniques and their potential for legal text retrieval.  相似文献   

9.
文本摘要成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述。该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集,给出了文本摘要问题的形式化定义。同时,对经典和最新方法在特定数据集上的实验效果进行了分析。最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题。  相似文献   

10.
语义接受度(SAS)是衡量自然语言文本可理解程度的标尺。通过结合自动文摘系统评价方法和文体学分析方法,提出了可用于在线分析英语文学文本SAS的系统评价公式,并通过诺贝尔文学获奖作品《老人与海》的语料分析验证了公式的可适用性:不同的抽取率不会引起评价值的显著差异。尽管存在域的有限性、域的单一性和在线评价相对性等不足,此公式为文学评论者借助网络进行英语文本SAS在线评价提供了便利。  相似文献   

11.
A fundamental issue in natural language processing is the prerequisite of an enormous quantity of preprogrammed knowledge concerning both the language and the domain under examination. Manual acquisition of this knowledge is tedious and error prone. Development of an automated acquisition process would prove invaluable.This paper references and overviews a range of the systems that have been developed in the domain of machine learning and natural language processing. Each system is categorised into either a symbolic or connectionist paradigm, and has its own characteristics and limitations described.  相似文献   

12.
自动文本摘要技术旨在凝练给定文本,以篇幅较短的摘要有效反映出原文核心内容.现阶段,生成型文本摘要技术因能够以更加灵活丰富的词汇对原文进行转述,已成为文本摘要领域的研究热点.然而,现有生成型文本摘要模型在产生摘要语句时涉及对原有词汇的重组与新词的添加,易造成摘要语句不连贯、可读性低.此外,通过传统基于已标注数据的有监督训...  相似文献   

13.
事件抽取是构建知识图谱的关键任务之一,也是当前自然语言处理的研究热点和难点问题。事件抽取研究从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息,对人们认知世界有着深远的意义,在信息检索、智能问答、情感分析等应用场景有着重要的意义和价值。在公开国际测评和语料的推动下,事件抽取研究受到越来越多的学者关注,取得了许多的研究成果。按照事件抽取任务定义,有预先定义结构化的事件表示框架的框架表示事件抽取和通过事件实例中触发词及事件元素进行聚类的实例表示事件抽取。根据事件抽取方法的不同,可以分为基于模式匹配的方法和基于机器学习的方法两大类,中文事件抽取方法还要考虑中文语言特性问题。文中全面介绍了中文事件抽取的任务和方法,并总结展望了未来的发展趋势。  相似文献   

14.
基于篇章多级依存结构的自动文摘研究   总被引:17,自引:0,他引:17       下载免费PDF全文
自动文摘是自然语言处理领域的一项重要的研究内容,其研究目的是探索人类从自然语言篇章中获得取信息,提炼信息的思维机制,并在此基础上开发出能够自动编写文献摘要的软件,从面提高信息检索、传播的效率。  相似文献   

15.
Automatic text summarization (ATS) has achieved impressive performance thanks to recent advances in deep learning (DL) and the availability of large-scale corpora.The key points in ATS are to estimate the salience of information and to generate coherent results.Recently,a variety of DL-based approaches have been developed for better considering these two aspects.However,there is still a lack of comprehensive literature review for DL-based ATS approaches.The aim of this paper is to comprehensively review significant DL-based approaches that have been proposed in the literature with respect to the notion of generic ATS tasks and provide a walk-through of their evolution.We first give an overview of ATS and DL.The comparisons of the datasets are also given,which are commonly used for model training,validation,and evaluation.Then we summarize single-document summarization approaches.After that,an overview of multi-document summarization approaches is given.We further analyze the performance of the popular ATS models on common datasets.Various popular approaches can be employed for different ATS tasks.Finally,we propose potential research directions in this fast-growing field.We hope this exploration can provide new insights into future research of DL-based ATS.  相似文献   

16.
陈可佳  费子阳  陈景强  杨子农 《软件学报》2022,33(12):4668-4687
文本风格迁移是近年来自然语言处理领域的热点问题之一,旨在保留文本内容的基础上通过编辑或生成的方式更改文本的特定风格或属性(如情感、时态和性别等).旨在梳理已有的技术,以推进该方向的研究.首先,给出文本风格迁移问题的定义及其面临的挑战;然后,对已有方法进行分类综述,重点介绍基于无监督学习的文本风格迁移方法并将其进一步分为隐式和显式两类方法,对各类方法在实现机制、优势、局限性和性能等方面进行分析和比较;同时,还通过实验比较了几种代表性方法在风格迁移准确率、文本内容保留和困惑度等自动化评价指标上的性能;最后,对文本风格迁移研究进行总结和展望.  相似文献   

17.
随着Internet技术的发展,人们不仅可以从网络获取信息,也能够在网络上表达个人观点、分享自身体验。自Web2.0以来网络已经由原来的阅读式网络转换成为了当今的交互式网络。而伴随网络发展的是成几何速率增长的网络信息。文本信息是网络信息的重要组成部分,不同文本信息可以分成新闻、娱乐、时评、财经等不同类别。进行中文文本分类不仅能为建立文本语料库提供便利还能够应用到其它数据挖掘领域。论文基于改进TF-IDF特征并结合SVM模型设计了一种自动化的中文文本分类系统。实验证明,对比传统特征提取方式,采用改进TF-IDF特征策略进行文本分类能够获得更高的准确度。  相似文献   

18.
文本分类作为自然语言处理中一个基本任务,在20世纪50年代就已经对其算法进行了研究,现在单标签文本分类算法已经趋向成熟,但是对于多标签文本分类的研究还有很大的提升空间.介绍了多标签文本分类的基本概念以及基本流程,包括数据集获取、文本预处理、模型训练和预测结果.介绍了多标签文本分类的方法.这些方法主要分为两大类:传统机器...  相似文献   

19.
一种基于语义分析的中文特征值提取方法   总被引:3,自引:2,他引:3  
文章根据中文文本的特点,不仅考虑了文本中词汇概率信息,还结合了文本语义等多方面来提取文本特征值,从而提出了一种基于语义分析的中文文本特征值提取方法,并给出了具体算法。通过与传统特征值提取方法的比较试验,证明文中提出的特征值提取方法能有效提高文本分类正确率,并达到有效降低特征向量维数的目的。  相似文献   

20.
文本分类是自然语言处理的一个重要领域.近年来,深度学习的方法被广泛应用于文本分类任务中.在处理大规模的数据时,为了兼顾分类的精度和处理效率,本文使用BERT训练词向量作为嵌入层,进一步优化输入语句的词向量,然后用双层的GRU网络作为主体网络,充分提取文本的上下文特征,最后使用注意力机制,将目标语句重点突出,进行文本分类...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号