首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 71 毫秒
1.
自动文摘系统中一个关键的问题是找出能构成摘要的重点句子。找出这些句子的方法很多,但用机器学习的方法却较少,该文提出了一种关于文摘句式的自动学习方法。该方法以经过简单的预自理的若干语句为产本集,以正例句为基 进行由底向上的泛化学习,抽象出关于句式的一般概念,形成句式规则集,作为判断文中哪 些语句可作为句的有效手段,这是文摘系统实现的核心部分。  相似文献   

2.
提出一种基于主题词集的文本自动文摘方法,用于自动提取文档文摘.该方法根据提取到的主题词集,由主题词权重进行加权计算各主题词所在的句子权重,从而得出主题词集对应的每个句子的总权重,再根据自动文摘比例选取句子权重较大的几个句子,最后按原文顺序输出文摘.实验在哈工大信息检索研究室单文档自动文摘语料库上进行,使用内部评测自动评...  相似文献   

3.
浅层狄利赫雷分配(Latent Dirichlet Allocation,LDA)方法近年来被广泛应用于文本聚类、分类、段落切分等等,并且也有人将其应用于基于提问的无监督的多文档自动摘要。该方法被认为能较好地对文本进行浅层语义建模。该文在前人工作基础上提出了基于LDA的条件随机场(Conditional Random Field, CRF)自动文摘(LCAS)方法,研究了LDA在有监督的单文档自动文摘中的作用,提出了将LDA提取的主题(Topic)作为特征加入CRF模型中进行训练的方法,并分析研究了在不同Topic下LDA对摘要结果的影响。实验结果表明,加入LDA特征后,能够有效地提高以传统特征为输入的CRF文摘系统的质量。  相似文献   

4.
一种主题句发现的中文自动文摘研究   总被引:1,自引:0,他引:1       下载免费PDF全文
王萌  李春贵  唐培和  王晓荣 《计算机工程》2007,33(8):180-181,189
提出了一种基于主题句发现的中文自动文摘方法。该方法使用术语代替传统的词语作为最小语义单位,采用术语长度术语频率方法进行术语权重计算,获得特征词。利用一种改进的k-means聚类算法进行句子聚类,根据聚类结果进行主题句发现。实验表明,该算法所得到的文摘,在各项指标上优于传统的文摘。  相似文献   

5.
一种新的自动文摘系统评价方法   总被引:1,自引:1,他引:0  
系统评价是自然语言处理系统中一个非常重要的环节。论文提出了一种新的评价方法(F-new-measure),并应用于文本自动摘要中。其创新之处在于评价中不仅考虑了文摘的精确率、召回率,还考虑了文摘压缩率。实验表明常用的评价方法在不同压缩率情况下,评价值是不稳定的,而论文提出的评价方法的评价值则相对稳定。  相似文献   

6.
自动文摘评价方法综述   总被引:1,自引:0,他引:1  
评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘评价方法的关键技术;最后对自动文摘评价方法未来的发展趋势进行了展望。  相似文献   

7.
基于篇章多级依存结构的自动文摘研究   总被引:17,自引:0,他引:17  
自动文摘是自然语言处理领域的一项重要的研究内容,其研究目的是探索人类从自然语言篇章中获得取信息,提炼信息的思维机制,并在此基础上开发出能够自动编写文献摘要的软件,从面提高信息检索、传播的效率。  相似文献   

8.
一种基于文章主题和内容的自动摘要方法   总被引:8,自引:0,他引:8  
文章介绍了一种新的使用自然语言处理技术的自动系统。通过融合基于内容的方法和基于主题的方法,将主题与内容相结合,生成具有良好连贯性和流畅性的。该方法首先对主题词进行分析,动态地处理具有抽象标题和具体标题的文档;然后采用词汇、语法、语义分析等自然语言处理技术,对文章的文本内容进行深入分析;再根据线性加权融合两种分析得到的结果,生成;最后采用指代消解技术使生成的更连贯流畅。与仅基于内容的自动文摘系统相比较,评测结果显示,该系统生成的质量有明显提高。  相似文献   

9.
多文档文摘技术能帮助用户减少不必要的阅读时间,有广阔的应用前景。该文以新闻报道为处理对象,以MMR(Maximal Marginal Relevance)文摘提取算法为基础,针对目前新闻报道往往以专题形式组织展现的特点,提出了一种基于话题的多文档文摘方法。这种方法以话题关键字为打分依据,同时考虑句子位置特征等信息对句子的重要性进行评分。 该文利用TDT4的新闻报道语料对上述文摘方法进行了试验评价,将基于话题的文摘系统和两个Baseline文摘系统进行比较,取得了较好的实验结果,尤其在5%的压缩比例下有明显优势。  相似文献   

10.
自动文摘基集语句的提取与润色的数学模型   总被引:1,自引:0,他引:1  
针对统计和理解相结合的自动文摘方法,提出了一种新的内容词、有效词和特征词的动态加权函数以及句子重要性的动态加权函数.鉴于基于统计的自动文摘结果常常出现语句间缺乏连贯性及信息冗余的问题,设计了句间语义距离测试函数,并通过大量实验确定语句间语义距离的上限和下限.上限用于控制语句间的逻辑联系,下限用于解决文摘结果信息冗余的问题.实验结果证明,该模型能有效地提取文章中的重点语句,且很好地解决了统计文摘语句不连冠的瓶颈问题.  相似文献   

11.
自动文摘是指利用计算机自动对文本编制摘要,是自然语言理解的重要应用领域之一。限于相关领域的已有水平,现阶段的自动文摘系统多数是以词语频率作为依据,以词频高的词语作为文章的关键词语,得到的文摘往往与原文中心思想相差甚远,因此,需要对文章的语法、语义和语境进行分析。本文利用HowNet得到词语概念的方法,建立基于概念的自动文摘系统。  相似文献   

12.
中文自动文摘原理与方法探索   总被引:16,自引:2,他引:16  
本文首先介绍了自动文摘的研究情况及存在问题,然后给出了计算机自动文摘的一般模型,最后介绍了我们所研究的两种自动文摘的原理和方法,及其实验结果。  相似文献   

13.
传统的图像语义句子标注是利用句子模板完成对图像内容描述,但其标注句子很难做到符合语言逻辑。针对这一问题,提出基于统计思想从语料库中选出一条最优的句子来描述图像内容,设计以[N]-gram算法为主要思想的Sentence-Rank算法生成标注句子。首先执行机器视觉特征学习,选择标注性能最好的HSV-LBP-HOG融合特征完成图像分类,获得图像标注关键词。然后,利用字符串匹配算法从语料库中列出包含所有标注关键词的句子,并将得到的句子通过Sentence-Rank算法进行价值排序,选取评分最高的句子描述图像。实验结果表明,该方法得到的标注句子具有较低的困惑度,较好地解决了句子的语言逻辑问题。  相似文献   

14.
基于机器学习的网页主题词自动抽取   总被引:2,自引:0,他引:2  
主题词在信息处理和信息检索过程中有广泛的用途,然而大量网页没有主题词,手工抽取主题词是一个繁重的过程,可以将主题词自动抽取看作是分类问题,充分利用网页的结构信息并且使用有监督的机器学习方法来自动地抽取网页中的主题词,试验结果表明该算法具有实用的价值。  相似文献   

15.
隐喻在人类语言中普遍存在,是自然语言理解必须面对的问题。该文首先探讨了对隐喻的认识及语言中隐喻表达的分类。把隐喻自动处理分为隐喻识别、隐喻理解和隐喻生成三个子任务,对以往的研究成果进行梳理,着重介绍近几年来隐喻自动处理研究的新成果、新特点。隐喻自动处理离不开隐喻知识库的支持,文章也介绍了国内外隐喻知识库建设的主要成果。隐喻自动处理的目的是为了提高自然语言处理的智能化水平,文章探讨了隐喻处理在自然语言处理任务中的应用。最后展望了汉语隐喻自动处理研究的前景。  相似文献   

16.
Sentiment Analysis (SA) is one of the subfields in Natural Language Processing (NLP) which focuses on identification and extraction of opinions that exist in the text provided across reviews, social media, blogs, news, and so on. SA has the ability to handle the drastically-increasing unstructured text by transforming them into structured data with the help of NLP and open source tools. The current research work designs a novel Modified Red Deer Algorithm (MRDA) Extreme Learning Machine Sparse Autoencoder (ELMSAE) model for SA and classification. The proposed MRDA-ELMSAE technique initially performs preprocessing to transform the data into a compatible format. Moreover, TF-IDF vectorizer is employed in the extraction of features while ELMSAE model is applied in the classification of sentiments. Furthermore, optimal parameter tuning is done for ELMSAE model using MRDA technique. A wide range of simulation analyses was carried out and results from comparative analysis establish the enhanced efficiency of MRDA-ELMSAE technique against other recent techniques.  相似文献   

17.
数据库系统经过近50年的发展,虽然已经普遍商用,但随着大数据时代的到来,数据库系统在2个方面面临挑战.首先数据量持续增大期望单个查询任务具有更快的处理速度;其次查询负载的快速变化及其多样性使得基于DBA经验的数据库配置和查询优化偏好不能实时地调整为最佳运行时状态.而数据库系统的性能优化进入瓶颈期,优化空间收窄,进一步优化只能依托新的硬件加速器来实现,传统的数据库系统不能够有效利用现代的硬件加速器;数据库系统具有成百个可调参数,面对工作负载频繁变化,大量繁琐的参数配置已经超出DBA的能力,这使得数据库系统面对快速而又多样性的变化缺乏实时响应能力.当下机器学习技术恰好同时符合这2个条件:应用现代加速器以及从众多参数调节经验中学习.机器学习化数据库系统将机器学习技术引入到数据库系统设计中.一方面将顺序扫描转化为计算模型,从而能够利用现代硬件加速平台;另一方面将DBA的经验转化为预测模型,从而使得数据库系统更加智能地动态适应工作负载的快速多样性变化.将对机器学习化数据库系统当前的研究工作进行总结与归纳,主要包括存储管理、查询优化的机器学习化研究以及自动化的数据库管理系统.在对已有技术分析的基础上,指出了机器学习化数据库系统的未来研究方向及可能面临的问题与挑战.  相似文献   

18.
叶文滔  张敏  陈仪香 《软件学报》2023,34(7):3313-3328
随着近年来机器学习方法在自然语言处理领域的应用越发广泛,自然语言处理任务的安全性也引起了研究者们重视.现有研究发现,向样本施加细微扰动可能令机器学习模型得到错误结果,这种方法称之为对抗攻击.文本对抗攻击能够有效发现自然语言模型的弱点从而进行改进.然而,目前的文本对抗攻击方法都着重于设计复杂的对抗样本生成策略,对抗攻击成功率提升有限,且对样本进行高侵入性修改容易导致样本质量下降.如何更简单、更高效地提升对抗攻击效果,并输出高质量对抗样本已经成为重要需求.为解决此问题,从改进对抗攻击过程的新角度,设计了义原级语句稀释法(sememe-level sentence dilution algorithm, SSDA)及稀释池构建算法(dilution pool construction algorithm, DPCA). SSDA是一种可以自由嵌入经典对抗攻击过程中的新过程,它利用DPCA构建的稀释池先对输入样本进行稀释,再进行对抗样本生成.在未知文本数据集与自然语言模型的情况下,不仅能够提升任意文本对抗攻击方法的攻击成功率,还能够获得相较于原方法更高的对抗样本质量.通过对不同文本数据集、稀释...  相似文献   

19.
The SALOMON project is a contribution to the automatic processing of legal texts. Its aim is to automatically summarise Belgian criminal cases in order to improve access to the large number of existing and future cases. Therefore, techniques are developed for identifying and extracting relevant information from the cases. A broader application of these techniques could considerably simplify the work of the legal profession.A double methodology was used when developing SALOMON: the cases are processed by employing additional knowledge to interpret structural patterns and features on the one hand and by way of occurrence statistics of index terms on the other. As a result, SALOMON performs an initial categorisation and structuring of the cases and subsequently extracts the most relevant text units of the alleged offences and of the opinion of the court. The SALOMON techniques do not themselves solve any legal questions, but they do guide the user effectively towards relevant texts.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号