首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
对近年来国内外人物传记研究进行了综述,从人物传记研究的开始到人物传记的相关技术与应用,力图说明自动 人物传记的研究进展,展望其未来的发展趋势.目前互联网文字信息膨胀,从多个文本中自动提取人物的传记性信息研究 有重大研究价值,不仅能够促进信息抽取和自动文摘的发展,而且能够产生一些重大应用.  相似文献   

2.
王俊丽  魏绍臣  管敏 《计算机科学》2015,42(12):1-7, 39
互联网技术的快速发展使得信息的采集和传播速度达到了空前的水平,海量的数据使得人们获取有价值的信息越发困难。自动文摘技术可以从海量的信息中提取出能代表原文重要内容且简洁精练的一段文字,高度压缩文档是解决信息超载问题的有效方法,因此自动文摘技术的研究引起人们越来越多的关注。目前诸如统计分析、机器学习技术以及语言学知识等在已有的自动文摘系统中都有所应用。对基于图排序算法的自动文摘的研究成果进行综述,首先阐述自动文摘以及图排序算法的基本知识,然后重点从图的构建、图排序、句子选择3个方面系统地介绍基于图排序算法的自动文摘的研究现状,最后在分析 已有自动文摘系统的基础上,探讨了基于图排序算法的自动文摘的未来发展方向。  相似文献   

3.
基于Web企业竞争对手情报自动搜集平台   总被引:4,自引:1,他引:4  
从互联网中准确有效及时地自动搜索出需要的信息,是Web信息处理中的一个重要研究课题。本文在所提出的基于搜索路径Web网页搜索和基于多知识网页信息抽取方法基础上,给出基于Web企业竞争对手情报自动收集平台的实现方法,该平台可以有效地从多个企业门户网站中,自动搜索出所需要的目标网页,并能够从目标网页中自动抽取其中多记录信息。本文利用该平台进行了企业人才招聘信息的自动搜索实验。实验结果证实了该平台在信息自动搜集方面的有效性和准确性。  相似文献   

4.
Web作为巨大的数据源,从Web中提取知识是当前信息研究的热点之一.主要研究针对HTML和XML页面如何生成Wrapper程序以便能够自动地从特定网页中提取有用信息,并成为将来进行Web挖掘的基础.  相似文献   

5.
基于HTML和XML的信息提取方法研究   总被引:2,自引:0,他引:2  
陈红叶 《微机发展》2003,13(Z2):54-55
Web作为巨大的数据源,从Web中提取知识是当前信息研究的热点之一。主要研究针对HTML和XML页面如何生成Wrapper程序以便能够自动地从特定网页中提取有用信息,并成为将来进行Web挖掘的基础。  相似文献   

6.
文中总结了自动文摘的主要研究方法和策略并把方法分成了三大类:自动摘录、基于信息抽取的自动文摘和基于理解的自动文摘.自动摘录方法是从文章中抽取重要句子来形成文摘;基于信息抽取的文摘方法是用从文章中抽取的信息填充已经编好的框架,然后用模板将内容输出;基于理解的文摘方法是利用自然语言处理技术生成文摘.文中重点总结了单主题文章和多主题文章的自动摘录方法,在多种算法进行优缺点比较后提出了一种新的多主题划分方法.  相似文献   

7.
基于UCL的网页自动标引技术   总被引:5,自引:0,他引:5  
UCL(UniformContentLocator)是作者、编者和读者进行语义沟通的工具,是进行信息快速选择、智能代理和信息主动服务的基础。该文针对网络信息检索中的自动标引问题,提出了一种基于UCL的网页自动标引技术。研究了从HTML编写的网页映射到XML文档的过程,并从中提取符合用户兴趣模型的UCL字段,从而达到网页自动标引的目的。实验验证了理论方案的正确性和有效性。  相似文献   

8.
Web权威信息自动提取技术的研究及应用   总被引:2,自引:0,他引:2       下载免费PDF全文
李净  袁小华  沈晓晶 《计算机工程》2008,34(13):54-55,6
WWW为各行各业提供了大量的信息,但如何准确地从这些信息中提取出相关领域的权威信息是目前研究的热点问题之一。该文提出评判网站信息的多因素综合评估模型,该模型对网站的权威值进行合理计算,给出基于表格数据的语法树模型,完成了表格数据的自动提取。通过实例证明,该方法很好地解决了权威信息的准确和自动提取。  相似文献   

9.
指代消解综述   总被引:3,自引:0,他引:3       下载免费PDF全文
给出指代消解的基本概念,从指代消解的语料资源、评测系统和算法3个方面出发,介绍指代消解的国内外研究现状,分析制约指代消解的3个关键问题:结构化句法信息的自动获取和表示,深层次语义信息的自动获取和使用,跨文本指代消解,基于分析结果给出国际上指代消解的研究趋势。  相似文献   

10.
数学应用题自动求解,即利用计算机对自然语言描述的应用题进行自动理解和作答,一直是人工智能领域研究的重难点和核心目标之一。针对应用题语义复杂、上下文情景多变、关键参数难以准确识别的问题,提出一种基于依存句法的初等数学分层抽样应用题题意理解方法。通过构建一个面向初等数学分层抽样类应用题的句模库,并结合依存句法来实现分层抽样应用题解题信息的自动抽取。实验研究发现,与仅基于句模的信息抽取方法相比,该方法对不同语义角色的句子的信息抽取准确率均有一定提升,整题理解的准确率从40%上升至68%。  相似文献   

11.
自动摘要是自然语言处理中的一个重要但又困难的分支,在Web信息检索中起着重要作用。文章采用拟人思维。提出了一种篇章结构分析和统计相结合的自动摘要方法,并实现了一个中文网页自动摘要实验系统。该方法首先对文本进行篇章结构分析,得到段落的位置信息和各级小标题信息;然后综合这些结构信息使用统计方法和启发式规则来提取文档的关键词、关键句,生成文档的摘要。在实验评估中,该方法取得了令人满意的摘要质量和速度。  相似文献   

12.
基于TMDS的文本零水印技术研究   总被引:2,自引:0,他引:2  
为了有效地保护数字化文本的版权,防止文本被非法拷贝和传播,提出一种新的基于TMDS的文本零水印算法.针对文本文档特点,引入了一种文本语义形式化模型TMDS,把文本内容抽象成一个篇章多级依存树形结构,并以树形结构为基础,实现了文本数字水印的加栽与检测.实验结果表明,水印具有较好的隐蔽性和鲁棒性,可以有效地保护文本版权.  相似文献   

13.
文本通过自然语言处理的自动化摘要方法以去除冗余,设计了语文作文语料标签智能化提取方式。明确了标签智能化提取效果评估指标,确保提取效果与精确度。以自动化抽取文本摘要方法、词典分词方法、有监督命名实体识别方法为技术框架,设定语文作文语料标签实践运用场景设置评估指标,以此开展测试试验分析。结果表明,基于本文设计的语文作文语料标签智能化提取方式在关键描述层面明显优于传统关键词算法,标签提取效果显著,值得大力推广应用。  相似文献   

14.
否定表达作为自然语言文本中常见的语言现象,对自然语言处理上层应用,如情感分析、信息抽取等,具有十分重要的意义。否定聚焦点识别任务是更细粒度的否定语义分析,其旨在识别出句子中被否定词修饰和强调的文本片段。该文将该任务作为序列标注问题,提出了一种基于双向长短期记忆网络结合条件随机场(BiLSTM-CRF)的否定聚焦点识别模型,其中,BiLSTM网络能够充分利用上下文信息并抓取全局特征,CRF层能够有效学习输出标签之间的前后依赖关系。在*SEM2012评测任务数据集上的实验结果表明,基于BiLSTM-CRF的否定聚焦点识别方法的准确率(accuracy)达到69.58%,与目前最好的系统相比,性能提升了2.44%。  相似文献   

15.
穆妮热·穆合塔尔      李晓    杨雅婷    艾孜尔古丽  周喜   《智能系统学报》2018,13(3):452-457
在自然语言理解、机器翻译、舆情分析等自然语言处理领域中,维吾尔谚语识别是整个文本实体识别的重要组成部分。为满足维吾尔谚语信息化的需求,本文构建了比较完善的维吾尔谚语语料库。同时,从传统语言学角度对维吾尔谚语的语法、语义结构进行分析,构建了一个由维吾尔谚语功能语类(词缀)组成的、专属维吾尔谚语规则的知识库,并将此知识库与自然语言处理技术相结合,实现一个既能够从文本中识别出维吾尔谚语,又能提供维汉互译等功能的信息软件系统。该系统也为开展计算机理解与处理维吾尔文字奠定了一个崭新的基础。  相似文献   

16.
A novel approach is introduced in this paper for the implementation of a question–answering based tool for the extraction of information and knowledge from texts. This effort resulted in the computer implementation of a system answering bilingual questions directly from a text using Natural Language Processing. The system uses domain knowledge concerning categories of actions and implicit semantic relations. The present state of the art in information extraction is based on the template approach which relies on a predefined user model. The model guides the extraction of information and the instantiation of a template that is similar to a frame or set of attribute value pairs as the result of the extraction process. Our question–answering based approach aims to create flexible information extraction tools accepting natural language questions and generating answers that contain information extracted from text either directly or after applying deductive inference. Our approach also addresses the problem of implicit semantic relations occurring either in the questions or in the texts from which information is extracted. These relations are made explicit with the use of domain knowledge. Examples of application of our methods are presented in this paper concerning four domains of quite different nature. These domains are: oceanography, medical physiology, aspirin pharmacology and ancient Greek law. Questions are expressed both in Greek and English. Another important point of our method is to process text directly avoiding any kind of formal representation when inference is required for the extraction of facts not mentioned explicitly in the text. This idea of using text as knowledge base was first presented in Kontos [7] and further elaborated in [9,11,12] as the ARISTA method. This is a new method for knowledge acquisition from texts that is based on using natural language itself for knowledge representation.  相似文献   

17.
自动文摘是指利用计算机自动对文本编制摘要,是自然语言理解的重要应用领域之一。限于相关领域的已有水平,现阶段的自动文摘系统多数是以词语频率作为依据,以词频高的词语作为文章的关键词语,得到的文摘往往与原文中心思想相差甚远,因此,需要对文章的语法、语义和语境进行分析。本文利用HowNet得到词语概念的方法,建立基于概念的自动文摘系统。  相似文献   

18.
自然语言处理中的逻辑词   总被引:4,自引:0,他引:4  
词是自然语言处理中最基本的单位,在当今知识表示领域,知识图作为自然语言理解的语义模型有其独到之处。本文从语言学和逻辑学的角度,首次提出并探讨了逻辑词研究逻辑词分类及如何用知识图表示各类逻辑词的结构。对自然语言处理中研究复句和篇章的理解提供了一种新的途径。  相似文献   

19.
基于语料库与层次词典的自动文摘研究   总被引:2,自引:1,他引:1  
宋今  赵东岩 《软件学报》2000,11(3):308-314
自动文摘研究作为自然语言处理研究的一个重要且实用的分支,目前逐渐成为Internet信息检索等应用领域的重要研究课题之一.该文提出的基于语料库的文摘试图将传统的基地语言学分析的文摘方法和基于统计的文摘方法的优点结合在一起.基于语料库的文摘方法的实质即以系统外的分析代价换取系统内的算法效率.该文描述的算法给出了基于层次词典的关键字提取和基于语料库的自动文摘的实现.  相似文献   

20.
作为自然语言处理技术中的底层任务之一,文本分类任务对于上游任务有非常重要的辅助价值。而随着最近几年深度学习广泛应用于NLP中的上下游任务的趋势,深度学习在下游任务文本分类中性能不错。但是目前的基于深层学习网络的模型在捕捉文本序列的长距离型上下文语义信息进行建模方面仍有不足,同时也没有引入语言信息来辅助分类器进行分类。针对这些问题,提出了一种新颖的结合Bert与Bi-LSTM的英文文本分类模。该模型不仅能够通过Bert预训练语言模型引入语言信息提升分类的准确性,还能基于Bi-LSTM网络去捕捉双向的上下文语义依赖信息对文本进行显示建模。具体而言,该模型主要有输入层、Bert预训练语言模型层、Bi-LSTM层以及分类器层搭建而成。实验结果表明,与现有的分类模型相比较,所提出的Bert-Bi-LSTM模型在MR数据集、SST-2数据集以及CoLA数据集测试中达到了最高的分类准确率,分别为86.2%、91.5%与83.2%,大大提升了英文文本分类模型的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号