首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
各类应用领域的文本数据日益增多,如何从这些海量数据中迅速准确地提取核心内容,已成为关键词抽取的主要任务.提出一种基于词和文档嵌入的关键词抽取方法,通过计算单词与文档在同一维度上的向量表示,得出每个单词与文档之间的语义相似度,将其作为无向图中每个单词节点的初始权重.接着使用带语义偏向的随机游走策略,计算出每个单词以及候选词的分值.最后选取得分较高的前N个候选词作为最终关键词.在公开数据集上的实验结果表明,该算法在准确率、召回率、F值上均超过现有的主流关键词抽取方法,极大提高了关键词自动抽取的效率.  相似文献   

2.
多文档关键词抽取是进行在多篇文献中找出最能反映整体主题的关键词。对几种关键词抽取算法进行了介绍,分析了各自的优缺点,在TF/PDF算法的基础上,采用文献内和文献间综合权重的方法,提出了一种基于综合权重的多  相似文献   

3.
针对目前文档级别关系抽取主要关注实体间的逻辑推理,未充分利用实体间的层次语义信息问题,提出一种基于实体层次结构的文档级别关系抽取模型。考虑多句文本中实体间的交互,将实体构建为文档图并使用图卷积神经进行信息传播;通过实体间的上下位关联构建实体层次树,使用注意力机制将层次语义信息融入实体;为降低模型对实体表面信息的关注,使用实体类型对实体词进行替换。实验结果表明,在大规模文档级别关系抽取数据集上实体语义信息增强的方案能够有效提高文档级别关系抽取的效果。  相似文献   

4.
面向方面目标的意见词抽取(Target-oriented Opinion Word Extraction, TOWE)是方面情感分析的一个子任务,旨在针对给定句子的特定方面目标识别意见词.在同一句子中,对于不同的目标,模型需要输出不同的抽取结果,TOWE可以给出每个方面目标具体的观点信息,从而帮助理解用户情感的来源,细化情感分析任务的粒度.为识别文本中给定方面目标的方面意见词,需要综合考虑上下文语境、方面目标语义信息以及位置信息,并建模候选意见词与方面目标之间的对应关系.本文提出了一个目标语义与位置融合的方面意见词抽取模型(Target-oriented Opinion Word Extraction Based on the Fusion of Aspect Target Semantics and Position model, AP-IOG),模型使用编码器-解码器框架,在方面目标融合编码器中包含3个LSTM模型:向内Inward-LSTM可以充分利用方面目标信息;向外Outward-LSTM可以将方面目标信息很好地编码到上下文中;位置注意力增强的Global-LSTM,可以帮助...  相似文献   

5.
面向上下位关系预测的词嵌入投影模型   总被引:1,自引:0,他引:1  
  相似文献   

6.
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法.应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值的单词构建单词集合.在此基础上,寻找文档与集合中共同存在的单词,获取其词向量并融合单...  相似文献   

7.
8.
基于本体的文档引文元数据信息抽取   总被引:5,自引:6,他引:5  
郭志鑫 《微计算机信息》2006,22(18):304-306
结合本体技术,提出了一种新的从文档中抽取引文元数据信息的方法。该方法采用模式匹配方式,可以从文档中提取作者、标题、日期等信息,并使用OWL本体描述语言进行形式化,为进一步的语义搜索和语义存储奠定基础。实验数据证明了该方法的有效性。  相似文献   

9.
关键词提取和摘要抽取的目的都是从原文档中选择关键内容并对原文档的主要意思进行概括.评价关键词和摘要抽取质量的好坏主要看其能否对文档的主题进行良好的覆盖.在现有基于图模型的关键词提取和摘要抽取方法中,很少涉及到将关键词提取和摘要抽取任务协同进行的,而文中提出了一种基于图模型的方法进行关键词提取和摘要的协同抽取.该方法首先...  相似文献   

10.
基于联合权重的多文档关键词抽取技术   总被引:2,自引:0,他引:2  
该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×Proportional Document Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词。该方法综合考虑了词语的频率,词性以及词语之间的语义相似性等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高3%,召回率提高7%,F-measure提高4.4%。  相似文献   

11.
针对现有的基于图的关键词提取方法未能有效整合文本序列中词与词之间的潜在语义关系的问题,提出了一个融合词向量与位置信息的基于图的关键词提取算法EPRank。通过词向量表示模型学得目标文档中每个词的表示向量;将该反映词与词之间的潜在语义关系的词向量与位置特征相结合融合到PageRank评分模型中;选择几个排名靠前的单词或短语作为目标文档的关键词。实验结果表明,提出的EPRank方法在KDD和SIGIR两个数据集上的各项评估指标均高于5个现有的关键词提取方法。  相似文献   

12.
This paper presents an approach for verifying translator correctness when the source language has formal semantics. Instead of verifying the translator implementation, a novel language mechanization combination is devised to reduce total complexity involved. A deep embedding is defined to serve as a baseline for specification meaning. For each specification, an equivalence proof is constructed and conducted to ensure that the translated shallow representation is semantically equivalent to the deep representation. Structure of an equivalence proof is systematic and can be derived from specification structure mechanically. The use of two embeddings also affects the embeddings favourably by enabling them to be defined in a simpler manner.  相似文献   

13.
基于语义的关键词提取算法   总被引:2,自引:1,他引:2  
关键词1提供了文档内容的概要信息,它们被使用在很多数据挖掘的应用中,在目前的关键词提取算法中,我们发现词汇层面(代表意思的词)和概念层面(意思本身)的差别导致了关键字提取的不准确,比如不同语法的词可能有着相同的意思,而相同语法的词在不同的上下文有着不同的意思.为了解决这个问题,这篇文章提出使用词义代替词并且通过考虑关键候选词的语义信息来提高关键词提取算法性能的方法.与现有的关键词提取方法不同,该方法首先通过使用消歧算法,通过上下文得到候选词的词义;然后在后面的词合并、特征提取和评估的步骤中,候选词义之间的语义相关度被用来提高算法的性能.在评估算法时,我们采用一种更为有效的基于语义的评估方法与著名的Kea系统作比较.在不同领域间的实验中可以发现,当考虑语义信息后,关键词提取算法的性能能够得到很大的提高.在同领域的实验中,我们的算法的性能与Kea 算法的相近.我们的算法没有领域的限制性,因此具有更好的应用前景.  相似文献   

14.
Word vector embeddings are an emerging tool for natural language processing. They have proven beneficial for a wide variety of language processing tasks. Their utility stems from the ability to encode word relationships within the vector space. Applications range from components in natural language processing systems to tools for linguistic analysis in the study of language and literature. In many of these applications, interpreting embeddings and understanding the encoded grammatical and semantic relations between words is useful, but challenging. Visualization can aid in such interpretation of embeddings. In this paper, we examine the role for visualization in working with word vector embeddings. We provide a literature survey to catalogue the range of tasks where the embeddings are employed across a broad range of applications. Based on this survey, we identify key tasks and their characteristics. Then, we present visual interactive designs that address many of these tasks. The designs integrate into an exploration and analysis environment for embeddings. Finally, we provide example use cases for them and discuss domain user feedback.  相似文献   

15.
基于机器学习的网页主题词自动抽取   总被引:2,自引:0,他引:2  
主题词在信息处理和信息检索过程中有广泛的用途,然而大量网页没有主题词,手工抽取主题词是一个繁重的过程,可以将主题词自动抽取看作是分类问题,充分利用网页的结构信息并且使用有监督的机器学习方法来自动地抽取网页中的主题词,试验结果表明该算法具有实用的价值。  相似文献   

16.
面向文本的关键词自动提取一直以来是自然语言处理领域的一个关键基础问题和研究热点.特别是,随着当前对文本数据应用需求的不断增加,使得关键词提取技术进一步得到研究者的广泛关注.尽管近年来关键词提取技术得到长足的发展,但提取结果目前还远未取得令人满意的效果.为了促进关键词提取问题的解决,本文对近年来国内、外学者在该研究领域取得的成果进行了系统总结,具体包括候选关键词生成、特征工程和关键词提取三个主要步骤,并对未来可能的研究方向进行了探讨和展望.不同于围绕提取方法进行总结的综述文献,本文主要围绕着各种方法使用的特征信息归纳总结现有成果,这种从特征驱动的视角考察现有研究成果的方式有助于综合利用现有特征或提出新特征,进而提出更有效的关键词提取方法.  相似文献   

17.
尹红  陈雁  李平 《中文信息学报》2019,33(11):107-114
关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题熵的关键短语提取算法。该算法利用隐含狄利克雷分布训练文档和词的主题分布,并结合两个主题分布来表示特定文档下的词主题分布,然后计算词主题分布的信息熵即主题熵来表示词语自身影响力,最后在词共现网络上使用随机游走方法计算每个候选短语的得分。在6个公开数据集上的实验结果表明,与现有的无监督关键短语提取算法相比,该算法在F1指标上能提高2.61%~6.98%。  相似文献   

18.
从单个文档中直接提取关键词不能满足关键词提取的精度要求,而现有基于邻居信息的关键词提取相关研究又耗时较长.因此,文中提出利用科学文献中共同作者关系以构建邻居网络,并联合使用这些邻居网络信息及文档本身内容提取关键词的方法.在此基础上,进一步提出利用领域知识中高频度共现词对以提取关键词,获得更高质量的关键词的方法.实验表明,文中方法性能较优.  相似文献   

19.
Wang  Shirui  Zhou  Wenan  Zhou  Qiang 《Neural Processing Letters》2020,52(2):1109-1121
Neural Processing Letters - The internal structural information of words has proven to be very effective for learning Chinese word embeddings. However, most previous attempts made a single form...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号