首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
针对基于图的多文档摘要,该文提出了一种在图排序中结合维基百科实体信息增强摘要质量的方法。首先抽取文档集合中高频实体的维基词条内容作为该文档集合的背景知识,然后采用PageRank算法对文档集合中的句子进行排序,之后采用改进的DivRank算法对文档集合和背景知识中的句子一起排序,最后根据两次排序结果的线性组合确定文档句子的最终排序以进行摘要句的选取。在DUC2005数据集上的评测结果表明该方法可以有效利用维基百科知识增强摘要的质量。  相似文献   

2.
针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和句子语义相似度相融合,得到句子最终的相关性,结合主题信息和语义信息作为句子图模型的边权重;最后,借助句子图最小支配集的摘要方法来描述多文档摘要。该方法通过融合多信息的句子图模型,将句子间的主题信息、语义信息和关系信息相结合。实验结果表明,该方法能够有效地改进抽取摘要的综合性能。  相似文献   

3.
邓箴  包宏 《计算机与应用化学》2012,29(11):1384-1386
提出了一种基于词汇链抽取,文法分析的抽取文本代表词条的多文档摘要生成的方法。通过计算词义相似度构建词汇链,结合词频与位置特征进行文本代表词条成员的选择,将含有词条权值高的句子经过聚类形成多文档文摘句集合,然后进行质心句的抽取和排序,生成多文档文摘。该方法不仅考虑了词汇之间的语义信息,还考虑了词条对文本的代表成度,能够改善文摘句抽取的性能。实验结果表明,与单纯的由关键词确定文摘的方法相比,召回率和准确率都有不少的提高。  相似文献   

4.
基于文档句构建无向图,将主题句的抽取问题转换为无向图中节点的权重计算问题。首先利用滑窗方法抽取主题词,构建空间向量并生成无向图,然后基于向量空间模型计算边权重,最后利用文档句相似度矩阵的权重模型对文档句权重进行建模与计算,依据压缩比得到文档的主题句。实验表明,该方法在不同的压缩比下生成的摘要质量高,主题句抽取结果接近于人工摘要,召回率和准确率综合指数较高。  相似文献   

5.
基于局部主题判定与抽取的多文档文摘技术   总被引:5,自引:1,他引:5  
秦兵  刘挺  李生 《自动化学报》2004,30(6):905-910
提出了一个通过对同一主题的多文档集合内局部主题的判定和抽取生成多文档文摘 的方法.首先在对多文档集合中句子依存分析和语义分析的基础上进行相似度计算,将相似 句子经过聚类形成多文档集合内不同的局部主题,然后进行每个局部主题中质心句的抽取和 排序,生成多文档文摘.该方法实现了文摘长度随文档内容自动确定,从而保证了文摘中包 含的信息的全面和简洁.最后文中还给出了多文档文摘的评价方法和实验结果,文摘的平均 精确率和平均压缩率分别为71.4%和25.2%.  相似文献   

6.
在信息过载的背景下,如何从拥有共同主题的多篇文档中挖掘并组织核心概念及其语义连接已成为当前开放式信息抽取任务中的一项重要挑战。为此,提出了一个基于开放域抽取的多文档概念图构建模型。首先基于预定主题挖掘主题词,通过改进的TF-IDF算法对文档进行排序;然后通过共指消解、篇章权重计算、开放域抽取等一系列的方法从多篇文章中抽取出大量具有事实表达能力的三元组实例。为去除开放域方法本身的噪声以及提升信息抽取的准确率,提出一种事实过滤算法。通过该算法可有效提取置信度高且具有良好语义兼容性的显著事实知识集合,并构成多个概念子图。最后,将不同子图中等价的概念以及关系进行合并,形成一张具有主题表达能力的连通概念图。通过在signal media新闻数据集上进行验证,实验结果表明,所提出的模型能够跨文档挖掘并有效组织与特定主题相关的关键信息,形成的概念图在主题概念覆盖率、事实知识的兼容性等指标上均取得了较好的效果。除此之外,该模型对于自动文档摘要的应用也具有重要的参考价值。  相似文献   

7.
仇丽青  李伟明 《计算机工程》2010,36(21):265-266,269
针对现有的多文档自动摘要生成方法中存在的问题,提出一种多文档自动摘要生成方法,该方法能够最大限度地减小摘要内容的冗余。选取权重最大的句子作为摘要句,把已选句子中包含的词汇的权重设置为接近0的常数,当下次选择摘要句时,可以避免再次选取包含这些词汇的句子。使用自动摘要评测方法ROUGE对该方法进行评测。实验结果表明,根据该方法抽取的机器摘要能够获得较高的 成绩。  相似文献   

8.
文章描述了一种基于子主题划分和查询相结合的多文档自动摘要系统的设计:首先利用同义词词林计算句子语义相似度,通过对句子的聚类得到子主题,然后根据用户的查询对子主题进行重要度排序,在此基础上,采用一种动态的句子打分策略从各个主题中抽取句子生成摘要。实验结果表明生成的摘要冗余少,信息全面。  相似文献   

9.
基于事件项语义图聚类的多文档摘要方法   总被引:2,自引:2,他引:0  
基于事件的抽取式摘要方法一般首先抽取那些描述重要事件的句子,然后把它们重组并生成摘要。该文将事件定义为事件项以及与其关联的命名实体,并聚焦从外部语义资源获取的事件项语义关系。首先基于事件项语义关系创建事件项语义关系图并使用改进的DBSCAN算法对事件项进行聚类,接着为每类选择一个代表事件项或者选择一类事件项来表示文档集的主题,最后从文档抽取那些包含代表项并且最重要的句子生成摘要。该文的实验结果证明在多文档自动摘要中考虑事件项语义关系是必要的和可行的。  相似文献   

10.
一个基于关联规则的多层文档聚类算法   总被引:3,自引:0,他引:3  
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。  相似文献   

11.
The goal of abstractive summarization of multi-documents is to automatically produce a condensed version of the document text and maintain the significant information. Most of the graph-based extractive methods represent sentence as bag of words and utilize content similarity measure, which might fail to detect semantically equivalent redundant sentences. On other hand, graph based abstractive method depends on domain expert to build a semantic graph from manually created ontology, which requires time and effort. This work presents a semantic graph approach with improved ranking algorithm for abstractive summarization of multi-documents. The semantic graph is built from the source documents in a manner that the graph nodes denote the predicate argument structures (PASs)—the semantic structure of sentence, which is automatically identified by using semantic role labeling; while graph edges represent similarity weight, which is computed from PASs semantic similarity. In order to reflect the impact of both document and document set on PASs, the edge of semantic graph is further augmented with PAS-to-document and PAS-to-document set relationships. The important graph nodes (PASs) are ranked using the improved graph ranking algorithm. The redundant PASs are reduced by using maximal marginal relevance for re-ranking the PASs and finally summary sentences are generated from the top ranked PASs using language generation. Experiment of this research is accomplished using DUC-2002, a standard dataset for document summarization. Experimental findings signify that the proposed approach shows superior performance than other summarization approaches.  相似文献   

12.
知识图谱表示学习旨在将实体和关系映射到一个低维稠密的向量空间中。现有的大多数相关模型更注重于学习三元组的结构特征,忽略了三元组内的实体关系的语义信息特征和三元组外的实体描述信息特征,因此知识表达能力较差。针对以上问题,提出了一种融合多源信息的知识表示学习模型BAGAT。首先,结合知识图谱特征来构造三元组实体目标节点和邻居节点,并使用图注意力网络(GAT)聚合三元组结构的语义信息表示;然后,使用BERT词向量模型对实体描述信息进行嵌入表示;最后,将两种表示方法映射到同一个向量空间中进行联合知识表示学习。实验结果表明,BAGAT性能较其他模型有较大提升,在公共数据集FB15K-237链接预测任务的Hits@1与Hits@10指标上,与翻译模型TransE相比分别提升了25.9个百分点和22.0个百分点,与图神经网络模型KBGAT相比分别提升了1.8个百分点和3.5个百分点。可见,融合实体描述信息和三元组结构语义信息的多源信息表示方法可以获得更强的表示学习能力。  相似文献   

13.
陈文杰  文奕  张鑫  杨宁  赵爽 《计算机工程》2020,46(5):63-69,77
传统基于翻译模型的知识图谱表示方法难以处理一对多、多对一和多对多等复杂关系,而且通常独立地学习三元组而忽略了知识图谱的网络结构和语义信息。为解决该问题,构建一种基于TransE的TransGraph模型,该模型同时学习三元组和知识图谱网络结构特征,以有效增强知识图谱的表示效果。在此基础上,提出一种向量共享的交叉训练机制,从而实现网络结构信息和三元组信息的深度融合。在公开数据集上的实验结果表明,相比TransE模型,TransGraph模型在链路预测和三元组分类2个任务中的HITS@10、准确率指标均得到显著提升。  相似文献   

14.
翟周伟  刘刚  吕玉琴 《软件》2012,(8):9-13
文章提出一种基于图模型的关键词挖掘方法,应用K最邻近耦合图构造文档的图模型,将文档映射为一个语义结构图,然后结合聚类系数变化量,平均路径变化量,TF-IDF以及区域位置因子来衡量词语节点的重要性,根据重要性得分选择候选关键词集,最后根据短语合并规则形成最终的关键词,实验结果表明,该方法相比于TF-IDF和小世界特征方法性能有所提高。  相似文献   

15.
The Graph Theorist, GT, is a system that performs mathematical research in graph theory. From the definitions in its input knowledge base, GT constructs examples of mathematical concepts, conjectures and proves mathematical theorems about concepts, and discovers new concepts. Discovery is driven both by examples and by definitional form. The discovery processes construct a semantic net that links all of GT's concepts together.
Each definition is an algebraic expression whose semantic interpretation is a stylized algorithm to generate a class of graphs correctly and completely. From a knowledge base of these concept definitions, GT is able to conjecture and prove such theorems as "The set of acyclic, connected graphs is precisely the set of trees" and "There is no odd-regular graph on an odd number of vertices." GT explores new concepts either to develop an area of knowledge or to link a newly acquired concept into a pre-existing knowledge base. New concepts arise from the specialization of an existing concept, the generalization of an existing concept, and the merger of two or more existing concepts. From an initial knowledge base containing only the definition of "graph," GT discovers such concepts as acyclic graphs, connected graphs, and bipartite graphs.  相似文献   

16.
知识图谱补全旨在发现三元组中缺失链接,解决知识图谱数据稀疏问题。提出一种基于胶囊网络的知识图谱嵌入方法,该方法能够对关系三元组(头实体,关系,尾实体)进行建模。将三元组表示为3列矩阵,它与多个滤波器卷积以产生不同的特征映射;将这些特征图重建成相应的胶囊,每个胶囊是一组神经元,通过和权重点积生成较小尺寸的胶囊,然后生成一个连续矢量;该矢量和权重向量进行点积运算获得对应得分,所有分数求和的结果用来判断给定三元组的正确性。实验结果表明,和其他模型相比,该方法有效提高了三元组的预测精度,知识图谱补全的效果更好。  相似文献   

17.
An active document framework is a self-representable, self-explainable, and self-executable document mechanism. A document’s content is reflected in four aspects: granularity hierarchy, template hierarchy, background knowledge, and semantic links between fragments. An active document has a set of build-in engines for browsing, retrieving, and reasoning, which can work in a way best suited to the document’s content. Besides browsing and retrieval services, the active document supports intelligent information services such as complex question answering, online teaching, and assistant problem solving. The client side service provider is only responsible for the retrieval of the required active document. The detailed information services are provided by the document mechanism. This improves the current Web information retrieval approach by raising the efficiency of information retrieval, enhancing the preciseness and mobility of information services, and enabling intelligent information services. A tool for making semantic links in a document and an intelligent browser have been developed to support the proposed approach, which provides a new type of web information service.  相似文献   

18.
知识图谱表示学习将实体和关系映射到一个连续的低维空间.传统学习方法是从结构化的三元组学习知识表示,忽略了三元组之外与实体相关的丰富多源信息.针对该问题,提出一种将实体概念描述和图像特征与事实三元组相结合的知识图谱表示学习模型DIRL.首先,利用BERT模型进行实体概念描述的语义表示;其次,使用CNN编码器对图像总体特征进行提取,然后通过基于注意力的方法表示图像特征;最后,将基于概念描述的表示和基于图像特征的表示与翻译模型TransR结合起来进行知识图谱表示学习.通过实验验证,DIRL模型优于现有方法,提高了多源信息知识图谱表示的有效性.  相似文献   

19.
知识图谱是真实世界三元组的结构化表示。通常,三元组表示形式为(头实体,关系,尾实体),这表示头实体和尾实体通过特定关系相互联系。针对知识图谱中广泛存在的数据稀疏问题,提出一种球坐标建模语义分层的知识图谱补全方法。使用球坐标系对实体和关系进行建模表示,以进行链接预测。具体来说,半径坐标旨在对不同层级的实体进行建模,半径较小的实体级别越高;角度坐标旨在区分相同层级的实体,即模长相等而角度不同的实体。该方法将实体映射到球坐标系中,可以有效建模知识图谱中普遍存在的语义分层现象。实验中,采用公开数据集WN18RR、FB15K-237与YAGO3-10进行相关的链接预测实验。实验结果表明,在WN18RR中,平均倒数排名(Mean Reciprocal Rank)比RotatE提高3.6%,Hit@10比RotatE提高1.9%;在FB15K-237中,平均倒数排名(Mean Reciprocal Rank)比ConvKB提高4.8%,Hit@10比ConvKB提高3.5%。实验证明球坐标建模语义分层的知识图谱补全方法可以有效提高三元组预测准确度。  相似文献   

20.
In this paper, we consider the problem of multimedia document (MMD) semantics understanding and content-based cross-media retrieval. An MMD is a set of media objects of different modalities but carrying the same semantics and the content-based cross-media retrieval is a new kind of retrieval method by which the query examples and search results can be of different modalities. Two levels of manifolds are learned to explore the relationships among all the data in the level of MMD and in the level of media object respectively. We first construct a Laplacian media object space for media object representation of each modality and an MMD semantic graph to learn the MMD semantic correlations. The characteristics of media objects propagate along the MMD semantic graph and an MMD semantic space is constructed to perform cross-media retrieval. Different methods are proposed to utilize relevance feedback and experiment shows that the proposed approaches are effective.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号