首页 | 本学科首页   官方微博 | 高级检索  
 共查询到20条相似文献,搜索用时 436 毫秒
李雄  丁治明  苏醒  郭黎敏 《计算机科学》2018,45(Z11):417-421, 438
本研究主要解决在大量文本数据中 抽取 关键语义信息的问题。文本是自然语言的信息载体,在分析和处理文本信息时,由于目标与方式不同,对文本信息的特征表达方式也各不相同。已有的语义抽取方法往往是针对单篇文本的,忽略了不同文本间的语义联系。为此,文中提出了基于词项聚类的文本语义标签提取方法。该方法以语义抽取为目标,以Hinton的分布式表示假说为文本信息的表达方式,并以最大化语义标签与原文本数据间的语义相似度为目标,使用聚类算法对语义标签进行聚类。实验表明,所提方法由于是基于全体词汇表对语义信息分布进行聚类计算的,因此在语义丰富度和表达能力上相比很多现有方法具有更好的表现。  相似文献   


特定目标情感分析旨在判断上下文语境在给定目标词下所表达的情感倾向。对句子语义信息编码时,目前大部分循环神经网络或注意力机制等方法,不能充分捕捉上下文中长距离的语义信息,同时忽略了位置信息的重要性。该文认为句子的语义信息、位置信息和多层次间的信息融合对该任务至关重要,从而提出了基于混合多头注意力和胶囊网络的模型。首先,使用多头自注意力分别在位置词向量基础上对上下文长句子和在双向GRU基础上对目标词进行语义编码;然后,使用胶囊网络在语义信息交互拼接基础上进行位置信息编码;最后,在融入原始语义信息基础上,使用多头交互注意力对上下文与目标词并行融合的方法得到情感预测结果。在公开数据集SemEval 2014 Task4和ACL 14 Twitter上的实验表明,该文模型性能较传统深度学习和标准注意力方法有显著提升,验证了模型的有效性和可行性。  相似文献   

如何从大量信息中获取有用的信息,是目前面临的挑战性问题,在寻找有用信息的迫切性需求下,搜索引擎逐渐成为人们在网上检索信息的重要工具。通过对语义搜索的研究和设计,证明语义搜索引擎的可行性与实用性。总的来说,我们已经初步完成了一个基于语义的搜索引擎的框架结构,该框架包括搜索、检索、搜集等功能和模块,已经覆盖了该课题的多数研究内容和目标。其中的有一些技术已经可以在电子商务等一些专用领域应用了。  相似文献   

互联网已成为全球最大的知识资源库,然而要从互联网上获取有用的知识却非常困难。本文提出一种基于互联网的词汇语义知识库构建框架,分为三个大模块:网页文本自动获取、知识获取和知识应用。该框架能实现在线获取海量网页文本,提取中文组合词并对其进行词标注,获取同义词集和词间语义关系,进而实现语义计算。词汇语义知识库的构建将为大量的知识应用提供基础。  相似文献   

温浩  温有奎 《计算机科学》2014,41(6):171-175
文献知识发现已经成为解决海量信息检索难题的突破技术。但是目前的文献知识发现方法是基于词袋法的矢量空间模型方法。这类方法具有词汇元素之间语义无关性的先天不足,不能有效地发现文本之间存在的大量潜在知识。提出一种基于主谓宾(S,P,O)结构的最小知识单元表示及其语义推理的中文文献知识发现方法,避免了传统的文献知识发现方法的不足,并在此模型的基础上提出了一种推理算法,其能有效地发现文本中的潜在知识。经过实验证明,该方法与传统的文献知识发现方法相比有效地提高了潜在知识发现的正确率。  相似文献   

在软件开发全生命周期中,需求跟踪在管理需求及其相关制品方面扮演着重要的角色.由于手工跟踪费时且易出错,一些基于信息检索(information retrieval,IR)和基于机器学习(machine learning,ML)的解决方案被提出.其中,不需要大量标签数据的无监督的机器学习方法越来越受到关注.在已提出的解决方案中,大多数都是针对词法和语义信息进行建模,而忽略了文本制品间的词共现分布和词序信息.因此,提出利用基于图挖掘扩展学习的增强需求跟踪链接恢复方法GeT2Trace.其核心思想是利用图网络中的词共现信息和词序信息来增强制品中隐含的语义信息,进而更全面、更准确地对制品中所包含的语义进行表示.在5个公共数据集上进行了评估,结果表明提出的方法优于已有基线.使用图形信息扩展需求为无监督的需求跟踪解决方案提供了新的见解,改进的跟踪链接性能验证了GeT2Trace的有用性和有效性.  相似文献   

随着互联网多语言信息的发展,如何有效地表示不同语言所含的信息已成为自然语言信息处理的一个重要子任务,因而跨语言词向量成为当下研究的热点.跨语言词向量借助迁移学习将单语词向量映射到一个共享的低维空间,在不同语言间进行语法、语义和结构特征的迁移,能够对跨语言语义信息进行建模.B E RT模型通过大量语料的训练,得到一种通用的词向量,同时根据具体的下游任务进一步动态优化,生成上下文语境敏感的动态词向量,解决了以往模型的聚义问题.通过对现有基于B E RT的跨语言词向量研究的文献回顾,综合阐述了基于B E RT的跨语言词向量学习方法、模型、技术的发展,以及所需的训练数据.根据训练方法的不同,分为有监督学习和无监督学习两类,并对两类方法的代表性研究进行详细的对比和总结.最后概述了跨语言词向量的评估方法,并以构建基于B E RT的蒙汉文跨语言词向量进行展望.  相似文献   

使用词向量表示方法能够很好的捕捉词语的语法和语义信息,为了能够提高词向量语义信息表示的准确性,本文通过分析GloVe模型共现矩阵的特点,利用分布式假设,提出了一种基于GloVe词向量训练模型的改进方法.该方法主要通过对维基百科统计词频分析,总结出过滤共现矩阵中无关词和噪声词的一般规律,最后给出了词向量在词语类比数据集和词语相关性数据集的评估结果.实验表明,在相同的实验环境中,本文的方法能够有效的缩短词向量的训练时间,并且在词语语义类比实验中准确率得到提高.  相似文献   

该文使用同义词词林语义资源库,以词林中编码信息为基础构建新的特征,使用条件随机场模型,研究了汉语框架语义角色的自动标注。该文在先前的基于词、词性、位置、目标词特征的基础上,在模型中加入不同的词林信息特征,以山西大学的汉语框架语义知识库为实验语料,研究了各词林信息特征分别对语义角色边界识别与分类的影响。实验结果表明,词林信息特征可以显著提高语义角色标注的性能,并且主要作用在语义角色分类上。  相似文献   

Biomedical entity alignment, composed of two subtasks: entity identification and entity-concept mapping, is of great research value in biomedical text mining while these techniques are widely used for name entity standardization, information retrieval, knowledge acquisition and ontology construction.Previous works made many efforts on feature engineering to employ feature-basedmodels for entity identification and alignment. However, the models depended on subjective feature selection may suffer error propagation and are not able to utilize the hidden information.With rapid development in healthrelated research, researchers need an effective method to explore the large amount of available biomedical literatures.Therefore, we propose a two-stage entity alignment process, biomedical entity exploring model, to identify biomedical entities and align them to the knowledge base interactively. The model aims to automatically obtain semantic information for extracting biomedical entities and mining semantic relations through the standard biomedical knowledge base. The experiments show that the proposed method achieves better performance on entity alignment. The proposed model dramatically improves the F1 scores of the task by about 4.5% in entity identification and 2.5% in entity-concept mapping.  相似文献   

通过自动摘要技术对生物医学概念进行摘要抽取,能够提高研究人员查阅和分析相关资料的效率.利用生物医学语义关系抽取多文档摘要,旨在从语义层面比较全面地覆盖查询概念的多方面内容,帮助研究人员快速掌握查询概念的主要信息.从生物医学文本中挖掘出了概念的重要语义关系,并利用语义关系作为衡量句子重要性的特征,生成查询概念的摘要.分析...  相似文献   

基于本体的Web分类技术研究   总被引:2,自引:3,他引:2  
李恒杰  李明 《微计算机信息》2006,22(21):215-217
主要提出了一种基于本体的抽象的Web挖掘模型。首先利用本体的方法表示出要挖掘的领域,然后把从用户处收集来的数据转换成表格;最后再根据定义和公式来进行知识发现。抽象的Web挖掘模型可以提取出语义Web中隐藏在大量信息背后的近似概念,来实现知识发现。  相似文献   

The rapid growth of biomedical literature prompts pervasive concentrations of biomedical text mining community to explore methodology for accessing and managing this ever-increasing knowledge. One important task of text mining in biomedical literature is gene mention normalization which recognizes the biomedical entities in biomedical texts and maps each gene mention discussed in the text to unique organic database identifiers. In this work, we employ an information retrieval based method which extracts gene mention’s semantic profile from PubMed abstracts for gene mention disambiguation. This disambiguation method focuses on generating a more comprehensive representation of gene mention rather than the organic clues such as gene ontology which has fewer co-occurrences with the gene mention. Furthermore, we use an existing biomedical resource as another disambiguation method. Then we extract features from gene mention detection system’s outcome to build a false positive filter according to Wikipedia’s retrieved documents. Our system achieved F-measure of 83.1% on BioCreative II GN test data.  相似文献   

Being able to correctly model semantic relatedness between texts, and consequently the concepts represented by these texts, has become an important part of many intelligent information retrieval and knowledge processing systems. The need for such systems is especially evident within the biomedical domain, where the sheer amount of scientific publishing contributes to an information overflow. In this paper we present a novel method to approximate semantic relatedness in domain-focused settings. The approach is an extension to a well-known ESA (Explicit Semantic Analysis) method. Our extension successfully leverages the semantics of a domain-specific document corpus. We present the evaluation of the proposed method on a set of reference datasets, that are a de facto reference standard for the task of approximating biomedical semantic relatedness. The proposed method is evaluated in comparison with other state-of-the-art methods, as well as the baselines established with the original ESA method. The results of the experiments suggest that the proposed method combines the semantics of a general and domain-specific corpora to provide significant improvements over the original method.  相似文献   

基于改进潜在语义分析的跨语言检索   总被引:1,自引:0,他引:1  
该文采用基于SVD和NMF矩阵分解相结合的改进潜在语义分析的方法为生物医学文献双语摘要进行建模,该模型将英汉双语摘要映射到同一语义空间,不需要外部词典和知识库,建立不同语言之间的对应关系,便于在双语空间中进行检索。该文充分利用医学文献双语摘要语料中的锚信息,通过不同的k值构建多个检索模型,计算每个模型的信任度,使得多个模型都对查询和文本的相似度做出贡献。在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算,实现了双语摘要的跨语言检索,取得了较好的实验效果。  相似文献   

The amount of ontologies and semantic annotations available on the Web is constantly growing. This new type of complex and heterogeneous graph-structured data raises new challenges for the data mining community. In this paper, we present a novel method for mining association rules from semantic instance data repositories expressed in RDF/(S) and OWL. We take advantage of the schema-level (i.e. Tbox) knowledge encoded in the ontology to derive appropriate transactions which will later feed traditional association rules algorithms. This process is guided by the analyst requirements, expressed in the form of query patterns. Initial experiments performed on semantic data of a biomedical application show the usefulness and efficiency of the approach.  相似文献   

Before undertaking new biomedical research, identifying concepts that have already been patented is essential. A traditional keyword-based search on patent databases may not be sufficient to retrieve all the relevant information, especially for the biomedical domain. This paper presents BioPatentMiner, a system that facilitates information retrieval and knowledge discovery from biomedical patents. The system first identifies biological terms and relations from the patents and then integrates the information from the patents with knowledge from biomedical ontologies to create a semantic Web. Besides keyword search and queries linking the properties specified by one or more RDF triples, the system can discover semantic associations between the Web resources. The system also determines the importance of the resources to rank the results of a search and prevent information overload while determining the semantic associations.  相似文献   

由于现有的Web日志缺少明显语义,提出一种语义Web日志模型--SWLM,并给出基于该模型的网页和用户聚类算法.通过日志概念的语义距离定量计算来聚类网页和用户,奠定了Web个性化服务的基础.性能测试实验证明,该模型具有较好的整体性能,能有效地进行网页和用户聚类.  相似文献   

基因相关生物医学文献挖掘研究   总被引:1,自引:0,他引:1  
系统生物学研究产生的大量生物医学文献包含了丰富的生物学知识。生物医学文献挖掘能够利用海量文献资源,获取国际上生命科学最新研究成果。我们开发了基因相关文献挖掘网络平台,应用自然语言处理技术,集成了文献自动采集工具、句法分析器、Gene Ontology等最新的生物医学领域知识库,能够对文献进行深度挖掘,进行基因功能、基因与疾病关系、生物分子相互作用网络知识发现.辅助形成生物科学研究创新假设,挖掘准确率可达86%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号