首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
基于《知网》的词汇语义计算方法,提出了一种基于向量空间模型的文本信息检索新方法。方法的基本技术思想是通过计算关键词的语义相似度,并采用最大权匹配方法来计算查询向量和文本向量的相似度,作为相关文本的检索依据。该方法基于全局最优,使文本和查询向量中各词条的相似度总和最大,从而可以从整体上提高文本信息检索的准确率。论文还通过原型实验对该方法的有效性进行了验证。  相似文献   

2.
基于语义空间的支持向量机的文本过滤   总被引:2,自引:0,他引:2  
传统的基于支持向量机的文本过滤,用向量空间模型来表示文本和用户模板,向量空间模型假设特征项之间是线性无关的,该假设引入了许多因具体用词变化不定而带来的词汇噪音信息,影响了基于支持向量机的文本过滤的过滤性能。提出基于语义空间的支持向量机的文本过滤,用语义来表示文本和用户模板。该方法主要通过奇异值分解提取文本的潜在语义空间,在语义空间上训练支持向量机得到用户模板和过滤阈值,文本流上的文本映射到语义空间上,在语义空间上计算用户模板和新文本的相似度。实验表明:该方法的过滤性能可以达到 98. 67%。  相似文献   

3.
在知识图谱的知识表示学习中,绝大多数方法都是将知识图谱中实体和关系映射到低维的连续向量空间中,但数据的稀疏和信息的不足仍会导致实体和关系语义表示的不完整性.针对这个问题,提出基于图上下文的知识表示学习模型(Context_RL).将知识图谱中实体和关系的上下文信息作为可靠数据来源和输入.通过计算实体和关系的语义相似度,将图上下文信息融入向量表示中,在语义的层面上提高了知识图谱表示学习的能力.通过实体预测和三元组分类实验,在有关数据集上,Context_RL的实验结果比其他模型更好.  相似文献   

4.
将语义数据流处理引擎与知识图谱嵌入表示学习相结合,可以有效提高实时数据流推理查询性能,但是现有的知识表示学习模型更多关注静态知识图谱嵌入,忽略了知识图谱的动态特性,导致难以应用于实时动态语义数据流推理任务。为了使知识表示学习模型适应知识图谱的在线更新并能够应用于语义数据流引擎,建立一种基于改进多嵌入空间的动态知识图谱嵌入模型PUKALE。针对传递闭包等复杂推理场景,提出3种嵌入空间生成算法。为了在进行增量更新时更合理地选择嵌入空间,设计2种嵌入空间选择算法。基于上述算法实现PUKALE模型,并将其嵌入数据流推理引擎CSPARQL-engine中,以实现实时语义数据流推理查询。实验结果表明,与传统的CSPARQL和KALE推理相比,PUKALE模型的推理查询时间分别约降低85%和93%,其在支持动态图谱嵌入的同时能够提升实时语义数据流推理准确率。  相似文献   

5.
基于查询扩展词条加权的文本检索研究   总被引:1,自引:1,他引:0  
本文分析了关键词检索文本,由于其查询词没有扩展导致检全率低;而概念检索文本虽然部分有检索词扩展,但是查询词权重与原查询词没有区分.为此,本文利用词条间的语义相似度,提出一种查询扩展词条权重计算方法--展开减小法,并将查询词以及扩展词经展开减小法计算权重后构建向量空间模型检索文本.实验表明,构建的检索模型检索文本,其综合...  相似文献   

6.
融合描述文档结构和参引特征的Web 服务发现   总被引:1,自引:0,他引:1  
魏登萍  王挺  王戟 《软件学报》2011,22(9):2006-2019
首先分析研究Web服务描述文档(WSDL文档)的两大特征——结构特征和参引特征,然后根据各个特征对Web服务功能语义描述的影响,提出相应的Web服务表示模型——多向量表示模型.区别于通用文本表示模型,该模型能够显式地表示Web服务描述文档的本质特征.其中,结构特征语义表现在多向量空间的划分上,参引特征语义映射到子向量模型中特征权重的计算上.提出了基于多向量模型的Web服务相似度计算方法,并实现了基于该模型的Web服务发现原型系统.最后,在真实Web服务描述文档集合上构造了一个具有不完全相关性判断且涵盖了1576个WSDL文档的Web服务发现测试集,并在该测试集上进行了基于多向量模型的Web服务发现实验评估.实验结果表明,基于多向量模型的Web服务发现方法的检索效果比基于简单文本向量空间模型发现方法的检索效果在95%的置信度下有了显著提高.  相似文献   

7.
李岩  张博文  郝红卫 《计算机应用》2016,36(9):2526-2530
针对传统查询扩展方法在专业领域中扩展词与原始查询之间缺乏语义关联的问题,提出一种基于语义向量表示的查询扩展方法。首先,构建了一个语义向量表示模型,通过对语料库中词的上下文语义进行学习,得到词的语义向量表示;其次,根据词语义向量表示,计算词之间的语义相似度;然后,选取与查询中词汇的语义最相似的词作为查询的扩展词,扩展原始查询语句;最后,基于提出的查询扩展方法构建了生物医学文档检索系统,针对基于维基百科或WordNet的传统查询扩展方法和BioASQ 2014—2015参加竞赛的系统进行对比实验和显著性差异指标分析。实验结果表明,基于语义向量表示查询扩展的检索方法所得到结果优于传统查询扩展方法的结果,平均准确率至少提高了1个百分点,在与竞赛系统的对比中,系统的效果均有显著性提高。  相似文献   

8.
对基于向量空间模型的检索方法进行改进,提出基于本体语义的信息检索模型。将WordNet词典作为参照本体来计算概念之间的语义相似度,依据查询中标引项之间的相似度,对查询向量中的标引项进行权值调整,并参照Word-Net本体对标引项进行同义和上下位扩展,在此基础上定义查询与文档间的相似度。与传统的基于词形的信息检索方法相比,该方法可以提高语义层面上的检索精度。  相似文献   

9.
由于跨境民族相关的文化实体常出现相同实体具有不同名称表达的情况,使用当前主流的文本检索方法在跨境民族文化数据集上将面临语义稀疏的问题。该文提出一种基于实体语义扩展的跨境民族文化检索方法,利用跨境民族文化知识图谱,以知识三元组的形式将跨境民族文化之间的实体关联起来,并添加实体类别标签,以此缓解跨境民族文化实体中语义信息不充分的问题。通过TransH模型对实体及扩展语义信息进行向量化表示,融合到查询文本中进行语义增强,以此提升跨境民族文化文本检索的准确性。实验结果表明,该方法比基线模型提高了5.4%。  相似文献   

10.
伪相关反馈(PRF)机制是一种自动化的查询扩展(QE)技术,它利用原始查询和初次检索中前N篇文档蕴含的信息构建更加准确的查询,从而进一步提高信息检索系统的性能。但是,现有的面向稠密检索的PRF方法由于对文本的截断处理容易造成语义信息的缺失,而且在检索阶段的空间复杂度较高。针对上述问题,提出了一种基于段落级粒度且适用于长文本稠密检索的PRF方法 Dense-PRF。首先,通过计算语义距离从初次检索的前N篇文档中获得相关段落的向量;其次,对相关段落向量进行平均池化以得到QE项向量;然后,按照权重结合原始查询向量和QE项向量构建新的查询向量;最后,根据新的查询向量得到最终检索结果。在Robust04和WT2G两个经典长文本测试集上将Dense-PRF与基线模型进行了对比实验,相较于模型RepBERT+BM25,Dense-PRF在前20篇文档的准确率和归一化折现累计效益(NDCG)指标上分别提升了1.66、1.32个百分点和2.30、1.91个百分点。实验结果表明Dense-PRF能有效缓解查询与文档词汇不匹配的问题,并提升检索精度。  相似文献   

11.
随着大规模知识图谱的出现以及企业高效管理领域知识图谱的需求,知识图谱中的自组织实体检索成为研究热点。给定知识图谱以及用户查询,实体检索的目标在于从给定的知识图谱中返回实体的排序列表。从匹配的角度来看,传统的实体检索模型大都将用户查询和实体统一映射到词的特征空间。这样做具有明显的缺点,例如,将同属于一个实体的两个词视为独立的。为此,该文提出将用户查询和实体同时映射到实体与词两个特征空间方法,称为双特征空间的排序学习。首先将实体抽象成若干个域。之后从词空间和实体空间两个维度分别抽取排序特征,最终应用于排序学习算法中。实验结果表明,在标准数据集上,双特征空间的实体排序学习模型性能显著优于当前先进的实体检索模型。  相似文献   

12.
结合流形学习和相关反馈技术的图像检索方法关键是结合低层可视化信息,从少量用户反馈信息中学习用户语义,以获得语义子空间流形.为获得更真实的语义子空间,文中在区分对待低层可视化和用户反馈信息的同时,基于低层可视化信息选择学习反馈信息中的类内和类间关系,提出一种选择关系嵌入算法应用于图像检索.该方法可保留更真实的语义流形结构,从而提高在低维空间中的检索精度.实验结果表明文中方法可将图像映射到更广范围的低维空间,在反馈迭代两次之后检索精度提高最高可达16.3%.  相似文献   

13.
基于概念图的信息检索的查询扩展模型   总被引:1,自引:0,他引:1  
针对传统的基于关键词匹配的信息检索存在的查全率和精确率不高的问题,提出一种基于概念图匹配的查询扩展方法:一方面通过知网对用户查询的词或者句子进行扩展后,将用户查询和文档生成概念图;另一方面利用概念图的不完全匹配和语义相似度的计算方法计算概念图的相似度,以提高检索效果。实验结果表明该方法取得了良好的效果。  相似文献   

14.
Subspace and similarity metric learning are important issues for image and video analysis in the scenarios of both computer vision and multimedia fields. Many real-world applications, such as image clustering/labeling and video indexing/retrieval, involve feature space dimensionality reduction as well as feature matching metric learning. However, the loss of information from dimensionality reduction may degrade the accuracy of similarity matching. In practice, such basic conflicting requirements for both feature representation efficiency and similarity matching accuracy need to be appropriately addressed. In the style of “Thinking Globally and Fitting Locally”, we develop Locally Embedded Analysis (LEA) based solutions for visual data clustering and retrieval. LEA reveals the essential low-dimensional manifold structure of the data by preserving the local nearest neighbor affinity, and allowing a linear subspace embedding through solving a graph embedded eigenvalue decomposition problem. A visual data clustering algorithm, called Locally Embedded Clustering (LEC), and a local similarity metric learning algorithm for robust video retrieval, called Locally Adaptive Retrieval (LAR), are both designed upon the LEA approach, with variations in local affinity graph modeling. For large size database applications, instead of learning a global metric, we localize the metric learning space with kd-tree partition to localities identified by the indexing process. Simulation results demonstrate the effective performance of proposed solutions in both accuracy and speed aspects.  相似文献   

15.
林泽琦  邹艳珍  赵俊峰  曹英魁  谢冰 《软件学报》2019,30(12):3714-3729
自然语言文本形式的文档是软件项目的重要组成部分.如何帮助开发者在大量文档中进行高效、准确的信息定位,是软件复用领域中的一个重要研究问题.提出了一种基于代码结构知识的软件文档语义搜索方法.该方法从软件项目的源代码中解析出代码结构图,并以此作为领域特定的知识来帮助机器理解自然语言文本的语义.这一语义信息与信息检索技术相结合,从而实现了对软件文档的语义检索.在StackOverflow问答文档数据集上的实验表明,与多种文本检索方法相比,该方法在平均准确率(mean average precision,简称MAP)上可以取得至少13.77%的提升.  相似文献   

16.
基于深度学习的点击率预估模型多数通过建模各个域的特征之间的交互关系提升预估准确率。特征嵌入向量对模型效果具有重要影响,而现有的CTR模型中不同特征的嵌入向量学习过程相互独立,且由于特征长尾分布导致大部分低频特征不能学习到较好的向量表示,严重影响模型的预测效果。基于域内特征间存在隐含的相似性,提出两种分别基于特征间共现概率和游走概率的相似度定义和对应的相似性图构建方法,并给出结合剪枝策略的广度优先遍历算法实现相似特征的高效计算。在此基础上,基于域内特征相似性图,设计一种嵌入生成器,对于低频特征,在域内特征相似性图上通过图神经网络聚合与其相似的特征信息,生成新的特征嵌入,作为预处理过程对特征嵌入向量进行数据增强,提升嵌入向量的表示学习质量。在公开数据集Criteo、Avazu上的实验结果表明,该方法明显提升点击率预估模型的预测准确率,其中对代表性点击率预估模型xDeepFM和AutoInt,AUC指标分别提升了0.007和0.008,LogLoss则下降了0.009和0.006,证明了嵌入生成模型的有效性。  相似文献   

17.
Data-driven conceptual design is rapidly emerging as a powerful approach to generate novel and meaningful ideas by leveraging external knowledge especially in the early design phase. Currently, most existing studies focus on the identification and exploration of design knowledge by either using common-sense or building specific-domain ontology databases and semantic networks. However, the overwhelming majority of engineering knowledge is published as highly unstructured and heterogeneous texts, which presents two main challenges for modern conceptual design: (a) how to capture the highly contextual and complex knowledge relationships, (b) how to efficiently retrieve of meaningful and valuable implicit knowledge associations. To this end, in this work, we propose a new data-driven conceptual design approach to represent and retrieve cross-domain knowledge concepts for enhancing design ideation. Specifically, this methodology is divided into three parts. Firstly, engineering design knowledge from the massive body of scientific literature is efficiently learned as information-dense word embeddings, which can encode complex and diverse engineering knowledge concepts into a common distributed vector space. Secondly, we develop a novel semantic association metric to effectively quantify the strength of both explicit and implicit knowledge associations, which further guides the construction of a novel large-scale design knowledge semantic network (DKSN). The resulting DKSN can structure cross-domain engineering knowledge concepts into a weighted directed graph with interconnected nodes. Thirdly, to automatically explore both explicit and implicit knowledge associations of design queries, we further establish an intelligent retrieval framework by applying pathfinding algorithms on the DKSN. Next, the validation results on three benchmarks MTURK-771, TTR and MDEH demonstrate that our constructed DKSN can represent and associate engineering knowledge concepts better than existing state-of-the-art semantic networks. Eventually, two case studies show the effectiveness and practicality of our proposed approach in the real-world engineering conceptual design.  相似文献   

18.
图卷积神经网络可以通过图卷积提取图数据的有效信息,但容易受到对抗攻击的影响导致模型性能下降。对抗训练能够用于提升神经网络鲁棒性,但由于图的结构及节点特征通常是离散的,无法直接基于梯度构造对抗扰动,而在模型的嵌入空间中提取图数据的特征作为对抗训练的样本,能够降低构造复杂度。借鉴集成学习思想,提出一种基于非鲁棒特征的图卷积神经网络对抗训练方法VDERG,分别针对拓扑结构和节点属性两类特征,构建两个图卷积神经网络子模型,通过嵌入空间提取非鲁棒特征,并基于非鲁棒特征完成对抗训练,最后集成两个子模型输出的嵌入向量作为模型节点表示。实验结果表明,提出的对抗训练方法在干净数据上的准确率平均提升了0.8%,在对抗攻击下最多提升了6.91%的准确率。  相似文献   

19.
基于联合知识表示学习的多模态实体对齐   总被引:1,自引:0,他引:1  
王会勇  论兵  张晓明  孙晓领 《控制与决策》2020,35(12):2855-2864
基于知识表示学习的实体对齐方法是将多个知识图谱嵌入到低维语义空间,通过计算实体向量之间的相似度实现对齐.现有方法往往关注文本信息而忽视图像信息,导致图像中实体特征信息未得到有效利用.对此,提出一种基于联合知识表示学习的多模态实体对齐方法(ITMEA).该方法联合多模态(图像、文本)数据,采用TransE与TransD相结合的知识表示学习模型,使多模态数据能够嵌入到统一低维语义空间.在低维语义空间中迭代地学习已对齐多模态实体之间的关系,从而实现多模态数据的实体对齐.实验结果表明,ITMEA在WN18-IMG数据集中能够较好地实现多模态实体对齐.  相似文献   

20.
在线事件检索是针对事件查询,按时间序迭代返回小批量数据集中事件相关文档的检索任务。其目标是在时间轴上不断收集新鲜的事件文档,是进行一系列事件相关工作的重要基础。面对此任务,传统方法采用先进的检索模型来提升检索精度,然而却没有考虑事件本身的特性。针对这一问题,该文尝试使用两类图(事件关键词共现图、融合事件类型的二部图)对事件建模,提出了一种基于事件图的在线检索框架。案例分析与在两个公开的TREC数据集上的实验结果表明,该文方法显著提升了事件检索精度(P@10最高增幅达30%,平均增幅5.85%),且能自适应在线检索环境,支持事件的演变分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号