首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 484 毫秒
1.
综合文档语义与用户查询语义的XML关键字检索   总被引:1,自引:0,他引:1  
黎军  熊海灵 《计算机应用》2010,30(11):2945-2948
为了解决XML关键字查询中语义信息丢失的问题,提出了一种语义相关的关键字检索方法。利用文档的半结构化特点提取文档隐含的语义,利用查询语法捕获用户查询意图,然后根据用户意图查询满足条件的元素,并结合文档语义,由最小最近公共祖先改进为语义相关实体子树集来表达查询结果。实验结果表明,该方法能够有效提高关键字检索结果的查准率。  相似文献   

2.
传统的云计算下的可搜索加密算法没有对查询关键词进行语义扩展,导致了用户查询意图与返回结果存在语义偏差,并且对检索结果的相关度排序不够合理,无法满足用户对智能搜索的需求。对此,提出了一种支持语义的可搜索加密方法。该方法利用本体知识库实现了用户查询的语义拓展,并通过语义相似度来控制扩展词的个数,防止因拓展词过多影响检索的精确度。同时,该方法利用文档向量、查询向量分块技术构造出对应的标记向量,以过滤无关文档,并在查询-文档的相似度得分中引入了语义相似度、关键词位置加权评分及关键词-文档相关度等影响因子,实现了检索结果的有效排序。实验结果表明,该方法在提高检索效率的基础上显著改善了检索结果的排序效果,提高了用户满意度。  相似文献   

3.
目前大多搜索引擎结果聚类算法针对用户查询生成的网页摘要进行聚类,由于网页摘要较短且质量良莠不齐,聚类效果难以保证。提出了一种基于频繁词义序列的检索结果聚类算法,利用WordNet结合句法和语义特征对搜索结果构建聚类及标签。不像传统的基于向量空间模型的聚类算法,考虑了词语在文档中的序列模式。算法首先对文本进行预处理,生成压缩文档以降低文本数据维度,构建广义后缀树,挖掘出最大频繁项集,然后获取频繁词义序列。从文档中获取的有序频繁项集可以更好地反映文档的主题,把相同主题的搜索结果聚类在一起,与用户查询相关度高的优先排序。实验表明,该算法可以获得与查询相关的高质量聚类及基于语义的聚类标签,具有更高的聚类准确度和更高的运行效率,并且可扩展性良好。  相似文献   

4.
基于语义查询本体的语义网文档检索   总被引:1,自引:0,他引:1  
语义网的发展使人们需要对语义网文档进行检索.为了在不需要专业知识和技巧的情况下让用户能形成语义的查询,提出了一种基于本体可以在结构化的知识库里检索语义网文档的算法.通过将自然语言查询术语映射到词汇意义来构造查询本体,以及检索跟查询本体最相似的语义网文档,提高了对语义网文档检索的查准率,使用户能更好地利用语义检索服务.  相似文献   

5.
基于语义的数据格式转换   总被引:2,自引:0,他引:2  
本文提出了一种基于语义的数据格式转换方法.该方法以Word文档为例,采用基于学习的策略,自动地将Word文档转换为具有语义信息的XML文档,便于用户对大量Word文档进行精确的基于语义的查询和管理;该方法支持所见即所得,易于使用.  相似文献   

6.
通过自动摘要技术对生物医学概念进行摘要抽取,能够提高研究人员查阅和分析相关资料的效率.利用生物医学语义关系抽取多文档摘要,旨在从语义层面比较全面地覆盖查询概念的多方面内容,帮助研究人员快速掌握查询概念的主要信息.从生物医学文本中挖掘出了概念的重要语义关系,并利用语义关系作为衡量句子重要性的特征,生成查询概念的摘要.分析...  相似文献   

7.
语义桌面作为语义Web的一个重要分支,可以为个人计算机用户提供丰富的元数据,用以记录桌面文档的各种特征。这些特征包括文件的常规属性和与用户行为相关的属性,它们为桌面文档检索提供帮助。受到"概念图"理论的启发,本文提出了一种语义桌面环境下的文档检索算法。该算法能有效地利用语义桌面提供的元数据建立一种便于快速查找的文档索引结构,迅速地确定用户查询与桌面文档之间的投影算子。实验表明,该算法的时间效率比以往的基于匹配推理的投影算法有很大的提高,可以在很大程度上满足用户对桌面文档进行快速检索的需求。  相似文献   

8.
基于语义理解的智能搜索引擎研究   总被引:1,自引:0,他引:1  
本文提出了一种基于自然语言理解的搜索引擎模型.它的核心技术是基于自然语言理解的相关技术,包括从 关键词、提问方式、提问重点三个层次对用户查询进行语义分析、特征向量提取及基于该思想建立了面向Web网页内容 的特征库,提出返回文档排序的算法,基于Lucene全文索引工具包建立了搜索引擎,对库中已收入的特征词进行了查询 测试,查准率为86.7%.实验表明,该模型基本实现了对查询短语的理解,对提高搜索引擎的查准率有显著的效果.  相似文献   

9.
语义检索是解决信息检索中准确度、人性化要求的一个非常有潜力的方法。通过对知识文档进行主题词标注,然后建立从词元→主题词→知识文档的二级索引结构;对用户的检索,进行查询词到主题词的转化,计算语义相似度,按照语义相似度算法进行排序文档。目前基于知识文档的语义检索系统已经在某集团公司进行部署和应用,取得了前5项结果命中用户总查询90%的效果,说明这种方法是语义检索的一种有效途径。  相似文献   

10.
为了准确推断用户的查询意图,提出一个XML关键词查询和排序的方法。该方法首先根据XML文档结构和语义,分别建立标签信息表和文本信息表表示文档的结构和数据,然后通过标签和文本两个指标确定查询关键词和目标节点的相似性得分,给出排序方法。同时给出该方法实现的算法,并通过实验验证了该方法的有效性。实验结果表明,该方法可以更准确地推断用户查询的目标节点。  相似文献   

11.
基于改进潜在语义分析的跨语言检索   总被引:1,自引:0,他引:1  
该文采用基于SVD和NMF矩阵分解相结合的改进潜在语义分析的方法为生物医学文献双语摘要进行建模,该模型将英汉双语摘要映射到同一语义空间,不需要外部词典和知识库,建立不同语言之间的对应关系,便于在双语空间中进行检索。该文充分利用医学文献双语摘要语料中的锚信息,通过不同的k值构建多个检索模型,计算每个模型的信任度,使得多个模型都对查询和文本的相似度做出贡献。在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算,实现了双语摘要的跨语言检索,取得了较好的实验效果。  相似文献   

12.
XCube: Processing XPath queries in a hypercube overlay network   总被引:1,自引:0,他引:1  
In this paper, we present the design and performance of XCube, a tag-based system for managing XML data in a hypercube overlay network. In XCube, each node in a d-dimensional hypercube is identified by a d-bit vector. A peer manages a smaller hypercube with dimension d′?d. An XML document is compactly represented as a structure summary and a content summary. The structure summary comprises a d-bit vector derived from the distinct tag names in the document and a synopsis capturing the structure of the document. The content summary consists of a bit map that summarizes the document content. The metadata of a document, i.e., owner IP, document identifier, structure summary and content summary, is indexed at its anchor peer (the peer that manages the node with matching bit vector). In addition, the structure summary is further indexed at all peers that manages nodes whose bit vectors are covered by the document’s bit vector. An XPath query is processed in four phases. In phase 1, the query is routed to its anchor peer according to the bit vector of the query. In phase 2, the query is evaluated against all the synopses stored in its anchor peer and forwarded to the anchor peers of the matching synopses. In phase 3, the anchor peer of each related synopsis examines the query on the related bit maps and forwards the query to the related owner peers. Finally in phase 4, the owner peers evaluate the query on the XML documents and return answers to the querying peer. We also present a scheme that dynamically partitions the hypercube to balance the load across peers. We further exploit the partition history to remove redundant messages. We conduct a comprehensive experimental study and the results show the efficiency of XCube.  相似文献   

13.
In this paper, we develop a genetic algorithm method based on a latent semantic model (GAL) for text clustering. The main difficulty in the application of genetic algorithms (GAs) for document clustering is thousands or even tens of thousands of dimensions in feature space which is typical for textual data. Because the most straightforward and popular approach represents texts with the vector space model (VSM), that is, each unique term in the vocabulary represents one dimension. Latent semantic indexing (LSI) is a successful technology in information retrieval which attempts to explore the latent semantics implied by a query or a document through representing them in a dimension-reduced space. Meanwhile, LSI takes into account the effects of synonymy and polysemy, which constructs a semantic structure in textual data. GA belongs to search techniques that can efficiently evolve the optimal solution in the reduced space. We propose a variable string length genetic algorithm which has been exploited for automatically evolving the proper number of clusters as well as providing near optimal data set clustering. GA can be used in conjunction with the reduced latent semantic structure and improve clustering efficiency and accuracy. The superiority of GAL approach over conventional GA applied in VSM model is demonstrated by providing good Reuter document clustering results.  相似文献   

14.
为提高图像特征提取的普适性,提出了一种基于改进非负矩阵分解(NMF)的图像特征提取方法。首先,考虑到提取的图像特征的实际意义,选用非负矩阵分解模型进行图像特征的降维处理;其次,为实现用较小数量系数来描述图像特征,将稀疏约束作为非负矩阵分解模型的正则项之一;然后,为使降维后优化得到的特征具有较好的类间区分性,将聚类属性作为非负矩阵分解的另一个正则项;最后,通过对模型的梯度下降优化求解,获得最优的特征基向量与图像特征向量。实验结果表明,针对3种图像数据库,所提的图像特征更有利于图像正确分类或识别,错误接受率(FAR)与错误拒绝率(FRR)分别可以降低到0.021与0.025。  相似文献   

15.
在大数据时代背景下,越来越多的用户或者企业将大量的数据上传至云端存储以便减轻本地存储的压力和获得高效的数据共享服务管理,由此可搜索加密技术应运而生,检索效率与保证数据安全一直是研究的热点。因此,本文提出一种基于特征匹配的快速降维排序搜索方法(DRFM)。通过提出的特征得分算法,创建每一篇文档的索引特征向量;通过提出的匹配得分算法,创建查询关键词的查询匹配向量。使用K-L变换算法对所有文档索引特征向量以及查询匹配向量进行降维,提高算法效率。理论分析与实验结果表明所提的方案高效且可行。  相似文献   

16.
面向本体的语义相似度计算及在检索中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
检索是获取信息的重要方式。传统检索只停留在关键字异同的逻辑层面,忽略了语义层面的信息。以本体的知识组织体系为基础,以检索应用为目标,提出面向本体的文档和查询的语义向量表示方法,进而建立面向本体的相似度计算方法,为语义检索创造条件,检索结果关注语义层面的匹配。并在理论的指导下,进行实验和分析。  相似文献   

17.
刘高军  方晓  段建勇 《计算机应用》2020,40(11):3192-3197
随着互联网时代的到来,搜索引擎开始被普遍使用。在针对冷门数据时,由于用户的搜索词范围过小,搜索引擎无法检索出需要的数据,此时查询扩展系统可以有效辅助搜索引擎来提供可靠服务。基于全局文档分析的查询扩展方法,提出结合神经网络模型与包含语义信息的语料的语义相关模型,来更深层地提取词语间的语义信息。这些深层语义信息可以为查询扩展系统提供更加全面有效的特征支持,从而分析词语间的可扩展关系。在近义词林、语言知识库“HowNet”义原标注信息等语义数据中抽取局部可扩展词分布,利用神经网络模型的深度挖掘能力将语料空间中每一个词语的局部可扩展词分布拟合成全局可扩展词分布。在与分别基于语言模型和近义词林的查询扩展方法对比实验中,使用基于语义相关模型的查询扩展方法拥有较高的查询扩展效率;尤其针对冷门搜索数据时,语义相关模型的查全率比对比方法分别提高了11.1个百分点与5.29个百分点。  相似文献   

18.
刘高军  方晓  段建勇 《计算机应用》2005,40(11):3192-3197
随着互联网时代的到来,搜索引擎开始被普遍使用。在针对冷门数据时,由于用户的搜索词范围过小,搜索引擎无法检索出需要的数据,此时查询扩展系统可以有效辅助搜索引擎来提供可靠服务。基于全局文档分析的查询扩展方法,提出结合神经网络模型与包含语义信息的语料的语义相关模型,来更深层地提取词语间的语义信息。这些深层语义信息可以为查询扩展系统提供更加全面有效的特征支持,从而分析词语间的可扩展关系。在近义词林、语言知识库“HowNet”义原标注信息等语义数据中抽取局部可扩展词分布,利用神经网络模型的深度挖掘能力将语料空间中每一个词语的局部可扩展词分布拟合成全局可扩展词分布。在与分别基于语言模型和近义词林的查询扩展方法对比实验中,使用基于语义相关模型的查询扩展方法拥有较高的查询扩展效率;尤其针对冷门搜索数据时,语义相关模型的查全率比对比方法分别提高了11.1个百分点与5.29个百分点。  相似文献   

19.
针对VSM不能揭示文档中特征词间的潜在语义关系,相似度计算准确性较低的问题,结合本体模型的结构特点,从语义重合度、语义距离以及本体结构等因素综合考虑概念间的相似度计算,提出了一种基于领域本体的文档向量空间模型。该模型通过构建概念间的语义相似度矩阵对特征词权值进行调整,建立包含语义关系的标准(学生)答案的向量空间模型,并用"VSM模型+余弦值"算法评估学生答案和标准答案的相似度。实验表明,与传统方法相比,该方法提高了评测效果及准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号