首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 172 毫秒
1.
一种基于HBase的高效空间关键字查询策略   总被引:2,自引:0,他引:2  
随着移动定位技术的发展以及智能手机的普及,互联网中空间文本对象的数量正在急速增长,如何在规模庞大且动态增长的空间文本对象中进行高效的空间关键字查询成为了许多空间关键字查询应用所关心的问题.现有的方法通常利用基于R树和倒排索引的混合索引结构来处理空间关键字查询,然而,面对数量巨大而且不断增长的空间文本对象,这些方法往往难以为空间关键字查询的高效性和扩展性提供支持.对此,提出一种基于HBase的空间文本数据索引结构SK-HBase.SK-HBase以HBase作为数据存储,通过有效的数据分配策略对空间文本对象的空间信息和文本信息同时进行索引.在SK-HBase的基础上,本文提出了两种空间关键字查询算法,以保证不同空间范围下的空间关键字查询的高效性和可扩展性.实验证明,我们的方法能够在海量数据下进行高效的空间关键字查询并具有良好的可扩展性.  相似文献   

2.
针对普通的空间关键字查询通常会导致多查询结果的问题。本文提出了一种基于空间对象位置-文本相关度的top- k 查询与排序方法,用于获取与给定空间关键字查询在文本上相关且位置上相近的典型空间对象。该方法分为离线处理和在线查询处理2个阶段。在离线阶段,根据空间对象之间的位置相近性和文本相似性,度量任意一对空间对象之间的位置-文本关系紧密度。在此基础上,提出了基于概率密度的代表性空间对象选取算法,根据空间对象之间的位置-文本关系为每个代表性空间对象构建相应的空间对象序列。在线查询处理阶段,对于一个给定的空间关键字查询,利用Cosine相似度评估方法计算查询条件与代表性空间对象之间的相关度,然后使用阈值算法(threshold algorithm,TA)在预先创建的空间对象序列上快速选出top- k 个满足查询需求的典型空间对象。实验结果表明:提出的空间对象top- k 查询与排序方法能够有效地满足用户查询需求,并且具有较高的准确性、典型性和执行效率。  相似文献   

3.
近年来,带有位置和文本信息的空间-文本数据的规模迅速增长,以空间-文本数据为背景的空间关键字查询技术得到广泛的研究与应用。现有大多数空间关键字查询方法通常以单个空间对象作为查询结果的基本单元,最近有少数研究工作提出以一组空间对象作为查询结果的基本单元,这组空间对象联合满足用户的查询需求,但却没有考虑组内空间对象之间的关联关系。针对上述问题,提出一种top-[k]集合空间关键字近似查询方法。提出一种基于关联规则的空间对象之间的关联访问度评估方法,设计了一种结合距离和组内空间对象关联访问度的评分函数;提出了一种基于VP-Tree的剪枝策略,用于快速搜索空间对象的局部邻域,进而加快查询匹配速度;利用评分函数计算候选空间对象组合的得分,并以此选取top-[k]组空间对象作为查询结果。实验结果表明,提出的空间对象关联度评估方法具有较高的准确性,提出的剪枝策略具有较高的执行效率,获取的top-[k]组空间对象具有较高的用户满意度。  相似文献   

4.
现有的空间关键字查询处理模式大都仅支持位置相近和文本相似匹配,但不能将语义相近但形式上不匹配的对象提供给用户;并且,当前的空间-文本索引结构也不能对空间对象中的数值属性进行处理。针对上述问题,本文提出了一种支持语义近似查询的空间关键字查询方法。首先,利用词嵌入技术对用户原始查询进行扩展,生成一系列与原始查询关键字语义相关的查询关键字;然后,提出了一种能够同时支持文本和语义匹配,并利用Skyline方法对数值属性进行处理的混合索引结构AIR-Tree;最后,利用AIR-Tree进行查询匹配,返回top-k个与查询条件最为相关的有序空间对象。实验分析和结果表明,与现有同类方法相比,本文方法具有较高的执行效率和较好的用户满意度;基于AIR-Tree索引的查询效率较IRS-Tree索引提高了3.6%,在查询结果准确率上较IR-Tree和IRS-Tree索引分别提高了10.14%和16.15%。  相似文献   

5.
由于数据空间自身的特点使得数据空间中的关键字查询与Web上和关系数据库上的关键字查询有着很大的差别,已有的关键字查询技术不能完全满足和适用数据空间环境.关键字查询的简略性和无结构性所带来的模糊语义,无法准确地理解用户的查询意图使得查询结果不能很好地满足用户需求等.本文提出一种数据空间中的语义关键字实体查询机制keymanticES,着重介绍了关键字查询意图消歧的方法从而较好地解决了关键字查询的语义模糊问题,提高了关键字查询的准确率.实验结果表明所提出方法的有效性和正确性.  相似文献   

6.
针对传统关系数据库处理海量空间文本数据的不足,基于HBase数据库提出了一种结合Geohash编码与分词技术的空间文本索引方案,并基于该空间文本索引提出了一种多边形区域内的空间关键字查询算法。通过与传统经纬度索引方案的实验比较,验证了算法的高效性和可扩展性。  相似文献   

7.
空间近似关键字查询包含一个空间条件和一组关键字相似性条件,这种查询在空间数据库中返回同时满足以下条件的对象:1)对象的位置信息满足查询中的空间条件;2)对于查询中的任何一个关键字,对象中至少包含一个关键字与其相似度大于给定阈值.随着当前数据的爆炸性增长,空间数据库无法完整地存放在内存中,因此空间数据库需要支持空间近似关键字查询的外存索引.目前,还没有在外存中支持精确的空间近似关键字查询的索引结构.设计了一种新型的外存索引RB树,在外存中支持精确的空间近似关键字查询.RB树支持的空间近似关键字查询包括多种空间条件,如范围查询、NN查询,同时支持多种关键字相似性度量,包括编辑距离、规范化编辑距离等.通过真实数据中的性能测试验证了RB树的效率.  相似文献   

8.
为了支持各类基于位置的服务,人们提出了各种查询和搜索空间文本数据的方法和技术.传统的空间关键字查询和近期提出的空间模式匹配不支持用户定义查询关键字对象以及对象之间细致的空间结构关系,使得查询结果集庞大但无效结果偏多,不能满足用户高效且精确的查询需求.本文因此提出了一种新的查询模式——空间结构匹配查询(Spatial Structure Matching,SSM),允许用户定义一组查询关键字对象并指定任意两个对象之间的距离和方向约束.为了解决SSM查询问题,本文首先提出了一种基于多路连接的基准方法,将SSM查询问题分解为单个对象的关键字匹配,两个对象的边匹配和多个对象的聚合匹配.为了提高SSM查询效率,本文提出了基于扫描线算法的边匹配计算,利用对象的地理位置信息来降低边匹配计算开销.本文利用同时满足查询关键字,距离和方向约束的空间对象构造对象连接图,从而将SSM查询问题转换为在对象连接图上搜索与SSM查询结构同构的子图匹配问题,并且利用经典的子图同构匹配算法求解获得最终的查询结果.在四个大规模空间文本数据集上的实验结果表明,本文所提算法的查询效率远高于对比算法,返回的查询结果集精简有效且...  相似文献   

9.
半结构化中文信息检索中查询结果相关度算法的研究   总被引:2,自引:0,他引:2  
本文研究了对富含文本信息的XML数据进行基于关键字的查询时,查询结果与查询条件之间相关度的计算问题,分析了利用传统信息检索技术解决该问题时存在的一些不足,提出了一种基于节点的动态的关键字权重计算法,以及综合考虑关键字在查询结果中的频率分布特征和结构分布特征的查询结果相关度计算法,有效解决了XML数据中的结构信息对相关度计算的影响,实验证明本文中的方法取得了较好的检索性能。  相似文献   

10.
当前时空数据库中的关键字查询大多数都是简单的传统查询。随着基于位置服务(LBS)的进一步发展,新类型的应用也随之出现,这些新的应用中的对象不仅包含位置信息,还包含和位置相关的文本信息,例如名字、类型等等,传统查询不再适用。为了能够高效地处理时空查询,提出一种新颖的时空关键字查询类型,称为反最近关键字聚集查询。  相似文献   

11.
Due to the wide-spread use of geo-positioning technologies and geo-social networks, the reverse top-k geo-social keyword query has attracted considerable attention from both industry and research communities. A reverse top-k geo- social keyword (RkGSK) query finds the users who are spatially near, textually similar, and socially relevant to a specified point of interest. RkGSK queries are useful in many real-life applications. For example, they can help the query issuer identify potential customers in marketing decisions. However, the query constraints could be too strict sometimes, making it hard to find any result for the RkGSK query. The query issuers may wonder how to modify their original queries to get a certain number of query results. In this paper, we study non-answer questions on reverse top-k geo-social keyword queries (NARGSK). Given an RkGSK query and the required number M of query results, NARGSK aim to find the refined RkGSK query having M users in its result set. To efficiently answer NARGSK, we propose two algorithms (ERQ and NRG) based on query relaxation. As this is the first work to address NARGSK to the best of our knowledge, ERQ is the baseline extended from the state-of-the-art method, while NRG further improves the efficiency of ERQ. Extensive experiments using real-life datasets demonstrate the efficiency of our proposed algorithms, and the performance of NRG is improved by a factor of 1–2 on average compared with ERQ.  相似文献   

12.
With the rocket development of the Internet, WWW(World Wide Web), mobile computing and GPS (Global Positioning System) services, location-based services like Web GIS (Geographical Information System) portals are becoming more and more popular. Spatial keyword queries over GIS spatial data receive much more attention from both academic and industry communities than ever before. In general, a spatial keyword query containing spatial location information and keywords is to locate a set of spatial objects that satisfy the location condition and keyword query semantics. Researchers have proposed many solutions to various spatial keyword queries such as top-K keyword query, reversed kNN keyword query, moving object keyword query, collective keyword query, etc. In this paper, we propose a density-based spatial keyword query which is to locate a set of spatial objects that not only satisfies the query’s textual and distance condition, but also has a high density in their area. We use the collective keyword query semantics to find in a dense area, a group of spatial objects whose keywords collectively match the query keywords. To efficiently process the density based spatial keyword query, we use an IR-tree index as the base data structure to index spatial objects and their text contents and define a cost function over the IR-tree indexing nodes to approximately compute the density information of areas. We design a heuristic algorithm that can efficiently prune the region according to both the distance and region density in processing a query over the IR-tree index. Experimental results on datasets show that our method achieves desired results with high performance.  相似文献   

13.
Searching XML data using keyword queries has attracted much attention because it enables Web users to easily access XML data without having to learn a structured query language or study possibly complex data schemas. Most of the current approaches identify the meaningful results of a given keyword query based on the semantics of lowest common ancestor (LCA) and its variants. However, given the fact that LCA candidates are usually numerous and of low relevance to the users?? information need, how to effectively and efficiently identify the most relevant results from a large number of LCA candidates is still a challenging and unresolved issue. In this article, we introduce a novel semantics of relevant results based on mutual information between the query keywords. Then, we introduce a novel approach for identifying the relevant answers of a given query by adopting skyline semantics. We also recommend three different ranking criteria for selecting the top-k relevant results of the query. Efficient algorithms are proposed which rely on some provable properties of the dominance relationship between result candidates to rapidly identify the top-k dominant results. Extensive experiments were conducted to evaluate our approach and the results show that the proposed approach has a good performance compared with other existing approaches in different data sets and evaluation metrics  相似文献   

14.
社交网络数据具有一定的聚合性,即特征上相近的用户之间更容易产生某种行为。依照常规的水平切分方法,在执行这些事件的信息查询时,将会耗费大量的时间和连接损耗去依次访问多个数据库。针对此问题,提出了基于聚类分析的社交网络数据库分库策略。将社交网络主体的特征标量进行聚类,使得聚集程度高的主体尽量分割到一个或尽可能少的几个分库中去,从而提高事件的查询效率,并在此基础上兼顾负载均衡与大数据迁移等问题。实验结果表明,该策略在社交网络的主流事件查询上都表现出不同程度的性能提升,最高提升程度达到23.4%,并且实现了局部最优负载均衡和零数据迁移。总的来说,基于聚类分析的社交网络数据库分库策略在提高查询效率、平衡负载以及大数据迁移可行性上,比传统水平切割分库有了相当的优势。  相似文献   

15.
Keyword search enables inexperienced users to easily search XML database with no specific knowledge of complex structured query languages and XML data schemas. Existing work has addressed the problem of selecting data nodes that match keywords and connecting them in a meaningful way, e.g., SLCA and ELCA. However, it is time-consuming and unnecessary to serve all the connected subtrees to the users because in general the users are only interested in part of the relevant results. In this paper, we propose a new keyword search approach which basically utilizes the statistics of underlying XML data to decide the promising result types and then quickly retrieves the corresponding results with the help of selected promising result types. To guarantee the quality of the selected promising result types, we measure the correlations between result types and a keyword query by analyzing the distribution of relevant keywords and their structures within the XML data to be searched. In addition, relevant result types can be efficiently computed without keyword query evaluation and any schema information. To directly return top-k keyword search results that conform to the suggested promising result types, we design two new algorithms to adapt to the structural sensitivity of the keyword nodes over the keyword search results. Lastly, we implement all proposed approaches and present the relevant experimental results to show the effectiveness of our approach.  相似文献   

16.
现代社会电子社交的网络越大越大,基于WebGIS的地理社交网络服务也融入了人们的生活.地理社交网络推出了很多位置信息服务,受到平台框架与语言编写的限制,定位精度受到了很大的影响,而地理位置服务也大多停留于签到与信息分享层面上,并未真正实现空间位置服务.本文对我国网络地理信息系统结构和实现的技术进行研究,提出了基于WebGIS的地理社交网络构建,为人们的出行服务更顺畅服务,满足无网络离线状态的地图查询与应用.  相似文献   

17.
以RDF结构为基础的数据网的发展中,高效数据检索成为关键问题之一。形式化查询语言(如SPARQL)因其语法的复杂性及查询本体的相关性阻碍其效用的发挥,迫切需要新的方法或工具实现以自然语言为基础(如关键字检索)的检索。形式化查询语言是检索这类结构化数据的有效方式,用户习惯自然语言为基础的检索方式。因而如何自动将关键词为基础的检索方式转换成以形式化查询为基础的检索方式是实现数据网的重要一环。关联数据的自然语言查询方法自动将自然语言查询转换成SPARQL查询,提高系统的有效性和效率。文中在抽象转换度量模型的基础上,以本体为基础构建查询语义图及实现语义消歧,构建SPARQL查询。实验结果表明,该方法具有更高的召回率、精度及更低的时间消耗。  相似文献   

18.
目前大多数P2P系统只提供文件的共享,缺乏数据管理能力.基于关系数据库上的关键搜索,本文提出了一种在P2P环境下共享数据库的新框架,其中每个节点上的数据库被看成是一个文档集,用户不用考虑数据库的模式结构信念,简化了不同节点数据库模式间的映射过程,能更好地适应P2P的分散和动态特性.将基于直方图的分层Top-k查询算法扩展到P2P环境下的数据库管理系统上,文档集和数据库的查询被统一起来,一致对待.在查询处理期间,直方图可以自动更新,同时根据查询结果,邻居节点可以自调整,具有自适应性.实验结果表明,基于关键词的数据库共享突破了传统的数据库共享模式,简化了数据访问方式,而基于直方图的Top-k查询算法提高了查询效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号