首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
在大数据时代,具有海量数据存储能力的HBase已被广泛应用。HBase只对行键进行了索引优化,对非行键的列未建立索引,这严重影响了复杂条件查询的效率。针对此问题,提出了基于内存的HBase二级索引方案。该方案对需要查询的列建立了映射到行键的索引,并将索引存储在Spark搭建的内存环境中,在查询时先通过索引获取行键,然后利用行键在HBase中快速查找对应的记录。由于列的基数大小和是否涉及范围查询决定了建立索引的类型,故针对三种不同情况构建了不同类型的索引,并利用Spark内存计算、并行化的特点来提高索引的查询效率。实验结果表明,该二级索引具有较好的查询性能,查询时间小于基于Solr的二级索引,可以解决HBase中因非行键的列缺乏索引导致查询效率较低的问题,提高基于HBase存储的大数据分析的查询效率。  相似文献   

2.
Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方法.该方法使用正则表达式将URL元素通配化,归并相同元素后划分为子集,再计算子集内URL之间的相似度,并根据相似程度较高的URL构造虚拟目录树,基于虚拟目录树生成语料爬取的URL过滤规则和分类规则.文中详细介绍虚拟目录树的生成算法,并通过实验对比不同相似度阈值对目录树生成结果和URL过滤效果的影响.  相似文献   

3.
目前,关系数据库中的分区技术应用相当广泛,但是用分区策略管理海量要素图层数据的存储与索引没有比较系统的技术方法。采用不同管理方式、不同分区粒度、不同索引方式及其组合的分区技术来系统地管理海量空间图层数据,进一步研究了不同的分区粒度及索引方式对查询效率的影响,并通过实验验证了关系数据库中的分区技术对海量要素图层数据的存储与管理具有优化作用。结果表明,在不使用分区键作为查询条件时,分区粒度越大查询效率越高;使用分区键作为查询条件时,本地分区索引查询效率更高等。利用合理的分区方案使得海量要素图层数据存储和管理得以优化,对矢量大数据的存储和管理研究具有重要意义,为更好地应用分区技术来解决实际遇到的存储与检索效率问题提供决策支持。  相似文献   

4.
中文关键词模糊密文搜索方案依赖预定义的关键词模糊集,存在搜索复杂度高和存储空间大等不足。为此,提出一种应用于云存储的基于拼音相似度的多关键词密文模糊搜索方案。运用拼音相似度和欧氏距离衡量汉字的相似度,以布隆过滤器为基础,利用p-稳定分布的局部哈希函数构造索引,实现多个中文关键词的密文模糊搜索。实验结果表明,与基于关键词的加密云数据模糊搜索方案相比,该方案搜索效率较高,存储代价较小,且能够保证信息安全。  相似文献   

5.
分布式存储技术因其良好的可扩展性、高性价比在当前云存储系统和企业存储中心得到广泛应用.在分布式存储系统中进行内嵌删冗可以有效降低系统存储开销,提高数据存取效率,实现内嵌删冗的关键在于高性能和可扩展的元数据索引方法.该方法应确保删冗操作不影响存储性能.通过分析影响索引性能的关键因素,提出一种分布式相似文件元数据集合索引的构建方法.该方法使用位置敏感Hash函数,将具有相同数据片的相似文件元数据组成集合并建立索引,使一个文件所有数据片元数据检索只需要访问一次外存,有效提高元数据检索效率.并且所生成的索引具有良好可扩展性和很小的内存开销,适合在采用分布式存储结构的云存储系统或者企业存储系统中进行应用.  相似文献   

6.
基于压缩稀疏矩阵矢量相乘的文本相似度计算   总被引:4,自引:0,他引:4  
在信息检索矢量模型的基础上.提出了一种基于压缩稀疏矩阵矢量相乘的文本相似度计算方法,具有矢量模型计算简单和速度快的特点.该方法采用压缩稀疏矩阵矢量空间存储数据,在相似度计算和数据存储时不需要考虑文本矢量矩阵中的零元素,大大减少了计算量和存储空间,从而使信息检索系统运行效率显著提高.仿真实验表明,上述方法比基于矢量模型的传统反向索引机制节省了38%的存储空间.  相似文献   

7.
本文以文献管理系统为基础,介绍了关键字映射索引算法和相似文献分类算法。关键字映射索引算法使关 键字与文献存贮地址直接映射,不实施反复比较操作,有较高效率;相似文献分类算法是智能检索的初步探讨。两算 法适宜今后在计算机信息处理中广泛应用。  相似文献   

8.
分析了HBase的存储模型和Spark的并行处理机制,提出一种矢量空间数据的分布式存储、索引和并行区域查询方法。设计了基于空间对象中心点的行键存储方案,将中心点的Hilbert编码与经纬度小数位结合实现行键的唯一性,保证地理位置接近的要素在表中存储在相邻的行。实现了基于Spark的空间索引并行构建和区域查询方法,借助空间对象中心点的Hilbert编码快速构建索引,通过多边形区域的最小外接矩形过滤查询结果。实验结果表明,索引并行构建可靠性好速度快,区域查询并行处理算法可行且效率高。  相似文献   

9.
在网页分类的过程中,鉴于存储查询过程中的URL规范化需求,提出一种基于有限状态机的URL解析方法,并进行了详细的分析设计,解决了现存URL解析方法效率低、资源消耗大的缺点,提高了解析的效率和容错性能.  相似文献   

10.
基于相似度的粗关系数据库的近似查询   总被引:3,自引:2,他引:1  
基于数据库理论和粗集方法研究了粗关系数据库中不确定数据的存储、索引和检索。提出了分别采用邻接表和十字链表实现粗关系数据库中属性值等价类和元组数据的存储;借助汉明距离和聚类方法,提出了实现粗关系数据库索引的方法;提出一种基于Rough集中的上、下近似计算数据间的相似度,并基于相似度给出了对粗关系数据库进行查询的模型,设计了相应的查询算法。最后,通过一个具体实例说明了查询算法的可行性和有效性。  相似文献   

11.
基于信息熵构造判定树的数据挖掘算法的设计与实现   总被引:6,自引:0,他引:6  
该文讨论了信息量或熵构造判定树的数据挖掘算法,阐明了算法中如何处理高分枝属性、数据清理及剪枝等关键环节,并说明了具体实现方法。  相似文献   

12.
相比于集成学习,集成剪枝方法是在多个分类器中搜索最优子集从而改善分类器的泛化性能,简化集成过程。帕累托集成剪枝方法同时考虑了分类器的精准度及集成规模两个方面,并将二者均作为优化的目标。然而帕累托集成剪枝算法只考虑了基分类器的精准度与集成规模,忽视了分类器之间的差异性,从而导致了分类器之间的相似度比较大。本文提出了融入差异性的帕累托集成剪枝算法,该算法将分类器的差异性与精准度综合为第1个优化目标,将集成规模作为第2个优化目标,从而实现多目标优化。实验表明,当该改进的集成剪枝算法与帕累托集成剪枝算法在集成规模相当的前提下,由于差异性的融入该改进算法能够获得较好的性能。  相似文献   

13.
提出了新的基于RDF的无泄露XML文档安全发布方法.将XML节点封装为RDF对象,提高了刻画推理问题的能力;基于关键字的XML文档归并方法,在结合保存的历次发布记录基础上,有效拓展了推理控制的范围;最后通过对待发布文档的剪枝实现了文档的安全发布.  相似文献   

14.
当前利用分块进行实体识别的方案,忽略分块键权重和分块键的歧义,导致精确度较低。提出一个基于无向加权图的无模式实体识别方法,抽取数据源中的分量,利用分量信息熵和TF-IDF方法组合求取聚类分量,建立统一分块方案。通过聚类分量权重与分块键的关系,赋予每组分块键一定的权重,将该权重与边的共现频次进行相乘加权形成无向分块加权图,最后通过修剪方案进行边的修剪,从而解决了数据多分量及分块键歧义问题,提高了精确度。在七个真实数据集上的实验证明了该方法的有效性和可扩展性。  相似文献   

15.
活动轨迹的近似查询是在带关键词信息的轨迹集中,检索与查询点集距离最近且满足查询点集关键词要求的活动轨迹的过程。因为GAT(Grid index for Activity Trajectories)不能查询海量活动轨迹,将GAT扩展到适用于海量活动轨迹的近似查询技术GATH(GAT on Hadoop)。和GAT相比,GATH使用两种新的索引结构进行剪枝;其网格索引依照海量数据的特点从底层单元格开始进行基于空间的剪枝;其倒排索引用于进行基于关键词的剪枝。实验结果证实GATH比GAT能有效缩短索引建立时间及提高剪枝效率。  相似文献   

16.
过程模型的相似性计算是业务过程管理中不可缺少的任务,广泛应用于组织合并、用户需求变更、模型仓库管理等多个场景.对基于主变迁序列的相似性度量方法 PTS进行研究,并提出了改进方案.通过定义完整触发序列表示模型行为,基于A*算法结合剪枝策略实现触发序列集合间的映射,进而完成模型相似性计算.实验结果表明:该方法较主流的基于模型行为相似性算法,计算合理性有很大提升.  相似文献   

17.
Exploiting the JPEG compression scheme for image retrieval   总被引:10,自引:0,他引:10  
We address the problem of retrieving images from a large database using an image as a query. The method is specifically aimed at databases that store images in JPEG format, and works in the compressed domain to create index keys. A key is generated for each image in the database and is matched with the key generated for the query image. The keys are independent of the size of the image. Images that have similar keys are assumed to be similar, but there is no semantic meaning to the similarity  相似文献   

18.
一种有效的量化交易数据相似性搜索方法   总被引:7,自引:0,他引:7  
量化交易数据与一般交易数据的不同之处在于它在各个维上的值是数值型而不是二值型的。研究这种数据的有效的相似性搜索方法是一个重要而具有挑战性的课题,提出了一个新的相似性度量函数Hsim(),这个度量函数可以较好地克服Lp等传统的距离函数在高维空间中的缺点,并能将二值型和数值型数据距离的计算整合到一个统一的框架中去。结合量化交易数据的特点,构造了定义在该函数上的相似性索引结构,并对建立在该索引结构上的相似性查询方法进行了阐述。实验表明,这种搜索方法对量化交易数据的相似性搜索有较高的修剪率,能大大地加快搜索的速度。  相似文献   

19.
Recently, uncertain graph data management and mining techniques have attracted significant interests and research efforts due to potential applications such as protein interaction networks and social networks. Specifically, as a fundamental problem, subgraph similarity all-matching is widely applied in exploratory data analysis. The purpose of subgraph similarity all-matching is to find all the similarity occurrences of the query graph in a large data graph. Numerous algorithms and pruning methods have been developed for the subgraph matching problem over a certain graph. However, insufficient efforts are devoted to subgraph similarity all-matching over an uncertain data graph, which is quite challenging due to high computation costs. In this paper, we define the problem of subgraph similarity maximal all-matching over a large uncertain data graph and propose a framework to solve this problem. To further improve the efficiency, several speed-up techniques are proposed such as the partial graph evaluation, the vertex pruning, the calculation model transformation, the incremental evaluation method and the probability upper bound filtering. Finally, comprehensive experiments are conducted on real graph data to test the performance of our framework and optimization methods. The results verify that our solutions can outperform the basic approach by orders of magnitudes in efficiency.  相似文献   

20.
针对现有结构化剪枝方法过度依赖预训练模型和直接丢弃不重要卷积核的信息造成了明显的性能下降的问题,提出一种基于信息融合策略的卷积神经网络剪枝方法(APBM),以较小精度损失降低模型复杂度、实现模型加速。首先APBM方法引入信息熵概念以表示卷积核的相似度分布,并使用分布之间的相对熵动态衡量卷积核的重要程度;同时在训练的前向传播中采用信息融合策略:融合非重要卷积核信息与重要卷积核信息,以减少剪枝过程中的信息损失和提高剪枝的容错性。在CIFAR10和CIFAR100数据集上进行验证和对比实验。实验结果表明:相对于HRank、Polarization、SWP等剪枝算法,APBM方法训练时间更少、模型压缩率更高,精度保持最佳。在基于CIFAR10的剪枝任务中,对VGG16和ResNet56分别剪掉92.74%和48.84%的参数量;在基于CIFAR100的剪枝任务中,对VGG16和ResNet56分别剪掉72.91%和44.18%的参数量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号