胡海苗  姜帆 《软件学报》2015,26(S2):228-238
提出了一种可扩展的局部敏感哈希索引(SLSH),以解决高维动态数据索引中,由于数据集大小及分布特征无法确定而导致索引效率降低的问题.SLSH架构于E2LSH之上,继承了其对高维数据索引速度快,并可直接对欧式空间上的数据点进行索引的特点.为了使得哈希索引具有动态的相似性区分能力,SLSH修改了E2LSH的哈希族,通过哈希桶容量约束自适应调节哈希参数.因此对于分布密度动态变化的数据空间,SLSH也能够给出鲁棒的划分.  相似文献   

提出一种快速的图像型垃圾邮件过滤方案,结合半监督机器学习技术改进局部敏感哈希(LSH)算法,基于改进的LSH算法构建垃圾图像特征库索引,提高图像的查找速度。构造了60000个垃圾图像样本,实验结果表明利用改进的LSH算法能有效地提高垃圾图像的过滤速度。  相似文献   

基于LSH的中文文本快速检索   总被引:1,自引:0,他引:1  
蔡衡  李舟军  孙健  李洋 《计算机科学》2009,36(8):201-204
目前,高维数据的快速检索问题已经受到越来越多的关注.当向量空间的维度高于10时,R-tree,Kd-tree,SR-tree的检索效率反而不如线性检索,而位置敏感的哈希(Locality Sensitive Hashing,缩写为LSH)算法成功地解决了高维近邻数据的快速检索问题,因而受到国内外学术界的高度关注.首先介绍了LSH算法的基本原理和方法,然后使用多重探测的方法对二进制向量的LSH算法做了进一步改进.最后实现了这两种LSH算法,并通过详细的实验验证表明:在改进后的算法中,通过增加偏移量可以提高检索的召回率,而在不提高时间复杂度的情况下则可降低空间复杂度.  相似文献   

赵启潍  张乐  祝贝利  刘静 《福建电脑》2012,28(4):13-14,48
随着社交网络的兴起和不断发展,产生的海量高维数据给传统的检索技术带来了新的挑战。位置敏感哈希算法(LSH)是解决高维数据的快速检索和匹配的有效手段。本文首先叙述了LSH算法的基本原理,重点介绍了算法的构建和查询匹配过程,最后就算法的发展和未来应用进行了展望。  相似文献   

基于LSH索引的快速图像检索   总被引:1,自引:0,他引:1  
高维空间中点数据的索引及检索是基于内容图像检索领域的关键问题,文中将LSH(localitysensitivehashing)索引算法应用于基于内容图像检索系统中,与传统的索引方法相比,该算法具有复杂度比较低、支持非常高的维数、极低的I/O代价等特点。实验结果证明,将该索引算法应用于基于内容图像检索系统中,其性能优于传统的索引方法.  相似文献   

该文提出了一种新的描述图像纹理信息的复杂度直方图特征,实验结果表明该特征用于图像检索可以取得较好的检索效果。文章同时将该特征与图像色彩直方图组合特征用于图像检索,实验结果证实使用组合特征可以得到更高的检索效率。  相似文献   

目前海量时空轨迹数据近邻查询算法中存在计算时间复杂度较高的问题,因此提出了一种结合领域POI数据和E2LSH算法的轨迹KNN查询算法。首先利用GeoHash技术对地理空间进行编码,然后结合POI数据实现向量空间的初步降维,进而根据停留时间构建每条轨迹的向量,采用局部敏感哈希函数运算结果建立轨迹索引,最后对查询返回的相似轨迹集合分别进行距离计算,经过排序得到距离最近的K个查询结果。对于增量的轨迹数据,利用E2LSH算法计算哈希值,直接添加轨迹索引,从而避免了复杂的计算过程以及对现有轨迹索引的影响。基于合成数据及真实数据集的实验结果表明,该方法在海量时空轨迹数据的近邻查询中,虽然牺牲了一定的准确率,但有效提升了算法效率,并能够高效简便地处理增量的时空轨迹数据。  相似文献   

简化SIFT算法及其在商标图像检索中的应用   总被引:1,自引:0,他引:1  
针对商标图像形状简单、颜色单一的特点,提出了一种基于简化SIFT特征的商标图像检索新方法。采用DoG算子在多尺度空间检测图像的关键点,并利用圆环域结构替代SIFT原来的方形结构,对SIFT特征描述符的生成方式进行改进,使其具有计算简单、抗几何畸变性、抗旋转性等优点;然后在关键点匹配过程中,采用RANSAC算法去除错误匹配,从而提高匹配的稳定性与精确性。实验结果表明,该方法比原SIFT方法具有更快的计算速度和更高的匹配精度,能很好地应用在商标图像检索系统中。  相似文献   

图像语义检索的一个有效解决途径是找到图像底层特征与文本语义之间的关联.文中在核方法和图拉普拉斯矩阵的基础上,提出一种相关空间嵌入算法,并利用文本隐性语义索引和图像特征的视觉单词,构造出文本语义空间与图像特征空间这两个异构空间的相关关系,从而找出文本语义与视觉单词间潜在关联,实现图像的语义检索.文中算法把保持数据流形结构的一致性作为一种先验约束,将文本语义空间和图像特征空间中的数据点嵌入到同一个相关空间中.因此,与典型相关分析算法相比,这种相关嵌入映射不仅可揭示不同数据空间之间存在的相关关系,还可在相关空间中保留原始数据分布结构,从而提高算法的可靠性.实验验证文中算法的有效性,为图像语义检索提供一种可行方法.  相似文献   

各个城市对地下管道安全的检测一直是研究的热点和难点。传统的检测仪器不仅费时费力而且误检率特别高,随着技术的发展计算机视觉相关的方法也有在管道检测中应用,但是检测的速度和效果不尽人意。针对当前传统的检测方法操作复杂,成本高的问题,提出了一种基于内容的SIFT+LSH管道缺陷图像检索方法。该方法首先选取了优势较为明显的局部特征SIFT,充分利用了管道缺陷图像的特征,同时选取LSH算法对图像SIFT特征进行优化,将其转化为Hash编码,提高了检索速度。实验结果表明,基于SIFT特征和LSH算法的管道缺陷检索方法,相比与传统的SIFT特征和欧式距离的检索方法,大大提高了检索的速度,使得检测人员在实际操作中能够更快地获取到比较满意的检索结果。  相似文献   

Content based image retrieval is an active area of research. Many approaches have been proposed to retrieve images based on matching of some features derived from the image content. Color is an important feature of image content. The problem with many traditional matching-based retrieval methods is that the search time for retrieving similar images for a given query image increases linearly with the size of the image database. We present an efficient color indexing scheme for similarity-based retrieval which has a search time that increases logarithmically with the database size.In our approach, the color features are extracted automatically using a color clustering algorithm. Then the cluster centroids are used as representatives of the images in 3-dimensional color space and are indexed using a spatial indexing method that usesR-tree. The worst case search time complexity of this approach isOn q log(N* navg)), whereN is the number of images in the database, andn q andn avg are the number of colors in the query image and the average number of colors per image in the database respectively. We present the experimental results for the proposed approach on two databases consisting of 337 Trademark images and 200 Flag images.  相似文献   

基于内容的图像检索技术与医学图像检索   总被引:4,自引:1,他引:4  
在分析基于内容的图像检索技术特点的基础上,提出了4种基于内容的图像检索方法,并对每种方法的实现特别是特征抽取进行了一定的研究。根据医学图像的使用特点,对基于内容的医学图像检索技术进行了初步的研究;对医学图像特征的抽取,应将重点放在形状特征和纹理特征的抽取上;同时,对医学图像进行检索,还可以使用颜色空间分布特征,来进一步进行相似匹配。  相似文献   

图书图像检索是基于内容的图像检索(CBIR)的一个重要应用.尺度不变特征变换(SIFT)与方向梯度直方图(HOG)在CBIR和物体识别等领域有着广泛应用.根据图书图像的特点,把图书图像按照九宫格进行空间划分,并以SIFT特征为基础对每个分块子图像进行特征描述,然后结合HOG特征组成联合特征描述,联合特征对图书图像的描述力较强而且数据量较小.采用“倒数比”的方式进行联合特征相似性度量能够有效防止子图像发生突变而造成的巨大误差.在规模为50000幅的图书图像库上的实验结果表明,检索的精度和耗时都在可接受范围内.  相似文献   

Text retrieval systems require an index to allow efficient retrieval of documents at the cost of some storage overhead. This paper proposes a novel full-text indexing model for Chinese text retrieval based on the concept of adjacency matrix of directed graph. Using this indexing model, on one hand, retrieval systems need to keep only the indexing data, instead of the indexing data and the original text data as the traditional retrieval systems always do. On the other hand, occurrences of index term are identified by labels of the so-called s-strings where the index term appears, rather than by its positions as in traditional indexing models. Consequently, system space cost as a whole can be reduced drastically while retrieval efficiency is maintained satisfactory. Experiments over several real-world Chinese text collections are carried out to demonstrate the effectiveness and efficiency of this model. In addition to Chinese, The proposed indexing model is also effective and efficient for text retrieval of other Oriental languages, such as Japanese and Korean. It is especially useful for digital library application areas where storage resource is very limited (e.g., e-books and CD-based text retrieval systems).  相似文献   

This paper proposes a hierarchical approach to region-based image retrieval (HIRBIR) based on wavelet transform whose decomposition property is similar to human visual processing. First, automated image segmentation is performed fast in the low-low (LL) frequency subband of the wavelet domain that shows the desirable low image resolution. In the proposed system, boundaries between segmented regions are deleted to improve the robustness of region-based image retrieval against segmentation-related uncertainty. Second, a region feature vector is hierarchically represented by information in all wavelet subbands, and each feature component of a feature vector is a unified color–texture feature. Such a feature vector captures well the distinctive features (e.g., semantic texture) inside one region. Finally, employing a hierarchical feature vector, the weighted distance function for region matching is tuned meaningfully and easily, and a progressive stepwise indexing mechanism with relevance feedback is performed naturally and effectively in our system. Through experimental results and comparison with other methods, the proposed HIRBIR shows a good tradeoff between retrieval effectiveness and efficiency as well as easy implementation for region-based image retrieval.  相似文献   

In this paper, we propose a probabilistic framework for efficient retrieval and indexing of image collections. This framework uncovers the hierarchical structure underlying the collection from image features based on a hybrid model that combines both generative and discriminative learning. We adopt the generalized Dirichlet mixture and maximum likelihood for the generative learning in order to estimate accurately the statistical model of the data. Then, the resulting model is refined by a new discriminative likelihood that enhances the power of relevant features. Consequently, this new model is suitable for modeling high-dimensional data described by both semantic and low-level (visual) features. The semantic features are defined according to a known ontology while visual features represent the visual appearance such as color, shape, and texture. For validation purposes, we propose a new visual feature which has nice invariance properties to image transformations. Experiments on the Microsoft's collection (MSRCID) show clearly the merits of our approach in both retrieval and indexing.  相似文献   

目的 视觉检索需要准确、高效地从大型图像或者视频数据集中检索出最相关的视觉内容,但是由于数据集中图像数据量大、特征维度高的特点,现有方法很难同时保证快速的检索速度和较好的检索效果。方法 对于面向图像视频数据的高维数据视觉检索任务,提出加权语义局部敏感哈希算法(weighted semantic locality-sensitive hashing, WSLSH)。该算法利用两层视觉词典对参考特征空间进行二次空间划分,在每个子空间里使用加权语义局部敏感哈希对特征进行精确索引。其次,设计动态变长哈希码,在保证检索性能的基础上减少哈希表数量。此外,针对局部敏感哈希(locality sensitive hashing, LSH)的随机不稳定性,在LSH函数中加入反映参考特征空间语义的统计性数据,设计了一个简单投影语义哈希函数以确保算法检索性能的稳定性。结果 在Holidays、Oxford5k和DataSetB数据集上的实验表明,WSLSH在DataSetB上取得最短平均检索时间0.034 25 s;在编码长度为64位的情况下,WSLSH算法在3个数据集上的平均精确度均值(mean average precision,mAP)分别提高了1.2%32.6%、1.7%19.1%和2.6%28.6%,与几种较新的无监督哈希方法相比有一定的优势。结论 通过进行二次空间划分、对参考特征的哈希索引次数进行加权、动态使用变长哈希码以及提出简单投影语义哈希函数来对LSH算法进行改进。由此提出的加权语义局部敏感哈希(WSLSH)算法相比现有工作有更快的检索速度,同时,在长编码的情况下,取得了更为优异的性能。  相似文献   

