排序方式: 共有34条查询结果,搜索用时 20 毫秒
1.
2.
计算机反病毒厂商每天接收成千上万的病毒样本,如何快速有效地将这些海量样本家族化是一个亟待解决的问题。提出了一种可伸缩性的聚类方法,面对输入海量的病毒样本向量化特征集,使用局部敏感哈希索引技术进行初次快速聚类,使用扩展K均值算法进行二次细致聚类。实验表明该聚类方法在有限牺牲准确度的情况下,大为提高了病毒聚类的时间效率。 相似文献
3.
可并行中文同主题词聚类新算法 总被引:1,自引:0,他引:1
提出了一种高效的自动按照主题对中文词进行聚类的算法.该算法利用顿号(、)切分抽取语料库句子中的并列中文词,并以抽取出的中文词为节点构建一个共引用图; 然后对每个中文词节点产生若干个locality sensitive Hashing (LSH)签名组合; 最后将至少有1个相同LSH签名组合的任意2个中文词标记为同一个主题类.实验表明,该算法运算速度快,且易并行实现,在海量语料库的支持下,执行效率高,聚类效果较好. 相似文献
4.
目的 视觉检索需要准确、高效地从大型图像或者视频数据集中检索出最相关的视觉内容,但是由于数据集中图像数据量大、特征维度高的特点,现有方法很难同时保证快速的检索速度和较好的检索效果。方法 对于面向图像视频数据的高维数据视觉检索任务,提出加权语义局部敏感哈希算法(weighted semantic locality-sensitive hashing, WSLSH)。该算法利用两层视觉词典对参考特征空间进行二次空间划分,在每个子空间里使用加权语义局部敏感哈希对特征进行精确索引。其次,设计动态变长哈希码,在保证检索性能的基础上减少哈希表数量。此外,针对局部敏感哈希(locality sensitive hashing, LSH)的随机不稳定性,在LSH函数中加入反映参考特征空间语义的统计性数据,设计了一个简单投影语义哈希函数以确保算法检索性能的稳定性。结果 在Holidays、Oxford5k和DataSetB数据集上的实验表明,WSLSH在DataSetB上取得最短平均检索时间0.034 25 s;在编码长度为64位的情况下,WSLSH算法在3个数据集上的平均精确度均值(mean average precision,mAP)分别提高了1.2%32.6%、1.7%19.1%和2.6%28.6%,与几种较新的无监督哈希方法相比有一定的优势。结论 通过进行二次空间划分、对参考特征的哈希索引次数进行加权、动态使用变长哈希码以及提出简单投影语义哈希函数来对LSH算法进行改进。由此提出的加权语义局部敏感哈希(WSLSH)算法相比现有工作有更快的检索速度,同时,在长编码的情况下,取得了更为优异的性能。 相似文献
5.
快速准确地检测出近似重复图像对于版权侵犯检测和检索结果冗余去除具有重要的意义。针对传统方法检测效率低的问题,提出了一种基于E2LSH(Exact Euclidean Locality Sensitive Hashing)的近似重复图像检测新方法。首先,利用E2LSH进行快速过滤,过滤掉大部分非近似重复图像对;然后,对于过滤后剩余的少量图像对,再采用视觉词袋法BoVW(Bag of Visual Words)进一步去除错误的匹配,从而实现近似重复图像检测。实验结果表明,新方法在不明显降低性能的前提下大大加快了近似重复图像检测的速度,在检测性能与速度之间取得了较好的平衡。 相似文献
6.
局部敏感哈希LSH算法是有效的高维数据索引方法,如何生成哈希函数是算法的关键部分。LSH算法的哈希函数是基于p-稳态分布随机生成的,为了提高算法性能就需要增加哈希表的数量,但这会增加算法的空间复杂度。改进后的LSH算法(I-LSH)在生成哈希函数时不需要有标记的训练样本,而是仅仅利用数据点的分布信息构造投影方向。实验结果表明,在不显著降低检索性能的情况下,ILSH有效地降低了内存的使用量,适合处理大规模数据。 相似文献
7.
文本分类是文本挖掘中最重要的研究内容之一。为了克服目前以距离衡量的近似分类算法在海量数据下耗费大量时间的缺陷,提出了结合基于余弦距离的局部敏感哈希的方式将KNN算法在TF-IDF下对中文文本进行快速分类。同时结合文本数据的特性给出了不同的哈希函数级联方式分别进行实验。在实验过程采用了布尔向量的方式规避重复访问,使分类的结果在可以允许的范围内,分类速度比原始KNN提高了许多。 相似文献
8.
由于盗版Android应用(Android Application,简称APP)通常保持着与正版APP相似的用户体验,因此本文提出一种基于资源签名的APP相似性快速检测方法.该方法将APP的资源签名视为字符串集合,利用计算任意一对APP资源签名集合的Jaccard系数判断两者的相似性.为了避免遍历全部的APP对,该方法将MinHash和LSH(Locality Sensitive Hashing)算法的思路引入其中,通过从APP集合中挑选候选对并对候选对进行检验的方式获得最终的检测结果.由于挑选候选对的方式将大量相似性较低的APP对排除在外,因此该方法可以明显地提高APP相似性的检测速度.实验结果表明,该方法的检测速度比现有方法FSquaDRA提高了大约30倍,而检测结果与FSquaDRA几乎完全相同. 相似文献
9.
路由算法在P2P网路中占有重要的地位,资源的定位、查找均依赖于高效的路由算法。传统的P2P网络采用分布式哈希表来进行路由,是与资源的自然语义内容无关的算法,或者说分布式哈希表破坏了自然语言的语义内容。最近10年以来,语义路由算法在P2P网络中逐渐兴起。随着语义网的提出,本体成为自然语言研究方面的热点。语义覆盖网正是基于本体的知识体系构建的。而随着社交网路的兴起,又提出了语义小世界的概念。LSI、LSH、VSM以及各中聚类算法均在P2P网络的语义路由中得到了广泛的应用。 相似文献
10.
在许多应用中,LSH(Locality Sensitive Hashing)以及各种变体,是解决近似最近邻问题的有效算法之一.虽然这些算法能够很好地处理分布比较均匀的高维数据,但从设计方案来看,都没有针对数据分布不均匀的情况做相应的优化.针对这一问题,本文提出了一种新的基于LSH的解决方案(M2LSH,2 Layers Merging LSH),对于数据分布不均匀的情况依然能得到一个比较好的查询效果.首先,将数据存放到具有计数功能的组合哈希向量表示的哈希桶中,然后通过二次哈希将这些桶号投影到一维空间,在此空间根据各个桶中存放的数据个数合并相邻哈希桶,使得新哈希桶中的数据量能够大致均衡.查询时仅访问有限个哈希桶,就能找到较优结果.本文给出了详细的理论分析,并通过实验验证了M2LSH的性能,不仅能减少访问时间,也可提高结果的正确率. 相似文献