首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
文本分类是文本挖掘中最重要的研究内容之一。为了克服目前以距离衡量的近似分类算法在海量数据下耗费大量时间的缺陷,提出了结合基于余弦距离的局部敏感哈希的方式将KNN算法在TF-IDF下对中文文本进行快速分类。同时结合文本数据的特性给出了不同的哈希函数级联方式分别进行实验。在实验过程采用了布尔向量的方式规避重复访问,使分类的结果在可以允许的范围内,分类速度比原始KNN提高了许多。  相似文献   

2.
Finding proximity information is crucial for massive database search. Locality Sensitive Hashing (LSH) is a method for finding nearest neighbors of a query point in a high-dimensional space. It classifies high-dimensional data according to data similarity. However, the “curse of dimensionality” makes LSH insufficiently effective in finding similar data and insufficiently efficient in terms of memory resources and search delays. The contribution of this work is threefold. First, we study a Token List based information Search scheme (TLS) as an alternative to LSH. TLS builds a token list table containing all the unique tokens from the database, and clusters data records having the same token together in one group. Querying is conducted in a small number of groups of relevant data records instead of searching the entire database. Second, in order to decrease the searching time of the token list, we further propose the Optimized Token list based Search schemes (OTS) based on index-tree and hash table structures. An index-tree structure orders the tokens in the token list and constructs an index table based on the tokens. Searching the token list starts from the entry of the token list supplied by the index table. A hash table structure assigns a hash ID to each token. A query token can be directly located in the token list according to its hash ID. Third, since a single-token based method leads to high overhead in the results refinement given a required similarity, we further investigate how a Multi-Token List Search scheme (MTLS) improves the performance of database proximity search. We conducted experiments on the LSH-based searching scheme, TLS, OTS, and MTLS using a massive customer data integration database. The comparison experimental results show that TLS is more efficient than an LSH-based searching scheme, and OTS improves the search efficiency of TLS. Further, MTLS per forms better than TLS when the number of tokens is appropriately chosen, and a two-token adjacent token list achieves the shortest query delay in our testing dataset.  相似文献   

3.
k近邻(kNN)算法是缺失数据填补的常用算法,但由于需要逐个计算所有记录对之间的相似度,因此其填补耗时较高。为提高算法效率,提出结合局部敏感哈希(LSH)的kNN数据填补算法LSH-kNN。首先,对不存在缺失的完整记录进行局部敏感哈希,为之后查找近似最近邻提供索引;其次,针对枚举型、数值型以及混合型缺失数据分别提出对应的局部敏感哈希方法,对每一条待填补的不完整记录进行局部敏感哈希,按得到的哈希值找到与其疑似相似的候选记录;最后在候选记录中通过逐个计算相似度来找到其中相似程度最高的k条记录,并按照kNN算法对不完整记录进行填补。通过在4个真实数据集上的实验表明,结合局部敏感哈希的kNN填补算法LSH-kNN相对经典的kNN算法能够显著提高填补效率,并且保持准确性基本不变。  相似文献   

4.
李红梅  郝文宁  陈刚 《计算机应用》2014,34(12):3481-3486
针对推荐系统中用户评分数据的海量高维与稀疏性,以及直接利用传统相似性度量方法来获取近邻的计算量大、结果不准等对推荐质量的影响,提出基于精确欧氏局部敏感哈希(E2LSH)的协同过滤推荐算法。首先利用精确欧氏局部敏感哈希算法对用户评分数据进行降维处理并构建索引,以快速获取目标用户的近邻用户;然后利用加权策略来预测用户评分,进而完成协同过滤推荐。实验结果表明,该算法能有效解决用户数据的海量高维与稀疏性问题,且运行效率高,具有较好的推荐质量。  相似文献   

5.
基于K均值聚类的快速分形编码方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对目前分形图像压缩存在的编码时间过长问题,提出了使用K均值聚类对编码过程进行加速的方法,其中聚类向量采用图像块的正规化特征向量以保证聚类的精度,并通过用部分失真搜索来完成传统K均值聚类中最耗时的最近邻搜索过程以提高聚类速度。进一步,通过结合均值图像建库、去平坦块等技巧,得到了一种快速、可调的分形编码方法。实验结果表明,相对于全局搜索,所提方法大幅地提高了编码速度和压缩比,而解码质量只略有下降。  相似文献   

6.
High-dimensional indexing is fundamental in multimedia research field. Compact binary code indexing has achieved significant success in recent years for its effective approximation of high-dimensional data. However, most of existing binary code methods adopt linear scan to find near neighbors, which involve unnecessary computations and thus degrade search efficiency especially in large scale applications. To avoid searching codes that are not near neighbors with high probability, we propose a framework that index binary codes in clusters and only codes in relevant clusters are scanned. Consequently, Pivot Based Locality Sensitive Clustering (PLSC) is proposed and Density Adaptive Binary coding (DAB) method in PLSC clusters is presented. PLSC uses pivots to estimate similarities between data points and generates clusters based on the Locality Sensitive Hashing scheme. DAB adopts different binary code generation methods according to cluster densities. Experiments on open datasets show that offline indexing based on PLSC is efficient and DAB codes in PLSC clusters achieve significant improvement on search efficiency compared to the state of the art binary codes.  相似文献   

7.
K-近邻算法的改进及实现   总被引:1,自引:0,他引:1  
利用k-近邻算法进行分类时。如果属性集包含不相关属性或弱相关属性,那么分类精度将会降低。研究了k-近邻分类器,分析了k-近邻分类器的缺点,提出了一种利用随机属性子集组合k近邻分类器的算法。通过随机的属性子集组合多个k近邻分类器,利用简单的投票,对多个k-近邻分类器的输出进行组合,这样可有效地改进k-近邻分类器的精度。  相似文献   

8.
针对伪近邻分类算法(LMPNN)对异常点和噪声点仍然敏感的问题,提出了一种基于双向选择的伪近邻算法(BS-PNN)。利用邻近性度量选取[k]个最近邻,让测试样本和近邻样本通过互近邻定义进行双向选择;通过计算每类中互近邻的个数及其局部均值的加权距离,从而得到测试样本到伪近邻的欧氏距离;利用改进的类可信度作为投票度量方式,对测试样本进行分类。BS-PNN算法在处理复杂的分类任务时,具有能够准确识别噪声点,降低近邻个数[k]的敏感性,提高分类精度等优势。在UCI和KEEL的15个实际数据集上进行仿真实验,并与KNN、WKNN、LMKNN、PNN、LMPNN、DNN算法以及P-KNN算法进行比较,实验结果表明,基于双向选择的伪近邻算法的分类性能明显优于其他几种近邻分类算法。  相似文献   

9.
为了减少高光谱图像数据中的冗余信息,优化计算效率,并提升图像数据后续应用的有效性,提出一种基于邻域熵(NE)的高光谱波段选择算法.首先,为了高效计算样本的邻域子集,采用了局部敏感哈希(LSH)作为近似最近邻的搜索策略;然后,引入了NE理论来度量波段和类之间的互信息(MI),并把最小化特征集合与类变量之间的条件熵作为选取...  相似文献   

10.
针对基于shapelets转换的时间序列分类算法因shapelets候选集中存在大量相似序列而造成耗时过长的问题,提出了一种基于LSH的shapelets转换方法(Locality Sensitive Hashing Shapelets Transform,LSHST),提出一种局部敏感哈希函数(LSH)的改进算法,对原始子序列候选集进行逐级过滤筛选,快速挑选出形态上具有代表性的shapelets集合,计算集合中shapelets的质量,采用覆盖的方法确定将要进行转换的shapelets,进一步减小shapelets的数量,进行shapelets转换。实验表明,与Shapelet Transform(ST)、ClusterShapelets(CST)和Fast Shapelet Selection(FSS)算法相比,LSHST在分类精度上最高提升了20.05、19.9和16.52个百分点,在时间节省程度上最高达8 000倍、16 000倍和8.5倍。  相似文献   

11.
聚类融合通过把具有一定差异性的聚类成员进行组合,能够得到比单一算法更为优越的结果,是近年来聚类算法研究领域的热点问题之一。提出了一种基于自适应最近邻的聚类融合算法ANNCE,能够根据数据分布密度的不同,为每一个数据点自动选择合适的最近邻选取范围。该算法与已有的基于KNN的算法相比,不仅解决了KNN算法中存在的过多参数需要实验确定的问题,还进一步提高了聚类效果。  相似文献   

12.
Zhou  Wenhua  Liu  Huawen  Lou  Jungang  Chen  Xin 《Applied Intelligence》2022,52(13):14724-14738
Applied Intelligence - Locality sensitive hashing (LSH), one of the most popular hashing techniques, has attracted considerable attention for nearest neighbor search in the field of image...  相似文献   

13.
14.
郭喻栋  郭志刚  陈刚  魏晗 《计算机应用》2017,37(9):2665-2670
针对基于k近邻的协同过滤推荐算法中存在的评分特征数据维度过高、k近邻查找速度慢,以及评分冷启动等问题,提出基于数据降维与精确欧氏局部敏感哈希(E2LSH)的k近邻协同过滤推荐算法。首先,融合评分数据、用户属性数据以及项目类别数据,将融合后的数据作为输入对堆叠降噪自编码(SDA)神经网络进行训练,取神经网络编码部分最后一个隐层的值作为输入数据的特征编码,完成非线性降维。然后,利用精确欧氏局部敏感哈希算法对降维后的数据建立索引,通过检索得到目标用户或目标项目的相似近邻。最后,计算目标与近邻之间的相似度,利用相似度对近邻的评分记录加权得到目标用户对目标项目的预测评分。在标准数据集上的实验结果表明,在冷启动场景下,均方根误差比基于局部敏感哈希的推荐算法(LSH-ICF)平均降低了约7.2%,平均运行时间和LSH-ICF相当。表明该方法在保证推荐效率的前提下,缓解了评分冷启动问题。  相似文献   

15.
一种求解旅行商问题的高效混合遗传算法   总被引:15,自引:3,他引:15  
旅行商问题(TravellingSalesmanProblemTSP)是一个典型的组合优化难题,论文提出一种求解旅行商问题的高效混合遗传算法。该算法结合遗传算法和2-opt邻域搜索优化技术,并针对旅行商问题的特点,提出K近邻点集以缩减搜索空间从而加快求解速度。基于典型实例的仿真结果表明,此算法的求解效率比较高。  相似文献   

16.
In this paper, we propose a salting based two-factor cancelable biometrics construct, dubbed Random Permutation Maxout (RPM) transform for facial template protection. The RPM transform is inspired from a member of rank-based Locality Sensitive Hashing (LSH), namely Winner Takes All hashing, which was devised for data retrieval. With externally generated user-specific parameters, RPM converts a continuous facial feature vector into a max ranked indices vector as cancellable template. Since the features magnitude of facial features have been transformed to the discrete index form, the resulting template is robust against noises and it is strongly concealed from the adversary learning on the original facial features. This lays a strong promise on non-invertibility requirement The LSH theory compliance RPM is shown minimal performance deterioration after transform. The experimental results render reasonable accuracy performance on benchmark AR and FERET datasets. We also perform several rigorous security, privacy, revocability and unlinkability analyses, which are required for cancellable biometrics techniques.  相似文献   

17.
本文针对传统SURF (Speeded Up Robust Features)算法精度和速度较低的问题, 提出一种优化的图像匹配算法. 在特征点提取阶段引入局部二维熵来刻画特征点的独特性, 通过计算特征点的局部二维熵并设置合适的阈值来剔除一部分误点; 在匹配阶段用曼哈顿距离代替欧式距离, 并引入最近邻和次近邻的概念, 提取出模板图像中特征点与待匹配图像中特征点曼哈顿距离最近的前两个点, 如果最近的距离除以次近的距离得到的比值小于设定的阈值T, 则接受这一对匹配对, 以此减少错误匹配. 实验结果表明该算法优于传统算法, 精度和速度均有一定程度的提高.  相似文献   

18.
基于反k近邻的流数据离群点挖掘算法   总被引:1,自引:0,他引:1  
基于局部离群因子的增量挖掘算法需要多次扫描数据集。反k近邻适用于度量离群程度,根据该性质提出基于反k近邻的流数据离群点挖掘算法(SOMRNN)。采用滑动窗口模型更新当前窗口,仅须进行一次扫描,提高了算法效率。通过查询过程实现在任意指定时刻对当前窗口进行整体查询,及时捕捉数据流概念漂移现象。实验结果证明,SOMRNN具有适用性和有效性。  相似文献   

19.
目的 视觉检索需要准确、高效地从大型图像或者视频数据集中检索出最相关的视觉内容,但是由于数据集中图像数据量大、特征维度高的特点,现有方法很难同时保证快速的检索速度和较好的检索效果。方法 对于面向图像视频数据的高维数据视觉检索任务,提出加权语义局部敏感哈希算法(weighted semantic locality-sensitive hashing, WSLSH)。该算法利用两层视觉词典对参考特征空间进行二次空间划分,在每个子空间里使用加权语义局部敏感哈希对特征进行精确索引。其次,设计动态变长哈希码,在保证检索性能的基础上减少哈希表数量。此外,针对局部敏感哈希(locality sensitive hashing, LSH)的随机不稳定性,在LSH函数中加入反映参考特征空间语义的统计性数据,设计了一个简单投影语义哈希函数以确保算法检索性能的稳定性。结果 在Holidays、Oxford5k和DataSetB数据集上的实验表明,WSLSH在DataSetB上取得最短平均检索时间0.034 25 s;在编码长度为64位的情况下,WSLSH算法在3个数据集上的平均精确度均值(mean average precision,mAP)分别提高了1.2%32.6%、1.7%19.1%和2.6%28.6%,与几种较新的无监督哈希方法相比有一定的优势。结论 通过进行二次空间划分、对参考特征的哈希索引次数进行加权、动态使用变长哈希码以及提出简单投影语义哈希函数来对LSH算法进行改进。由此提出的加权语义局部敏感哈希(WSLSH)算法相比现有工作有更快的检索速度,同时,在长编码的情况下,取得了更为优异的性能。  相似文献   

20.
基于LSH的中文文本快速检索   总被引:1,自引:0,他引:1  
蔡衡  李舟军  孙健  李洋 《计算机科学》2009,36(8):201-204
目前,高维数据的快速检索问题已经受到越来越多的关注.当向量空间的维度高于10时,R-tree,Kd-tree,SR-tree的检索效率反而不如线性检索,而位置敏感的哈希(Locality Sensitive Hashing,缩写为LSH)算法成功地解决了高维近邻数据的快速检索问题,因而受到国内外学术界的高度关注.首先介绍了LSH算法的基本原理和方法,然后使用多重探测的方法对二进制向量的LSH算法做了进一步改进.最后实现了这两种LSH算法,并通过详细的实验验证表明:在改进后的算法中,通过增加偏移量可以提高检索的召回率,而在不提高时间复杂度的情况下则可降低空间复杂度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号