首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
为了解决查询高维浮点型数据的近邻点需要计算代价昂贵的欧式距离,内存占用率较高的问题,将高维浮点型数据通过哈希映射函数映射为低维二进制编码,并保证同一样本点在两种空间内的归一化距离满足相似性。从而在实现近邻检索任务时,可使用代价较低的汉明距离替换欧式距离,达到降低检索复杂度的目的。为保证由哈希函数生成的二进制编码具有较优的近邻检索性能,本文首先基于查找机制得到数据集适应空间分布特性的二进制标签,然后利用SVM算法得到二进制标签的分类平面,并选择其中具有最大熵值的平面函数作为最终的哈希映射函数。为了进一步提高近邻检索性能,在训练阶段,初始化多种不同的编码中心点用以生成多重二进制标签,并得到与此相应的多重哈希函数和多重二进制编码。在检索过程中,建立了基于多重二进制编码的近邻检索体系,返回具有较小平均汉明距离的样本点作为最终检索结果。实验结果表明:与其他现存优秀算法相比,本文算法可以快速、有效地将浮点型数据转化为二进制编码,而且基于这些二进制编码的近邻检索性能较优。  相似文献   

2.
针对于类不平衡的偏标记学习问题,在PL-KNN算法的基础上,提出一种可以较有效处理类不平衡问题的偏标记K近邻学习算法(K-nearest neighbor algorithm for class imbalanced partial label learning,IM-PLKNN),利用Parzen窗估计法在样本的不同类别的近邻上设置不同的权重,使多数类样本权重降低,让属于少数类样本的近邻具有更高的权重,降低将少数类样本误测为多数类样本的概率,提高对少数类样本的识别精度。试验结果表明,IM-PLKNN算法较PL-KNN算法在不同评价指标上均有显著提高,特别是对少数类样本的识别精度有大幅度提高。IM-PLKNN算法可以有效提高类不平衡的偏标记K近邻学习算法对数据集整体的预测性能。  相似文献   

3.
近邻分类法在训练分类器时需要存储训练集中所有的数据。这种缺点会导致程序在运行时需要大量的存储空间和运行时间。提出了两种新的实例选择算法:迭代类别实例选择算法(ISCC)和基于同类和异类的迭代实例选择算法(IISDC)。两种算法分别提出分类能力评价函数来度量每个实例的分类能力,挑选分类能力强的实例,删除分类能力弱的实例。经分析得出两个算法的时间复杂度均为O(n2)。在真实数据库上的试验结果表明,ICIS和IISDC算法在压缩比、分类精度上优于FCNN、ICF、ENN等经典算法。  相似文献   

4.
针对海量非结构化时态信息存储与快速检索的需求,提出使用Hadoop 平台下的分布式、非结构化数据库HBase对海量时态数据进行存储,构造以时态集合为时态存储单元的时态数据存储模型;设计了多级分布式哈希索引表算法( tDHT),实现对时态列族的时态属性值的高效、快速的检索。通过将时态属性值向二维空间映射,实现时态数据向空间对象的转化,采用对空间数据的处理方法对时态数据区域进行划分,生成多级时态数据子区域,利用分布式哈希表思想设计HBase存储的多级索引表目录。实验结果表明,该索引策略具有较高的性能,可以在一定程度上加快对HBase中时态信息的检索速度。  相似文献   

5.
针对训练数据中的非线性流形结构以及基于稀疏表示的多标签分类中判别信息丢失严重的问题,该文提出一种非负稀疏近邻表示的多标签学习算法。首先找到待测试样本每个标签类上的k-近邻,然后基于LASSO稀疏最小化方法,对待测试样本进行非负稀疏线性重构,得到稀疏的非负重构系数。再根据重构误差计算待测试样本对每个类别的隶属度,最后实现多标签数据分类。实验结果表明所提出的方法比经典的多标签k近邻分类(ML-KNN)和稀疏表示的多标记学习算法(ML-SRC)方法性能更优。  相似文献   

6.
针对基于核的多视图聚类算法(kernel based multi-view clustering method, MVKKM)在处理大规模数据集时运行时间长的缺点,引入增量聚类模型的概念,将MVKKM算法与增量聚类模型相结合,提出基于核K-means的多视图增量聚类算法(incremental multi-view clustering algorithm based on kernel K-means, IMVCKM)。通过将数据集分块,在每个数据块中使用MVKKM算法聚类,并将每个数据块的聚类中心作为下个数据块的初始聚类中心。将所有块的聚类中心进行整合后再次进行多视图聚类,得到最终的聚类结果。试验结果表明,在3个大规模数据集上,IMVCKM算法相较于MVKKM算法在3个评价指标上具有更好的聚类结果,且运行时间更短。该算法在保证聚类性能的基础上大大降低算法的运行时间。  相似文献   

7.
在Gabor特征空间,根据相关系数寻找测试图像的近邻样本,并用这些近邻样本构造完备的冗余字典,从而提出一种基于Gabor特征的近邻样本协作表示的人脸识别算法.在l2范数约束下,利用可变厚度的紧致字典对测试图像进行稀疏表示,根据稀疏系数逐类计算重构图像和测试图像之间的误差,并判断测试图像所属类别.该算法在FERET、ORL和AR数据上进行了无遮挡测试,在AR库上进行了有遮挡测试.实验结果表明,无论有无遮挡,识别速度和识别率都得到了明显改善.  相似文献   

8.
针对计算机辅助诊断(CAD)中学习算法处理非平衡数据时,分类器预测具有大类样本的分类误差小,而稀有类样本的分类误差大的倾向性分类问题,提出基于反向k近邻的欠采样新方法.通过去除大类样本集中的噪声及冗余样本、保留具有类别代表性且可靠的样本作为有效样本以此平衡训练样本集,解决了欠采样引起的类别信息的丢失问题.基于UCI Breast-cancer数据集的仿真实验结果表明,该方法解决了非平衡学习问题的有效性,进一步的横向评测对比显示该算法性能显著优于其他同类算法.  相似文献   

9.
摘要:为提高处理文本相似度的效果,提出了一种基于相对熵度量文本差异的KNN算法.该算法首先对文本进行预处理(分字与删去停用字)和构建特征字字典; 然后计算训练集中所有文本特征字的概率,并组成训练集(特征字概率矩阵); 最后计算预测文本的特征字概率向量,并通过计算和统计K个预测文本与训练集文本间相对熵最小的文本类别个数后将数目最多的类别作为测试样本的类别.实验结果表明,该算法的分类效果不仅显著优于传统KNN、SVM、Decision Tree、朴素Bayes算法的分类效果,且在小样本数据情况下  相似文献   

10.
分类算法是时间序列数据挖掘中极为重要的任务和技术,该文提出一种基于簇中心群的时间序列数据分类方法。该方法根据时间序列训练数据集中的类别标签进行簇划分,利用近邻传播算法分别对每个簇进行中心代表点选择,构造出各代表点的代表对象集;然后借助基于动态时间弯曲的均值中心方法对各代表对象集实现中心群计算,结合改进后的K近邻算法实现时间序列数据的分类。数值实验结果表明,与传统方法相比,新方法具有更好的分类效果和计算性能。  相似文献   

11.
大数据将在未来经济、社会和生活等领域产生深远影响,而大数据的整合存储研究为促进和深化其应用范围有重要的理论和实践意义。本文利用分布式文件系统HBase的数据存储结构特征,采用可拓学基元对异构数据集进行整合处理并存储在HBase数据库。通过提取数据特别是半结构化和非结构化数据的典型特征和属性取值并转换为基元后生成一个新的数据集,不但为数据分析和数据解释提供一种新的实现方式,而且为领域问题的策略生成提供大数据的研究思路和解决方案。  相似文献   

12.
为了解决大规模非线性分类中局部学习的不平衡性问题,提出一种改进的局部支持向量机算法,在高维特征空间中聚类后,为每一个簇构造局部非线性支持向量机。为了克服簇内样本的分布不均衡问题,根据闭合超平面不规则边界的几何特点,经过梯度下降寻找稳定均衡向量,以此构造簇几何中心;再结合簇密度中心共同约束类心形成双重加权中心。然后通过求解加权最小闭球问题实现对大规模样本向量的分类。对照实验显示,除了个别数据集以外,改进的算法在训练时间、测试时间以及测试精度等方面都比另外两种分类算法表现更佳。  相似文献   

13.
In order to implement quick and effective search, save the storage space and improve the poor performance of affinity relationshaps between high dimensional data and its codes in image retrieval, a new linear embedding hashing is proposed by introducing the preserving similarity. First, the whole data set is clustered into several classes, and then the similarity predicted function is used to maintain affinity relationships between high dimensional data and its codes so as to establish the objective function. By minimizing the margin loss function, the optimal embedded matrix can be obtained. Compared with the existing classic hashing algorithm, experimental results show that the performance of the linear embedding hash algorithm is superior to the other binary encoding strategy on precision and recall.  相似文献   

14.
针对采用传统智能优化算法挖掘分类规则时易出现分类精度不理想、噪声容忍度差等情况,提出一种基于双链量子遗传优化分类规则挖掘算法.采用双链量子位对分类规则进行实数编码,通过解空间变换将量子位概率幅映射到相应实数集,根据目标函数梯度变化确定量子旋转门转角,并利用量子非门进行个体变异.选取UCI数据库中9组分类数据集对所提出算法分类性能进行测试,结果表明,所提出算法具有较好的分类精度和噪声容忍度.  相似文献   

15.
This paper proposes a novel algorithm for solving the problem of data linear inseparable and low-accuracy in the image retrieval field. In order to get hash codes, the algorithm takes account of kernel trick and iterative quantization. First, the kernel trick is used to map the image data from low-dimension into high-dimension cleverly. In this way the data become linearly separable, and the trained hash codes are proved to be effective. Second, in the process of training the hash function, iterative quantization is used to quantize the image data to the closest hash codes. Finally, the quantitative error is minimized, and the hash codes are generated for image retrieval. Experimental results show that it certainly outperforms other compared hashing algorithms on two image benchmarks.  相似文献   

16.
目前密码分析者已经可以在较短的时间内有效找到MD5、SHA1等国际密码杂凑算法的碰撞,通过熵增来增强杂凑值的随机性是提高密码杂凑算法抗碰撞性的有效途径,因此提出一种将纠错码和SM3算法迭代结构融合的改进方案。首先,基于纠错码的线性性质和最小汉明距离最大化原则,选择拟阵理论所构建的二进制线性分组码,计算出其系统形式的生成矩阵,并通过循环移位来消除比特之间的规律,并计算最终产生的有效码字;其次,在线性分组码中遵循周期性原则选取最优码字来构建初始常量值,并将其赋值于初始寄存器中,同时在迭代结构中引入初始寄存器构成算法的压缩函数,完成杂凑算法迭代结构的二次构建;最后,考虑杂凑值信息熵对算法混乱度的评估能力,将提出的方案和2种现有公开的国际密码杂凑算法进行对比实验,同时进行算法效率、内存损耗以及雪崩效应测试并进行综合评价。实验结果表明,本文方案在不改变运算效率的前提下具有稳定的雪崩效应,运行过程中的内存损耗相比SM3算法降低0.01~0.07MB,同时杂凑值的信息熵值高于其他两类对比算法。表明提出的基于纠错码的改进方案能够通过熵增证明杂凑值比特之间的随机性更高,更好实现隐藏明文和杂凑值之间统计信息的目的,提高了密码杂凑算法的安全性。  相似文献   

17.
为了有效处理海量、高维、稀疏的大数据,提高对数据的分类效率,提出一种基于L1准则稀疏性原理的在线学习算法(a sparse online learning algorithm for selection feature, SFSOL)。运用在线机器学习算法框架,对高维流式数据的特征进行新颖的“取整”处理,加大数据特征稀疏性的同时增强了阀值范围内部分特征的值,极大地提高了对稀疏数据分类的效果。利用公开的数据集对SFSOL算法的性能进行分析,并将该算法与其它3种稀疏在线学习算法的性能进行比较,试验结果表明提出的SFSOL算法对高维稀疏数据分类的准确性更高。  相似文献   

18.
提出了一种可用于CDMA独立地址分配的快速分配算法.它与传统的地址码空间搜索算法具有下列不同:采用二分法技术从初始地址码开始生成其他的地址码;为了保证地址码之间的相互独立性,在每次的生成过程中地址码有一半位数的取值发生变化,对每次生成的多个子地址码保持前面一半位数的取值相同;整个地址码组成二叉树型结构.该算法也适用于其他的具有数据独立性要求的场合.  相似文献   

19.
一种改进的AprioriTid算法   总被引:1,自引:0,他引:1  
针对经典Apriori算法多次扫描数据库产生I/O负载影响运行效率等问题,在对Apriori算法的原理及其相关改进算法研究的基础上,提出了一种基于压缩集的改进Apriori算法,即Apriori Tid_M算法.通过有效的裁剪方法减少无效项集的产生,减少候选项集的数量,从而提高算法的效率.仿真实验表明,在支持度相同但数据量不同,以及数据量相同但支持度不同这两种条件下,Apriori Tid_M算法在性能上和运算时间上都比Apriori算法有很大程度的改善.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号