首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
基于余弦距离度量学习的伪K近邻文本分类算法   总被引:2,自引:0,他引:2  
距离度量学习在分类领域有着广泛的应用,将其应用到文本分类时,由于一般采用的向量空间模型(VSM)中的TF*IDF算法在对文本向量表达时向量均是维度相同并且归一化的,这就导致传统距离度量学习过程中采用的欧式距离作为相似度判别标准在文本分类领域往往无法取得预期的效果,在距离度量学习中的LMNN算法的启发下提出一种余弦距离度量学习算法,使其适应于文本分类领域,称之为CS-LMNN.考虑到文本分类领域中样本类偏斜情况比较普遍,提出采用一种伪K近邻分类算法与CS-LMNN结合实现文本分类,该算法首先利用CS-LMNN算法对训练数据进行距离度量学习,根据训练结果对测试数据使用伪K近邻分类算法进行分类,实验结果表明,该算法可以有效的提高分类精度.  相似文献   

2.
针对最近邻分类算法性能受到所采用的相似度或距离度量方法影响大,且难以选择最优的相似度或距离度量方法的问题,提出一种采用多相似度的基于有序规范实数对的K最近邻分类算法(OPNs-KNN)。首先,在机器学习领域中引入有序规范实数对(OPN)这一新的数学理论,利用多种相似度或距离度量方法将训练集和测试集中所有样本全部转换为OPN,使每个OPN均包含不同的相似度信息;然后再通过改进的最近邻算法对OPN进行分类,实现不同相似度或距离度量方法的结合与互补,从而提高分类性能。实验结果表明,在Iris、seeds等数据集上与距离加权K近邻规则(WKNN)等6种最近邻分类的改进算法相比,OPNs-KNN的分类准确率提高了0.29~15.28个百分点,验证了所提算法能大幅提升分类的性能。  相似文献   

3.
在大数据环境下,K近邻多标签算法(ML-KNN)高时间复杂度的问题显得尤为突出;此外,ML-KNN也没有考虑◢k◣个近邻对最终分类结果的影响。针对上述问题进行研究,首先将训练集进行聚类,再为测试集找到一个距离其最近的训练数据簇作为新的训练数据集;然后计算最近邻样本的距离权重,并用该权重描述最近邻和其他近邻对预测结果的影响;最后使用新的目标函数为待测样本分类。通过在图片、Web页面文本数据等数据集上的实验表明,所提算法得到了更好的分类结果,并且大大降低了时间复杂度。  相似文献   

4.
在谱聚类算法没有先验信息的情况下,对于具有复杂形状和不同密度变化的数据集很难构建合适的相似图,且基于欧氏距离的高斯核函数的相似性度量忽略了全局一致性。针对该问题,提出一种基于共享最近邻的密度自适应邻域谱聚类算法(SC-DANSN)。通过一种无参数的密度自适应邻域构建方法构建无向图,将共享最近邻作为衡量样本之间的相似性度量进而消除参数对构建相似图的影响,体现全局和局部的一致性。实验结果表明,SC-DANSN算法相比K-means算法和基于K最近邻的谱聚类算法(SC-KNN)具有更高的聚类精度,同时相比SC-KNN算法对参数的选取敏感性更低。  相似文献   

5.
针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新的在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度的减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,本文算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。  相似文献   

6.
K值最近邻法是常用的一种自动分类算法。当待分类文本与样本集中多个决策样本的距离相等的时候,固定的K值取法不能充分利用样本集,给分类结果带来一定的随机性,影响了自动分类的准确性。本文通过对K值最近邻算法的原理进行深入分析,提出了一种K值动态选取的方案,使得K值最近邻算法的分类准确性有了显著的提高。  相似文献   

7.
K值最近邻法是常用的一种自动分类算法。当待分类文本与样本集中多个决策样本的距离相等的时候,固定的K值取法不能充分利用样本集,给分类结果带来一定的随机性,影响了自动分类的准确性。本文通过对K值最近邻算法的原理进行深入分析,提出了一种K值动态选取的方案,使得K值最近邻算法的分类准确性有了显著的提高。  相似文献   

8.
传统的加权K最近邻算法中以距离作为权值,随着数据维度的增加,计算距离与真实距离的误差越来越大。针对这一问题,提出了一种贝叶斯后验概率的加权K最近邻算法——贝叶斯后验概率(Bayes ian Posterior Probability-Weighted K-Nearest Neighbor,BPP-WKNN)方法。首先用支持向量机算法分类选取测试点的近邻指纹点,其次计算测试点到每个近邻指纹点的贝叶斯后验概率,最后以贝叶斯后验概率的大小作为权值进行BPPWKNN算法定位。实验果表明:与基于曼哈顿距离的加权K最近邻算法和基于欧氏距离的加权K最近邻算法相比,改进后的BPP-WKNN定位算法的定位精确度和稳定性更高;利用支持向量机算法的稀疏性定位完成时间分别缩短了49%与42%。  相似文献   

9.
为了克服传统K近邻(Knearest neighbor,KNN)算法在距离定义上的不足,提出了一种基于Finsler度量的KNN算法(Finsler metric KNN,FMKNN)。该算法将样本点间的距离定义为Finsler度量,保留了样本属性对样本间距离度量的影响,使得样本点间的距离度量更具一般性。在手写体数据集上的实验表明,FMKNN算法的分类准确率高于传统KNN算法。  相似文献   

10.
为了提高特征的分类性能,提出一种基于K近邻的决策边界分析(KNN-DBA)算法.该算法的决策边界由K近邻分类器决定,提取的特征维数不受类别数的限制,算法简单且速度快.在手写数字样本集USPS和UCI中的PenDigits上用最近邻分类器和支持向量机(SVM)对决策边界分析进行验证,实验结果表明KNN-DBA识别性能优于主成分分析和基于SVM的决策边界分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号