首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
针对K近邻(KNN)方法处理大数据集的效率问题进行了研究,提出了一种基于Spark框架的分布式精确模糊KNN分类算法, 创新性地将Spark框架分布式map和reduce过程与模糊KNN结合。首先对不同分区中训练样本类别信息进行模糊化处理,得到类别隶属度,将训练集转换为添加类隶属度的模糊训练集;然后使用KNN算法对先前计算的类成员测试集计算得到◢k◣个最近邻;最后通过距离权重进行分类。针对百万级大数据集样本的实验,以及与其他算法的对比实验表明,所提算法是可行的和有效的。  相似文献   

2.
与传统的K-近邻算法不同,提出了一种结合属性值贡献度与平均相似度的KNN改进算法。首先考虑测试样本与相似样本点间的平均相似度,其次考虑不同类别中的相似样本点的个数,最后还考虑与相似样本相同的属性值对类别的贡献度。在蘑菇数据集上进行实验结果表明,改进后的KNN分类算法的准确率比传统的K-近邻分类算法的准确率更高。  相似文献   

3.
为挖掘数据的非独立同分布关系并解决传统KNN算法中存在的分类结果不准确的问题,提出一种非独立同分布下数值型数据的KNN改进算法.利用Pearson相关系数公式得出耦合相似度矩阵,通过该耦合相似度矩阵计算样本的类隶属度,通过Relief F算法思想进行特征权重的计算,根据训练样本的类隶属度和特征权重更新类别决策规则,确定待分类样本的类别.对多个UCI数据集的验证结果表明,该算法能够有效提高分类准确率.  相似文献   

4.
基于k-最近邻图的小样本KNN分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于k-最近邻图的小样本KNN分类算法。通过划分k-最近邻图,形成多个相似度较高的簇,根据簇内已有标记的数据对象来标识同簇中未标记的数据对象,同时剔除原样本集中的噪声数据,从而扩展样本集,利用该新样本集对类标号未知数据对象进行类别标识。采用标准数据集进行测试,结果表明该算法在小样本情况下能够提高KNN的分类精度,减小最近邻阈值k对分类效果的影响。  相似文献   

5.
本文提出了一种改进的KNN分类算法,利用样本集合中同类别样本点间距离都十分接近的特点辅助KNN算法分类.将待分类样本点的K个最近邻样本点分别求出样本点所属类别的类别平均距离和样本点与待分类样本点距离的差值比,如果大于一个阈值,就将该样本点从K个最近邻的样本点中删除,再用此差值比对不同类别的样本点个数进行加权后执行多数投票,来决定待分类样本点所属的类别.改进后的KNN算法提高了分类的精度,并且时问复杂度与传统KNN算法相当.  相似文献   

6.
模糊k近质心近邻算法(FKNCN)的分类结果易受噪声点和离群点影响,并且算法对所有样本特征同等对待,不能体现样本特征的差异性。针对这两个问题,提出基于隶属度的模糊加权k近质心近邻算法MRFKNCN。利用密度聚类思想构造新的隶属度函数计算训练样本的隶属度,以减小噪声或离群样本对分类结果的影响。在此基础上,设计基于冗余分析的Relief-F算法计算每个特征的权重,删去较小权重所对应的特征和冗余特征,并通过加权欧氏距离选取有代表性的k个近质心近邻,提高分类性能。最终,根据最大隶属度原则确定待分类样本的类别。利用UCI和KEEL中的多个数据集对MRFKNCN算法进行测试,并与KNN、KNCN、LMKNCN、FKNN、FKNCN2和BMFKNCN算法进行比较。实验结果表明,MRFKNCN算法的分类性能明显优于其他6个对比算法,平均准确率最高可提升4.68个百分点。  相似文献   

7.
KNN短文本分类算法通过扩充短文本内容提高短文本分类准确率,却导致短文本分类效率降低。鉴于此,通过卡方统计方法提取训练空间中各类别的类别特征,根据训练空间中各类别样本与该类别特征的相似情况,对已有的训练空间进行拆分细化,将训练空间中的每个类别细化为多个包含部分样本的训练子集;然后针对测试文本,从细化后的训练空间中提取与测试文本相似度较高的类别特征所对应的训练子集的样本来重构该测试文本的训练集合,减少KNN短文本分类算法比较文本对数,从而提高KNN短文本分类算法的效率。实验表明,与基于知网语义的KNN短文本分类算法相比,本算法提高KNN短文本分类算法效率近50%,分类的准确性也有一定的提升。  相似文献   

8.
针对标准中值滤波算法边缘保持能力较差的缺点,设计了K均值中值滤波算法和递归K均值中值滤波算法。使用K均值方法将中心像素点的邻域数据序列分成两类,将该像素点所属的这类数据的中值作为输出。为了加快算法的速度,提出了两个阈值TLTH,保证在不影响结果精确性的同时尽量减少处理时间。传统的K均值算法耗时较高,论文的另一个改进是对K均值的优化处理,大大缩短了算法的处理时间。实验证明改进算法具有较好的噪声抑制能力和边缘保持能力。  相似文献   

9.
针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新的在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度的减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,本文算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。  相似文献   

10.
一种改进的KNN Web文本分类方法*   总被引:3,自引:1,他引:2  
KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方法先通过Rocchio分类快速得到k0个最有可能的候选类别;然后在k0个类别训练文档中抽取部分代表样本采用KNN算法;最后由一种改进的相似度计算方法决定最终的文本所属类别。实验表明,改进的KNN方法在Web文本分类中能够获得较好的分类效果。  相似文献   

11.
KNN算法是一种常用的效果较好的文本分类算法。但是标准KNN算法中,近邻的数目K对所有处理文本都是一样的,而判断类别时加权的仅仅是文本之间的相似度。基于近邻序列的排序,提出了变K算法,并且结合效果较好权重算法,形成了柔性的KNN算法,提高了分类的效果。  相似文献   

12.
使用最大熵模型进行文本分类   总被引:1,自引:0,他引:1  
最大熵模型是一种在广泛应用于自然语言处理中的概率估计方法。文中使用最大熵模型进行了文本分类的研究。通过实验,将其和Bayes、KNN、SVM三种典型的文本分类器进行了比较,并且考虑了不同特征数目和平滑技术对基于最大熵模型的文本分类器的影响。结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法。  相似文献   

13.
一种改进的KNN文本分类   总被引:2,自引:0,他引:2  
在文本分类中,文本特征空间维数巨大以及训练样本分布不均衡等问题影响分类性能。针对这个问题,提出一种改进的KNN分类方法。利用隐含语义分析方法对特征样本空间进行降维处理;利用基于样本密度的改进的KNN分类器进行分类。实验结果表明提出的方法能够收到较好的分类效果。  相似文献   

14.
齐斌 《计算机应用研究》2020,37(8):2381-2385,2408
针对基于稀疏表示的分类算法存在分类限制和计算复杂性等问题进行了研究。首先,改进了加权局部线性KNN文本特征表示方法和分类算法,通过对表示系数加权使其更加稀疏,引入非负约束以规避表示系数出现负的噪声干扰;其次,给出了分类器设计和算法的收敛性证明;最后,通过实验对比得出模型中各参数的优势值域。实验结果表明,改进后的算法与基础模型相比,查准率和查全率平均分别提升了2.49%和0.85%,相比于其他主流分类算法在性能上也均有明显提高。通过分析,该算法在文本分类上具有准确率高、收敛性强等优势,适用于对高维数据的文本分类。  相似文献   

15.
16.
为了得到实用性强的垃圾邮件过滤方法,将距离函数分类法首次引入到垃圾邮件过滤中.在通用邮件语料库上进行测试,并与目前过滤性能较好的KNN算法进行比较,实验结果显示距离函数分类法中的类中心向量法不适合用于垃圾邮件的过滤,而类重心向量法在保持较高过滤性能的同时,具有训练和过滤速度快的优点,是一种理想实用的垃圾邮件过滤方法.  相似文献   

17.
文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。概念格是规则提取和数据分析的有效工具,然而概念格的构造效率始终是概念格应用的一大难题。本文研究了基于扩展概念格模型的文本分类规则提取,利用粗糙集和扩展概念格模型来进行分类规则提取。该方法利用概念树,极大地除去了冗余的概念,只需要建造很少的概念就能够提取出全部的分类规则,不仅效率较高,而且同时提取的分类规则与概念格相同。本文算法在MATLAB7.0的环境中运行的实验表明,查全率比KNN算法和SVM算法稍低,但是查准率比它们都高,因此该分类规则用于文本分类时效果与KNN和SVM相当。  相似文献   

18.
KNN文本分类算法研究   总被引:4,自引:0,他引:4  
KNN(K-NearestNeighbour)是向量空间模型中最好的文本分类算法之一。文中介绍了KNN算法的基本思想,归纳了针对KNN算法的不足而提出的改进算法。对KNN文本分类算法的理论研究和实际应用起了指导作用。  相似文献   

19.
周红鹃  祖永亮 《计算机工程》2011,37(21):114-116
针对K最近邻(KNN)方法分类准确率高但分类效率较低的特点,提出基于后验概率制导的贝叶斯K最近邻(B-KNN)方法。利用测试文本的后验概率信息对训练集多路静态搜索树进行剪枝,在被压缩的候选类型空间内查找样本的K个最近邻,从而在保证分类准确率的同时提高KNN方法的效率。实验结果表明,与KNN相比,B-KNN的性能有较大提升,更适用于具有较深层次类型空间的文本分类应用。  相似文献   

20.
基于改进KNN算法的中文文本分类方法   总被引:1,自引:0,他引:1  
介绍了中心向量算法和KNN算法两种分类方法。针对KNN分类方法在计算文本相似度时存在的不足,提出了改进方案。新方案引入了中心向量分类法的思想。通过实验,对改进的KNN算法、中心向量算法和传统的KNN算法应用于文本分类效果进行了比较。实验结果表明,改进的KNN算法较中心向量法和传统的KNN算法在处理中文文本分类问题上有较好的分类效果,验证了对KNN算法改进的有效性和可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号