首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
KNN(K-Nearest Neighbor)是向量空间模型中最好的文本分类算法之一。但是,当样本集较大以及文本向量维数较多时,KNN算法分类的效率就会大大降低。该文提出了一种提高KNN分类效率的改进算法。算法在训练过程中计算出各类文本的分布范围,在分类过程中,根据待分类文本向量在样本空间中的分布位置,缩小其K最近邻搜索范围。实验表明改进的算法可以在保持KNN分类性能基本不变的情况下,显著提高分类效率。  相似文献   

2.
KNN及其改进算法进行分类时,如样本集中、样本过少或各类样本的密度差异较大,都将会影响最后的分类精度。提出一种基于聚类技术的小样本集KNN分类算法。通过聚类和剪理,形成各类的样本密度接近的新的样本集,并利用该新样本集对类标号未知数据对象进行类别标识。通过使用标准数据集的测试,发现该算法能够提高KNN的分类精度,取得了较满意的结果。  相似文献   

3.
本文通过研究KNN(K-最近邻)算法在疾病预测领域的使用与分析,总结出KNN的2点不足,针对不足进行相应改进并提出F_KNN(循环最近邻搜索)算法:1)针对KNN计算量大、效率低下的缺点,本文采用FLANN(快速最近邻搜索)循环搜索与待测样本距离最近的点,记录若干个最近邻点作为最近邻点子集,利用此子集取代全集对待测样本进行计算,可以降低计算量,极大地提高了KNN算法效率;2)针对KNN难以对高维数据集分类的缺点,本文采用AHP(层次分析法)对样本的特征属性进行相关性研究,使用合适的参数分配权重,提高了KNN算法准确率。本文采用一组脑中风数据集对优化后的算法进行实验,实验结果表明,F_KNN准确率达96.2%。与传统KNN相比,F_KNN提高了分类性能且极大地提高了算法效率。在处理高维且较大的数据集时,F_KNN算法优势明显,具有较好的应用前景。  相似文献   

4.
为有效提高传统KNN算法(K最近邻算法)在海量数据的分类效率,分析传统KNN算法的分类过程,提出基于K-Medoids聚类的改进KNN算法。利用K-Medoids算法对文本训练集进行聚类,把文本训练集分成相似度较高的簇;根据待分类文本与簇的相对位置,对文本训练集进行裁剪,解决传统KNN算法在文本训练集过大时速度慢的问题。分析与实验结果表明,该裁剪方法能够合理有效地裁剪文本训练集,提高了KNN算法的运行效率和分类能力。  相似文献   

5.
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了k-means频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的k-means文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。  相似文献   

6.
基于粗糙集的快速KNN文本分类算法   总被引:2,自引:1,他引:1  
传统K最近邻一个明显缺陷是样本相似度的计算量很大,在具有大量高维样本的文本分类中,由于复杂度太高而缺乏实用性。为此,将粗糙集理论引入到文本分类中,利用上下近似概念刻画各类训练样本的分布,并在训练过程中计算出各类上下近似的范围。在分类过程中根据待分类文本向量在样本空间中的分布位置,改进算法可以直接判定一些文本的归属,缩小K最近邻搜索范围。实验表明,该算法可以在保持K最近邻分类性能基本不变的情况下,显著提高分类效率。  相似文献   

7.
针对现有大数据分类方法难以满足大数据应用中时间和储存空间的限制,提出了一种基于Apache Spark框架的大数据并行多标签K最近邻分类器设计方法。为了通过使用其他内存操作来减轻现有MapReduce方案的成本消耗,首先,结合Apache Spark框架的并行机制将训练集划分成若干分区;然后在Map阶段找到待预测样本每个分区的K近邻,进一步在reduce阶段根据map阶段的结果确定最终的K近邻;最后并行地对近邻的标签集合进行聚合,通过最大化后验概率输出待预测样本的目标标签集合。在PokerHand等四个大数据分类数据集上进行实验,提出方法取得了较低的汉明损失,证明了其有效性。  相似文献   

8.
随着大数据时代的来临,传统的计算模式已经不足以支撑如此大量的数据.基于内存计算的大数据并行化计算框架Spark的出现很好地解决了这一问题. CURE是一种基于取样和代表点的层次聚类算法,它采用迭代的方式,自底向上地合并两个距离最近的簇.与传统的聚类算法相比,CURE算法对异常点的敏感度更小.但是在处理大量数据的情况下,...  相似文献   

9.
针对WEB文档分类中KNN算法计算复杂度高的缺点,不同于以往从减少训练样本集大小和采用快速算法角度来降低KNN算法的计算复杂度,从并行的角度出发,提出一种在Hyper-cube SIMD模型上的并行算法,其关键部分的时间计算复杂度从O(n2)降为O(log(n)),该算法与传统的串行算法相比,能显著地提高分类速度。  相似文献   

10.
一种改进的KNN文本分类   总被引:2,自引:0,他引:2  
在文本分类中,文本特征空间维数巨大以及训练样本分布不均衡等问题影响分类性能。针对这个问题,提出一种改进的KNN分类方法。利用隐含语义分析方法对特征样本空间进行降维处理;利用基于样本密度的改进的KNN分类器进行分类。实验结果表明提出的方法能够收到较好的分类效果。  相似文献   

11.
基于K-最近邻算法的未知病毒检测   总被引:12,自引:1,他引:12  
因为准确检测计算机病毒是不可判定的,故该文提出了一种基于实例学习的k-最近邻算法来实现对计算机病毒的近似检测。该法可以克服病毒特征代码扫描法不能识别未知病毒的缺点。在该检测方法的基础上,文章设计了一个病毒检测网络模型,此模型适用于实时在线系统中的病毒检测,既可以实现对已知病毒的查杀,又可以对可疑程序行为进行分析评判,最终实现对未知病毒的识别。  相似文献   

12.
廖天星  王玲 《计算机应用》2018,38(4):1007-1011
针对传统推荐算法在相似性计算和评分预测方法中存在预测精度和稳定性的不足,为进一步提高算法精确度和稳定性,提出一种新的推荐算法。首先,依据各项目的重要标签的数量,计算出项目间M2相似性,依据该相似性构成该项目的邻近项目集;然后,参考Slope One加权算法思想,定义了新的评分预测方法;最后,使用该评分方法基于邻近项目集对用户评分进行预测。为了验证该算法的准确性和稳定性,在MovieLens数据集上与基于曼哈顿距离的K-最近邻(KNN)算法等传统推荐算法进行了对比,实验结果表明该算法与KNN算法相比平均绝对误差下降7.6%,均方根误差下降7.1%,并且在稳定性方面也更好,能更准确地为用户提供个性化推荐。  相似文献   

13.
基于KNN的不良文本过滤方法   总被引:3,自引:2,他引:1  
不良文本过滤是当前的一个研究热点。通过对χ2统计量的具体分析,证明χ2统计量在2类文本特征项提取过程中特有的优势。提出正面文本阈值δ,并从理论上推断出该值的大小。在此基础上改进KNN算法,消除了KNN算法中N的不确定性,彻底实现了无参性,大幅减少了分类所用的时间。实验证明,该算法符合Web实时在线分类的要求。  相似文献   

14.
基于质心的文本分类算法   总被引:4,自引:1,他引:3  
当文本集较分散或出现多峰值时,基于质心的文本分类算法分类效果很差。针对该问题提出一种改进的文本分类算法,与基于质心的经典分类算法相比,其性能较高。在香港慧科讯业公司提供的文本分类语料库上的测试结果表明,该算法的效率和精度满足要求。  相似文献   

15.
针对流媒体的流行度预测问题,提出一种基于视频特征及历史数据的流行度预测模型。首先,根据视频特征及在社交网络中的影响力,使用K-近邻(KNN)算法对视频的流行程度进行预测。然后,基于流行程度的预测结果,结合自回归滑动平均(Autoregressive Moving Average,ARMA)模型对视频的点播量进行预测。最后,通过爬取豆瓣电影及新浪微博数据,对模型进行试验。结果表明,与朴素贝叶斯分类器及ARMA模型相比,本文模型的召回率(recall)明显较高,平均平方根误差(RMSE)降低了约20%。  相似文献   

16.
基于支持向量机和k-近邻分类器的多特征融合方法   总被引:1,自引:0,他引:1  
陈丽  陈静 《计算机应用》2009,29(3):833-835
针对传统分类方法只采用一种分类器而存在的片面性,分类精度不高,以及支持向量机分类超平面附近点易错分的问题,提出了基于支持向量机(SVM)和k 近邻(KNN)的多特征融合方法。在该算法中,设样本集特征可分为L组,先用SVM算法根据训练集中每组特征数据构造分类超平面,共构造L个;其次用SVM KNN方法对测试集进行测试,得到由L组后验概率构成的决策轮廓矩阵;最后将其进行多特征融合,输出最终的分类结果。用鸢尾属植物数据进行了数值实验,实验结果表明:采用基于SVM KNN的多特征融合方法比单独使用一种SVM或SVM KNN方法的平均预测精度分别提高了28.7%和1.9%。  相似文献   

17.
周靖  刘晋胜 《计算机应用》2011,31(7):1785-1788
特征参数分类泛化性差及分类计算量大影响着K近邻(KNN)的分类性能。提出了一种降维条件下基于联合熵的改进KNN算法,其具体思路是,通过计算任意两个条件属性下对应的特征参数的联合熵衡量数据特征针对分类影响程度的大小,建立特征分类特性与具体分类过程的内在联系,并给出根据特征联合熵集约简条件属性的方法。理论分析与仿真实验表明,与经典KNN等算法相比,提出的算法具有更高的分类性能。  相似文献   

18.
基于特征熵相关度差异的KNN算法   总被引:1,自引:0,他引:1  
周靖  刘晋胜 《计算机工程》2011,37(17):146-148
传统K最近邻(KNN)法在进行样本分类时容易产生无法判断或判断错误的问题。为此,将特征熵与KNN相结合,提出一种新的分类算法(FECD-KNN)。该算法采用熵作为类相关度,以其差异值计算样本距离。用熵理论规约分类相关度,并根据相关度间的差异值衡量特征对分类的影响程度,从而建立距离测度与类别间的内在联系。仿真实验结果表明,与KNN及Entropy-KNN法相比,FECD-KNN在保持效率的情况下,能够提高分类准确性。  相似文献   

19.
土壤分析研究中属性数据缺失的现象时常发生,为了提高研究结果的可靠性,有必要对土壤属性数据的缺失值插补方法进行研究.从数据挖掘的角度利用多种缺失值处理方法来对缺失值进行插补,以中国主要农田生态系统土壤养分数据库的pH属性为研究对象,并且从真实值和插补值的拟合优度和插补误差两个方面评估各个方法在不同缺失率的数据集上的表现....  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号