共查询到19条相似文献,搜索用时 171 毫秒
1.
在文本分类中,最近邻搜索算法具有思想简单、准确率高等优点,但通常在分类过程中的计算量较大。为克服这一不足,提出了一种基于最近邻子空间搜索的两类文本分类方法。首先提取每一类样本向量组的特征子空间,并通过映射将子空间变换为高维空间中的点,然后把最近邻子空间搜索转化为最近邻搜索完成分类过程。在Reuters-21578数据集上的实验表明,该方法能够有效提高文本分类的性能,具有较高的准确率、召回率和F1值。 相似文献
2.
3.
4.
孙荣宗 《数字社区&智能家居》2010,(1)
KNN(K-Nearest Neighbor)是向量空间模型中最好的文本分类算法之一。但是,当样本集较大以及文本向量维数较多时,KNN算法分类的效率就会大大降低。该文提出了一种提高KNN分类效率的改进算法。算法在训练过程中计算出各类文本的分布范围,在分类过程中,根据待分类文本向量在样本空间中的分布位置,缩小其K最近邻搜索范围。实验表明改进的算法可以在保持KNN分类性能基本不变的情况下,显著提高分类效率。 相似文献
5.
6.
7.
8.
9.
粒子群算法和K近邻相融合的网络入侵检测 总被引:1,自引:0,他引:1
为了提高网络入侵检测效果,提出一种粒子群优化算法(PSO)和K最近邻相融(KNN)的网络入侵检测模型(PSO-KNN)。首先特征子集和KNN参数作为一个粒子,然后通过粒子之间的信息交流和相互协作,找到最优特征子集和KNN参数,从而建立最优网络入侵检测模型,最后利用KDD 1999数据集对模型性能进行测试。结果表明,相对于其他入侵检测算法,PSO-KNN更有效地精简网络数据特征,提高分类算法的网络入侵检测速度及检测率。 相似文献
10.
实例选择能有效移除数据中的噪声和冗余数据,但现有方法难以在提高泛化能力的同时实现约简。针对该问题,提出一种冗余实例对消除算法用于实例选择。给出最近同类实例对的概念,计算数据集中存在的最近同类实例对,并移除满足条件的实例,在11个不同数据集上进行的仿真实验结果表明,经过该算法处理后的数据集在分类准确率和存储压缩率上较原始样本集有明显提升。对比剪辑最近邻规则算法,该算法能够在保持分类准确率的同时提高平均存储压缩率35%以上,并完整保留原始样本集的数据分布特征,在分类准确率和存储压缩率上取得折中。 相似文献
11.
现有的基于近邻的协同过滤推荐方法如基于KNN、基于K-means的协同过滤推荐常用来预测用户评分,但该方法确定邻居个数K非常困难且推荐准确率不高,难以达到理想推荐效果。从选择邻居用户这一角度出发,提出一种融合用户自然最近邻的协同过滤推荐算法(Collaborative Filtering recommendation integrating user-centric Natural Nearest Neighbor,CF3N),该算法首先自适应地寻找目标用户的自然最近邻居集,再融合目标用户的自然最近邻居集与活动近邻用户集,使用融合后得到的邻居集合预测目标用户评分。实验使用了MovieLens数据集,以RMSE和MAE为评测标准,比较CF3N、CF-KNN与INS-CF算法,结果显示在电影领域该算法的推荐准确率有显著提高。 相似文献
12.
针对传统的kNN(k-NearestNeighbor)近邻填补算法对缺失数据的填补效果会因为k最近邻数据存在噪声受到较大干扰的问题,提出一种基于kNN-DBSCAN(k-NearestNeighbor Density-based Spatial Clustering of Applications with Noise)的缺失数据填补优化算法。将基于密度的DBSCAN聚类算法运用到kNN近邻填补算法中,先用kNN算法得到目标填补数据的原始k最近邻数据集,运用DBSCAN聚类算法对原始k最近邻数据集进行噪声检测并消除噪声数据,得到当前k最近邻数据集,最后并入kNN计算,填补目标缺失数据;同时,针对DBSCAN聚类算法参数设置敏感的问题,通过分析数据集的统计特性来确定参数,避免人为经验判断。最后利用真实数据对算法进行验证,结果显示该算法对目标缺失数据的填补准确度要优于传统的kNN算法。 相似文献
13.
为了克服传统K近邻(Knearest neighbor,KNN)算法在距离定义上的不足,提出了一种基于Finsler度量的KNN算法(Finsler metric KNN,FMKNN)。该算法将样本点间的距离定义为Finsler度量,保留了样本属性对样本间距离度量的影响,使得样本点间的距离度量更具一般性。在手写体数据集上的实验表明,FMKNN算法的分类准确率高于传统KNN算法。 相似文献
14.
15.
针对有限样本下,KNN算法距离量的选择以及以前距离量学习研究中没有充分考虑样本分布的情况,提出了一种新的基于概率的两层最近邻自适应度量算法(PTLNN)。该算法分为两层,在低层使用欧氏距离来确定一个未标记的样本局部子空间;在高层,用AdaBoost在子空间进行信息提取。以最小化平均绝对误差为原则,定义一个基于概率的自适应距离度量进行最近邻分类。该算法结合KNN与AdaBoost算法的优势,在有限样本下充分考虑样本分布能降低分类错误率,并且在噪声数据下有很好的稳定性,能降低AdaBoost过度拟合现象发生。通过与其他算法对比实验表明,PTLNN算法取得更好的结果。 相似文献
16.
针对伪近邻分类算法(LMPNN)对异常点和噪声点仍然敏感的问题,提出了一种基于双向选择的伪近邻算法(BS-PNN)。利用邻近性度量选取[k]个最近邻,让测试样本和近邻样本通过互近邻定义进行双向选择;通过计算每类中互近邻的个数及其局部均值的加权距离,从而得到测试样本到伪近邻的欧氏距离;利用改进的类可信度作为投票度量方式,对测试样本进行分类。BS-PNN算法在处理复杂的分类任务时,具有能够准确识别噪声点,降低近邻个数[k]的敏感性,提高分类精度等优势。在UCI和KEEL的15个实际数据集上进行仿真实验,并与KNN、WKNN、LMKNN、PNN、LMPNN、DNN算法以及P-KNN算法进行比较,实验结果表明,基于双向选择的伪近邻算法的分类性能明显优于其他几种近邻分类算法。 相似文献
17.
一种基于加权KNN的大数据集下离群检测算法 总被引:2,自引:1,他引:2
传统KNN算法是在基于距离的离群检测算法的基础上提出的一种在大数据集下进行离群点挖掘的算法,
然而KNN算法只以最近的第k个部居的距离作为判断是否是离群点的标准有时也失准确性。给出了一种在大数据
集下基于KNN的离群点检测算法,即在传统KNN方法的基础上为每个数据点增加了权重,权重值为与最近的k个
邻居的平均距离,离群点为那些与第k个部居的距离最大且相同条件下权重最大的点。算法能提高离群点检测的准
确性,通过实验验证了算法的可行性,并与传统KNN算法的性能进行了对比。 相似文献
18.
深入分析了传统的基于密度的聚类方法的特点和存在的问题及讨论了基于密度聚类算法研究现状,提出了一种改进的基于密度分布函数的聚类算法.使用K最近邻(KNN)的思想度量密度以寻找当前密度最大点,即中心点.并使用区域比例,将类从中心点开始扩展,每次扩展的同时引入半径比例因子以发现核心点.再从该核心点的KNN扩展类,直至密度下降到中心点密度的给定比率时结束.给出了数个算法实例并与基于网格的共享近邻聚类(GNN)算法在聚类准确率和效率上进行了试验比较,试验表明该算法极大降低了基于密度聚类算法对参数的敏感性、改善了对高维密度分布不均数据集的聚类效果、提高了聚类准确率和效率. 相似文献
19.
本文将KD-Tree应用到KNN文本分类算法中,先对训练文本集建立一个KD-Tree,然后在KD-Tree中搜索测试文本的所有祖先节点文本,这些祖先节点文本集合就是待测文本的最邻近文本集合,与测试文本有最大相似度的祖先的文本类型就是待测试文本的类型,这种算法大大减少了参与比较的向量文本数目,时间复杂度仅为O(log2N)。实验表明,改进后的KNN文本分类算法具有比传统KNN文本分类法更高的分类效率。 相似文献