首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 765 毫秒
1.
支持向量机方法在文本分类中的改进   总被引:1,自引:0,他引:1  
谭冠群  丁华福 《信息技术》2008,32(1):83-84,88
提出了一种应用于文本分类的KNN和SVM相结合的算法,将SVM近似看成每类只有一个代表点的1NN分类器,对于待识别样本,如果其离支持向量机的最优分界面较远,则用SVM分类;如果其离分界面较近,采用KNN对测试样本分类,将每个支持向量作为代表点,计算待识别样本和每个支持向量的距离对其作出判断.该算法综合了KNN和SVM在分类问题中的优势,既有效地降低了分类候选的数目,又提高了文本分类的精度.最后用实验验证了该算法的有效性.  相似文献   

2.
情感分析是文本分类的研究方向,深度迁移学习通过学习目标领域数据和已有领域数据之间的相关度,提高当目标数据不足时文本分类的精度。从基于网络迁移的角度设计算法,首先使用Word2vec+词性特征词向量表示,然后进行卷积神经网络文本分类,再将训练好的模型共享网络参数,迁移至跨域商品评论数据,训练、分类评论数据。实验证明,在小样本数据集中算法精度有明显提升。  相似文献   

3.
作为一种非参数的分类算法,K近邻(KNN)算法简单有效并且易于实现。但传统的KNN算法认为所有的近邻样本贡献相等,这就使得算法容易受到噪声的干扰,同时对于大的数据集,KNN的计算代价非常大。针对上述问题,该文提出了一种新的基于距离加权的模板约简K近邻算法(TWKNN)。利用模板约简技术,将训练集中远离分类边界的样本去掉,同时按照各个近邻与待测样本的距离为K个近邻赋予不同的权值,增强了算法的鲁棒性。实验结果表明,该方法可以有效地减少训练样本数目,同时还能保持传统KNN的分类精度。  相似文献   

4.
杨全海 《信息技术》2016,(4):109-113
文中引入了CHAMELEON聚类来产生广义实例,采用带回溯的广义实例文本分类算法实现了模型改进和文本分类运算时间的显著提高。对两个语料库文档数据实验中验证表明,改进带回溯算法在两个语料库上都达到了与传统KNN分类算法相同的精度;带回溯的算法执行速度提高了10倍,在语料库上提高了8倍;在Tan语料库上带回溯算法比SVM文本算法精度高出3个百分点。上述研究对信息领域的大数据存储有明显的借鉴意义。  相似文献   

5.
中文文本分类的主要问题是特征空间的高维性.提出了基于混沌二进制粒子群的KNN文本分类算法,利用混沌二进制粒子群算法遍历训练集的特征空间,选择特征子空间,然后在特征子空间中使用KNN算法进行文本分类.在粒子群的迭代优化过程中,利用混沌映射,指导群体进行混沌搜索,使算法摆脱局部最优,扩大寻找全局最优解的能力.实验结果表明,提出的新分类算法对中文文本分类是有效的,其分类准确率、召回率都优于KNN算法.  相似文献   

6.
KNN算法在数据处理,文本分类等方面都有着广泛的应用;本文提出了一种基于高斯函数权重分配的改进KNN算法(G-KNN)分类模型,并对该模型进行了理论推导和数学分析.分析了权重参数c和k值对分类性能的影响以及最优值的选取,并分别采用地中海数据和一组UCI公开数据对该算法进行了仿真验证.结果表明,改进算法的性能优于传统KN...  相似文献   

7.
针对传统K-最近邻(K-Nearest Neighbor,KNN)算法在数据量较大时分类效率较低的问题,提出一种基于训练集聚类的加权KNN算法,通过模糊C均值(Fuzzy c-means,FCM)算法将训练集聚类,当有待测样本需要分类时,根据待测样本与各个类的位置关系快速查找k个最近邻,缩减了计算量,提出的算法还通过加权来减小k值的选择对分类结果的影响,经过数值实验验证了算法分类的准确性更好。  相似文献   

8.
李宠  谷琼  蔡之华 《微电子学与计算机》2012,29(11):103-106,111
高光谱遥感数据具有波段数目多、数据量庞大等特点.针对传统方法应用于高光谱图像分类中存在波段选择时计算量大、运行时间长,以及图像分类精度不高等问题,首先利用差分演化算法进行波段选择,有效地降低了信息的冗余和数据的维度,然后对波段选择后的结果成图,并对要识别地物的典型区域进行取样,最后采用基因表达式编程算法构建分类器进行图像分类.在波段选择中,与完全搜索的结果相比,差分演化算法可以在很快的时间里取得了较好的搜索结果,基因表达式编程在遥感图像分类中,分类结果优于传统的KNN算法.  相似文献   

9.
一种基于数据偏斜的改进KNN文本分类   总被引:2,自引:1,他引:1  
KNN是一种简单、有效、非参数的分类算法.针对样本分布偏斜的分类环境,首先提出了一种改进的特征选择方法进行特征降维,在此基础上进一步提出了一种基于分布的改进KNN方法用于文本分类,降低了分布偏斜问题对决策函数的影响.试验表明,所提出的改进KNN文本分类方法具有较好的分类性能.  相似文献   

10.
改进的KNN文本分类算法   总被引:1,自引:0,他引:1  
而文本自动分类,作为一种有效的提高文本检索速度和准确率的方法,在电子文本信息管理中起着非常重要的作用。KNN算法作为一种非常简单,但是有效的文本分类算法,被广泛运用。针对传统KNN算法中对特征项的非监督权重分配的不足之处做了改进,采取x2统计量方法和信息增益这两种监督权重分配方法,有效地利用了训练集标签信息,提高了KNN算法的精确度。  相似文献   

11.
一种聚类模式下基于密度的改进KNN算法   总被引:1,自引:0,他引:1  
KNN是基于实例的算法,训练样本的数量影响KNN的分类性能.合理的样本剪裁可以提高分类器的效率.提出了一种聚类条件下基于密度的KNN改进模型.首先使用聚类方法对训练集进行基于类别的选择,裁剪边缘样本以减少噪音;再基于类别密度对样本进行加权,改善k近邻选择时大类别、高密度训练样本的占优现象.试验结果表明,本文提出的改进KNN分类算法提高了KNN的分类效率.  相似文献   

12.
以图像颜色聚合向量为基础,并结合图像显著特征,提出了一种基于加权颜色聚合向量的图像检索方法.首先,提取图像的显著性图,并进行归一化处理,得到加权矩阵;然后,对图像进行颜色聚合向量提取,并根据加权矩阵进行加权处理;最后通过计算两幅图像之间的加权颜色聚合向量相似度,进行图像检索.该方法既系统兼顾了图像的颜色分布特征和高层视觉特征,又具有较高的计算速度;实验结果证明,该算法的检索精度明显高于传统的基于颜色统计特征的检索精度.  相似文献   

13.
基于KNN的汉语问句分类   总被引:1,自引:0,他引:1  
汉语问句分类是问答系统中重要的组成部分,问句分类结果的好坏直接影响问答系统的质量。利用知网(HowNet)义原树计算问句之间的语义相似度,并以此作为句子之间的距离度量,利用KNN算法构造分类器进行问句分类,并对最近邻分类算法、KNN分类算法及改进的KNN分类算法进行实验比较。结果表明加权的KNN分类器分类效果最好,达到了89.8%的精确率。  相似文献   

14.
胡峰  王蕾  周耀 《电子学报》2018,46(1):135-144
采样是解决不平衡数据分类问题的一个有效途径.文中结合三支决策理论,根据样本分布将样本划分成三个区域:正域、边界域和负域;在此基础上,分别对边界域和负域中的小类样本进行不同的过采样处理,提出了一种基于三支决策的不平衡数据过采样算法(TWD-IDOS算法).实验结果表明,在C4.5、KNN和CART等分类器上,文中提出的算法能有效解决不平衡数据的二分类问题,在Recall、F-value、AUC等指标上优于文献中的过采样算法.  相似文献   

15.
黄炜 《信息技术》2011,(6):173-176
KNN算法在决定测试样本的分类时,如果样本数量太大,那么在搜索测试样本的K个最邻近时的算法计算量很大。针对KNN的不足提出了一种改进方法,在对数据进行预处理的基础上,实现了K最近邻居分类算法。结合发电企业行业及专业数据信息检索的特点,通过KNN算法,对终端用户输入的检索关键字集合进行了预处理,生成了新的检索关键字集合。  相似文献   

16.
杨峰  岳康  靳松 《中国新通信》2013,(11):80-81
为解决传统的地质灾害分类方法中效率低下的现状,本文将模式分类中的相应方法引入到基于雷达数据分析的地质灾害分类算法中。利用PCA降维算法和KNN分类算法构建分类模型,之后利用现有雷达数据进行训练得出模型参数,最后将需要测试的数据集放入模型进行实验,经过测试发现模型处理速度明显提高,精度符合要求。  相似文献   

17.
KNN算法是经典的文本分类算法.训练样本的数量和类别密度是影响算法性能的主要瓶颈,合理的样本剪裁可以提高分类器效率.文中提出了一种基于聚类的改进KNN分类模型.首先对训练集进行聚类,基于测试样本与簇之间的相对位置对训练集进行合理裁剪以节约计算开销;然后基于簇内样本分布进行样本赋权,改善大类别样本的密度占优现象.实验结果表明,本文提出的样本剪裁方法提高了KNN算法的分类性能.  相似文献   

18.
针对SAR图像具有斑点噪声,特征提取较难的特点,提出了基于Contourlet变换和SVM的SAR图像目标识别分类算法.该算法的在特征提取时利用了Contourlet域的标准偏差进行特征提取的方法,后端用支持向量机分类器,提高分类精度.实验结果证明该分类算法能够减少SVM的特征维数,具有较好的分类性能.  相似文献   

19.
针对Deep Web的查询需求,文章提出了改进的对Deep Web数据源的分类方法:在对数据源进行分类时,采用了KNN分类算法来进行。由于KNN分类算法的K值选的过大或者过小都会对分类结果产生影响,因此提出了对K值进行优化的改进的KNN算法。文章利用k-means聚类算法来进行聚类,分别计算取得每个类别的k个距离相近的数据并计算这k个数据到聚类中心的距离,把这个距离的倒数作为该数据点对分类结果的贡献值。对训练集进行聚类后返回聚类中心,根据聚类中心计算权重,从而进一步来计算每个类别中k个最近邻贡献值之和S,选取S最大的类别作为测试数据的类别来进行分类,从而可达到比较好的分类效果。  相似文献   

20.
根据李群具有微分流形的性质,提出了一种李群机器学习的线性分类算法.该分类方法的思想是:首先将样本数据集嵌入到微分流形当中,每个实例对应着流形上的一个点,利用测地线距离度量两个实例问的距离;然后,根据测试实例和训练数据集中实例间测地线距离的代数关系,确定测试实例的分类.实验测试表明,该线性分类算法较k-最近邻算法(KNN)及NaiveBayes分类算法具有较高的分类精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号