首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
文本自动分类是数据挖掘和机器学习中非常重要的研究领域 .针对难以获得大量有类标签的训练集问题 ,提出了基于小规模标注语料的增量式Bayes文本分类算法 .该算法分两种情况处理 :第一种情况是新增样本有类标签 ,可直接重新计算样本属于某类别的条件概率 .第二种情况是新增样本无类标签 ,则利用现有分类器为其训练类标签 ,然后利用新样本来修正分类器 .实验结果表明 ,该算法是可行有效的 ,比Na veBayes文本分类算法有更高的精度 .增量式Bayes分类算法的提出为分类器的更新提供了一条新途径  相似文献   

2.
在多标签分类问题中,标签之间往往是相关的,为了提高分类性能,利用标签之间的相关性,提出AdaBoost.MLR算法和标签相关性分析方法。AdaBoost.MLR算法采用余弦相似度来计算标签相关性矩阵,利用标签相关性矩阵对原始标签矩阵进行补全转换为模糊标签矩阵,将标签空间划分为标签集、标签相关集和标签无关集,结合标签之间的相关性和弱分类器的分类情况,对样本权重进行调整。AdaBoost.MLR算法也能解决多类别分类问题,在其标签相关性的计算中,根据已经训练的弱分类器得到的临时强分类器的分类结果,构造标签相似性矩阵。实验结果表明,文中提出的算法在实验数据集上优于现有的算法,尤其在标签相关性复杂的数据集上分类性能有显著提升。  相似文献   

3.
基于LS-SVM的多标签分类算法   总被引:2,自引:0,他引:2  
多标签分类是指部分样本同时归属多个类别.基于数据分解的算法因训练速度快、性能良好而得到广泛的应用.本文采用一对一分解策略,将k标签数据集分解为k(k-1)/2个两类单标签和两类双标签的数据子集.对每一训练子集统一用LS-SVM模型建立子分类器,当出现双标签样本时将其函数值设为0,并确定适当的分类阈值.对情感、景象和酵母数据集的实验结果表明,本文算法的某些性能指标优于现有一些常用的多标签分类方法.  相似文献   

4.
改进的球结构SVM多分类增量学习算法   总被引:1,自引:0,他引:1  
针对球结构支持向量机(support vector machine,SVM)增量学习算法在训练时间和分类精度上的不足,提出了一种改进的球结构SVM多分类增量学习算法.该算法首先构造一个完全二叉树用于多类分类;分析新增样本的加入对原支持向量集的影响,将新增样本集中部分样本和原始训练集中的支持向量以及分布在球体一定范围内的样本合并做为新的训练集,完成分类器的重构.实现通过减少训练样本缩短训练时间和完善分类器提高分类精度的目的.通过UCI标准数据集实验,结果表明,该算法在所需训练的样本数、训练时间以及准确率3方面都优于球结构SVM增量学习算法,尤其当样本分布不平衡时,该算法有更高的分类准确率.  相似文献   

5.
QPSO算法在朴素贝叶斯分类上的应用研究   总被引:1,自引:0,他引:1  
朴素贝叶斯分类假定类条件独立,使得所选数据集的条件属性集在预处理时必须进行属性约简,如果处理不当,就会造成分类的不准确.本文分别对在训练集上随机选取的属性子集组成粒子,构造适应度函数,从而构建了朴素贝叶斯分类器,并利用量子粒子群算法对分类效果进行择优操作.实验证明,其分类效果优于传统的朴素贝叶斯分类方法.  相似文献   

6.
针对因特网流量分类面临的流量类别标记瓶颈和类别样本数分布不平衡,提出基于Bootstrapping的流量分类方法,使用少量有标记样本训练初始分类器,迭代利用无标记样本扩展样本集并更新分类器. 在构建扩展样本集过程中,将无标记样本在某后验概率分布下的正确分类行为视为一个概率事件,建立新的置信度计算方法,以减少扩展样本集中的噪声样本;基于概率近似正确学习理论建立启发式规则,注重选择小类样本加入扩展样本集,缓解类别样本数分布的不平衡. 实验结果表明,与初始分类器相比,基于Bootstrapping的流量分类器总体分类准确率可提高9.46%;与现有半监督学习方法相比,小类分类准确率提高2.22%.  相似文献   

7.
基于贝叶斯分类器的图像分类技术   总被引:1,自引:0,他引:1  
分类的目的就是根据现有的图像特征建立一个分类器,能够对未知的图像类型进行预测.在现有众多分类算法中,贝叶斯分类器由于其坚实的数学理论基础并能综合先验信息和数据样本信息,成为当前机器学习和数据挖掘的研究热点之一.本文论述了内容图像检索中基于贝叶斯分类器的图像分类技术.介绍了贝叶斯分类器.叙述了利用贝叶斯分类器进行图像分类的方法,以及图像特征的分布假定.最后通过时分类器的探讨,总结了贝叶斯估计分类的不足.  相似文献   

8.
为提高半监督分类的性能,提出一种安全的基于分歧的半监督分类算法Safe Co-SSC。通过有标记样本训练3个有监督分类器,利用无标记样本的信息增加分类器的差异性,采取3个分类器加权投票的策略实现对无标记样本的伪标记;对伪标记样本进行二次验证,选用能使分类器误差减小的新增标记样本扩充标记样本集。保证新样本的添加既减小了分类器的分类误差,又提高了分类器的分歧性。对UCI数据集进行分类实验的结果表明,该算法具有较高的分类率和样本标记率。    相似文献   

9.
朴素贝叶斯分类器是一种简单高效的分类算法,但其属性独立性假设影响了分类效果。通过放松朴素贝叶斯假设可以增强朴素贝叶斯的分类效果,但是通常会导致计算代价大幅提高。针对以上问题,提出了一种基于粗糙集的特征加权朴素贝叶斯算法,加权参数直接从训练数据中学习得到,可以看作是计算某个后验概率时,某个特征对于该类别的影响程度。将该分类算法与朴素贝叶斯分类器(na ve bayesian classifier,NB)、贝叶斯网(bayes networks)和NBTree分类器进行实验比较。结果表明:在大多数数据集上,FWNB分类器在较小的计算代价下,具有较高的分类正确率。  相似文献   

10.
基于粗糙集和朴素贝叶斯的垃圾邮件过滤系统   总被引:1,自引:1,他引:0  
提出了基于粗糙集理论和贝叶斯分类算法的垃圾邮件过滤方法。利用粗糙集约简算法对邮件样本集进行特征约简,删除对邮件过滤结果影响不大的冗余特征,从而降低了输入样本集的维数,解决了贝叶斯分类器训练时间长,样本集占用的存储空间过大的问题。实验证明,该方法可以提高邮件过滤  相似文献   

11.
In text classification, labeling documents is a tedious and costly task, as it would consume a lot of expert time. On the other hand, it usually is easier to obtain a lot of unlabeled documents, with the help of some tools like Digital Library, Crawler Programs, and Searching Engine. To learn text classifier from labeled and unlabeled examples, a novel fuzzy method is proposed. Firstly, a Seeded Fuzzy c-means Clustering algorithm is proposed to learn fuzzy clusters from a set of labeled and unlabeled examples. Secondly, based on the resulting fuzzy clusters, some examples with high confidence are selected to construct training data set. Finally,the constructed training data set is used to train Fuzzy Support Vector Machine, and get text classifier. Empirical results on two benchmark datasets indicate that, by incorporating unlabeled examples into learning process,the method performs significantly better than FSVM trained with a small number of labeled examples only. Also, the method proposed performs at least as well as the related method-EM with Naieve Bayes. One advantage of the method proposed is that it does not rely on any parametric assumptions about the data as it is usually the case with generative methods widely used in semi-supervised learning.  相似文献   

12.
对于极化合成孔径雷达(SAR)图像,由于雷达角度和地物形状导致属于同一类的数据可能存在较大的差异性.针对此问题提出了一种基于贝叶斯集成框架的极化SAR图像分类方法.该算法采用贝叶斯集成,通过学习不同个体而获得的分类面来改善极化SAR图像分类性能.首先,输入极化SAR图像,并获得其对应的极化SAR数据及特征.从图像的每一类中任意选择像素点作为图像分类的原始训练样本,并对其进行随机划分获得不同的样本子集.然后,基于获得的样本子集构造对应极化SAR图像的贝叶斯集成框架.最后,通过构造的贝叶斯集成框架对极化SAR图像进行分类.特别在构造贝叶斯集成框架中采用支撑矢量机作为基本的分类器算法.实验结果表明,所提出的算法相比经典的极化SAR分类方法和单个SVM的极化SAR分类方法获得更好的分类性能.  相似文献   

13.
&#  &#  &#  &#  &# 《西华大学学报(自然科学版)》2015,34(6):53-57
为提高网络入侵检测的分类效率,提出一种结合主动学习和半监督学习的入侵检测算法。结合入侵检测实际,对主动学习算法进行简化,用有标记样本训练生成2个分类器,实现对未标记样本的预测;将2个分类器预测不一致的未标记样本作为信息量丰富的样本,使用半监督学习算法进行标记;最后, 把新增加的新标记样本添加到主动学习和半监督学习的训练集中,训练各自分类器, 反复迭代直到未标记样本集为空, 并用最新的有标记样本集训练形成最终的分类器。使用KDD CUP 99数据集进行入侵检测实验,其结果表明,与SVM方法相比,其分类率提高了4.3%,且较好地缩减了问题规模。    相似文献   

14.
为了避免倾向于高频词的信息增益(information gain,IG)方法忽略各类别间的相似性特点,提出了一种基于特征分布的选择方法对IG进行修正,使真正拥有高类别区分信息的特征项被保留.同时,对最大期望值(expectation maximization,EM)算法的效率低下问题加以改进,将拥有较高后验类别概率的未标注文档逐步从未标注文档集转至已标注文档集,有效减少算法迭代次数.测试结果表明,基于特征分布的半监督学习方法在Reuter-21578和Epinion.com两个不同特点的数据集上都取得了较好的分类效果和性能.  相似文献   

15.
针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性. 针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法,通过追踪每次更新后的训练集样本类别分布来动态改变3个分类器对同一未标记样本类别的预测概率阈值,从而在降低噪音数据影响的同时实现对未标记训练样本的充分利用. 实验结果表明,本研究所提出的分类方法在有标记训练样本较少的情况下,可以取得较好的自动分类效果,并且适当增大未标记样本数据可以增强分类器的泛化能力.  相似文献   

16.
贝叶斯文本分类中特征词缺失的补偿策略   总被引:2,自引:0,他引:2  
为了解决朴素贝叶斯分类器在处理文本分类任务时,往往存在的特征词缺失问题,即由于语料库中的词语出现分布情况遵循Zipf定律,仅依靠简单的增加训练语料方式难以解决这种因数据稀疏而引发的特征词缺失问题.引入统计语言模型中的数据平滑算法,通过从已出现词中"折扣"出一定的概率再分配到未出现词中去,来计算缺失特征词的补偿概率,以此克服数据稀疏问题带来的影响.评测数据在去掉停用词的分类过程开放测试中,引入Good-Turing算法的分类性能比Laplace原则提高了3.05%,比Lidstone方法提高1.00%.而在交叉熵选择特征词的算法中,增加Good-Turing的贝叶斯分类方法可比最大熵分类性能高1.95%.通过这种数据平滑的算法,有助于克服因数据稀疏而引发的特征词缺失问题.  相似文献   

17.
针对传统的增式支持向量机算法在计算时间和分类效率上的不足,提出了一种新型的增式SVM训练算法。该算法不是简单地保留上一步训练的支持向量,而是通过增加KKT(Karush-Kuhn-Tucke)限制条件并对决策函数的输出设定一个阈值,使得保留下来的样本都是最有效的样本,从而可减少训练样本的数目。在仿真实验中,选择了一组UCI数据,并选用RBF核函数作为核函数。实验结果表明:与传统增式算法相比,新算法在保证传统SVM性能的同时,在迭代速度和分类放率上分别提高了14%和4.39%。  相似文献   

18.
基于壳向量的线性支持向量机快速增量学习算法   总被引:7,自引:0,他引:7  
提出了一种新的基于壳向量的增量式支持向量机快速学习算法.在增量学习的过程中,利用训练样本集中的几何信息,在样本中选取一部分最有可能成为支持向量的样本--壳向量,它是支持向量集的一个规模较小的扩展集,将其作为新的训练样本集,再进行支持向量训练.这在很大程度上减少了求取支持向量过程中的二次优化运算时间,使增量学习的训练速度大为提高.与单纯使用支持向量代表样本数据集合进行增量学习的传统算法相比,使用该算法使分类精度得到了提高.针对肝功能检测标准数据集(BUPA)的实验验证了该算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号