首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
网页分类算法中,KNN算法的缺陷之一是分类效率较低,分类的效果很大程度上依赖于相似度函数和参敷K的选择.同时,基于支持向量机(SVM)网页分类器的限制在于要求处理的向量是数值型向量,而网页特征向量往往是词条特征向量.利用KNN算法生成训练样本,进而将词务特征向量数值化,再利用支持向量机分类器对测试网页进行分类,构建了一种新的分类器--KNN-SVM分类器.  相似文献   

2.
针对数据识别分类在传统的支持向量机(SVM)个体分类器上正确识别率不理想的问题,提出一种基于代价敏感思想(cost-sensitive)和自适应增强(AdaBoost)的SVM集成数据分类算法(CAB-SVM)。在自适应增强算法每次迭代训练SVM弱分类器之前,根据样本总数设置初始样本权值,并抽取样本组成临时训练集训练SVM弱分类器。其中在权重迭代更新阶段,赋予被分错样本更高的误分代价,使得被分错样本权重增加更快,有效地减少了算法迭代次数。同时,算法迭代过程极大地优化了个体分类器的识别鲁棒性能,使得提出的CAB-SVM算法获得了更优越的数据分类性能。利用UCI数据样本集的实验结果表明CAB-SVM分类算法的正确识别率高于SVM和SVME算法。  相似文献   

3.
Co-training是一种主流的半监督学习算法. 该算法中两视图下的分类器通过迭代的方式, 互为对方从无标记样本集中挑选新增样本, 以更新对方训练集. Co-training以分类器的后验概率输出作为新增样本的挑选策略, 该策略忽略了样本对于当前分类器的价值. 针对该问题, 本文提出一种改进的Co-training式算法—CVCOT (Conditional value-based co-training), 即采用基于样本条件价值的挑选策略来优化Co-training. 通过定义无标记样本的条件价值, 各视图下的分类器以样本条件价值为依据来挑选新增样本, 以此更新训练集. 该策略既可保证新增样本的标记可靠性, 又能优先将价值较高的富信息样本补充到训练集中, 可以有效地优化分类器. 在UCI数据集和网页分类应用上的实验结果表明: CVCOT具有较好的分类性能和学习效率.  相似文献   

4.
基于动态权重裁剪的快速Adaboost训练算法   总被引:6,自引:0,他引:6  
提出了基于动态权重裁剪的快速Adaboost训练算法,当训练数据集较大时,可以大大提高训练速度.基于动态权重裁剪的Adaboost训练算法在每次迭代过程中舍去权重较小的大多数样本,保留权重较大的少数样本进行训练,迭代完成后检查这个利用少量样本训练得到的弱分类器在所有样本上的分类性能,如果错误率大于0.5,则扩大样本的数量重新训练本次迭代的弱分类器.由于在大多数迭代过程中,只利用了少量样本进行弱分类器的训练,从而提高了整个算法的训练速度.  相似文献   

5.
针对海量网页在线自动高效获取网页分类系统设计中如何更有效地平衡准确度与资源开销之间的矛盾问题,提出一种基于级联式分类器的网页分类方法。该方法利用级联策略,将在线与离线网页分类方法结合,各取所长。级联分类系统的一级分类采用在线分类方法,仅利用锚文本中网页标题包含的特征预测其分类,同时计算分类结果的置信度,分类结果的置信度由分类后验概率分布的信息熵度量。若置信度高于阈值(该阈值采用多目标粒子群优化算法预先计算取得),则触发二级分类器。二级分类器从下载的网页正文中提取特征,利用预先基于网页正文特征训练的分类器进行离线分类。结果表明,相对于单独的在线法和离线法,级联分类系统的F1值分别提升了10.85%和4.57%,并且级联分类系统的效率比在线法未降低很多(30%左右),而比离线法的效率提升了约70%。级联式分类系统不仅具有更高的分类能力,而且显著地减少了分类的计算开销与带宽消耗。  相似文献   

6.
为了解决数据挖掘技术较难有效地在电信行业挖掘出潜在增值业务用户的问题,针对当前单分类器分类精度低这一不足,提出一个基于BP神经网络与AdaBoost结合的集成分类器模型.选用BP神经网络作为基分类器,通过AdaBoost算法进行T轮迭代,每次迭代增加错分样本的权重,最终通过投票产生强分类器.通过对中国电信某地市用户消费数据进行实例仿真,证明该模型能有效地提升分类精确度,分类精度达到76.7%,并且拥有不错的鲁棒性,为以后的研究工作提供了新的研究思路.  相似文献   

7.
尹春勇  朱宇航 《计算机应用》2020,40(8):2194-2201
针对虚假评论会误导用户的偏向并使其利益遭受损失以及大规模人工标注评论的代价过高等问题,通过利用以往迭代过程中生成的分类模型来提高检测的准确性,提出一种基于垂直集成的Tri-training(VETT)的虚假评论检测模型。该模型在评论文本特征的基础上结合用户行为特征作为特征进行提取。在VETT算法中,迭代过程被分成组内垂直集成和组间水平集成两部分:组内集成是利用分类器以往的迭代模型集成为一个原始分类器,而组间集成是利用3个原始分类器通过传统过程训练得到这一轮迭代后的二代分类器,以此来提高标签标记的准确率。对比Co-training、Tri-training、基于AUC优化的PU学习(PU-AUC)和基于垂直集成的Co-training(VECT)等算法,VETT算法的F1值分别最大提高了6.5、5.08、4.27和4.23个百分点。实验结果表明VETT算法有较好的分类性能。  相似文献   

8.
针对现有网页过滤系统的不足和实时网络信息过滤的新挑战,提出新一代多级网页智能过滤解决方案:主要采用Mimefilte r技术,结合多级过滤方法对网页进行过滤。利用分类算法对已知的训练样本进行学习,提取特征向量,构造二值分类器。然后运用此分类器,对新的网页进行过滤,将过滤的结果提交给用户,用户可对过滤结果进行评价反馈,系...  相似文献   

9.
人脸检测级联分类器快速训练算法   总被引:2,自引:0,他引:2  
唐徙文  曾义 《计算机仿真》2007,24(12):324-327
目前AdaBoost训练算法已被广泛地应用于人脸检测中级联分类器的构建,而AdaBoost算法训练级联分类器的周期却十分漫长.为了减少训练时间,文中提出了一种基于AdaBoost的改进训练算法.该算法通过对弱分类器的阈值选择进行一趟处理来降低运算时间复杂度,并根据AdaBoost训练迭代中只改变样本权值而不更新样本的特点对特征值和排序结果进行缓存来提高训练算法的性能.实验结果表明,该算法大幅提高了人脸检测分类器训练系统的性能,使得分类器的训练时间缩短了60多倍.由于AdaBoost算法的通用性,该改进算法不仅适用于人脸检测,也适合所有进行权值更新迭代训练的Boosting算法.  相似文献   

10.
任胜兵  谢如良 《计算机工程》2019,45(10):189-195
在正则化多核学习中,稀疏的核函数权值会导致有用信息丢失和泛化性能退化,而通过非稀疏模型选取所有核函数则会产生较多的冗余信息并对噪声敏感。针对上述问题,基于AdaBoost框架提出一种弹性网型正则化多核学习算法。在迭代选取基本分类器时对核函数的权值进行弹性网型正则化约束,即混合L_1范数和L_p范数约束,构造基于多个基本核最优凸组合的基本分类器,并将其集成到最终的强分类器中。实验结果表明,该算法在保留集成算法优势的同时,能够实现核函数权值稀疏性和非稀疏性的平衡,与L_1-MKL和L_p-MKL算法相比,能够以较少的迭代次数获得分类精度较高的分类器。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号