首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
针对一些多标签文本分类算法没有考虑文本-术语相关性和准确率不高的问题,提出一种结合旋转森林和AdaBoost分类器的集成多标签文本分类方法。首先,通过旋转森林算法对样本集进行分割,通过特征变换将各样本子集映射到新的特征空间,形成多个具有较大差异性的新样本子集。然后,基于AdaBoost算法,在样本子集中通过多次迭代构建多个AdaBoost基分类器。最后,通过概率平均法融合多个基分类器的决策结果,以此做出最终标签预测。在4个基准数据集上的实验结果表明,该方法在平均精确度、覆盖率、排名损失、汉明损失和1-错误率方面都具有优越的性能。  相似文献   

2.
针对肿瘤基因表达谱样本少,维数高的特点,提出一种用于肿瘤信息基因提取和亚型识别的集成分类器算法.该算法根据基因的Fisher比率值建立候选子集,再采用相关系数和互信息两种度量方法,分别构造反映基因共表达行为和调控关系的特征子集.粒子群优化算法分别与SVM和KNN构成两个基分类器,从候选子集中提取信息基因并对肿瘤亚型进行分类,最后利用绝对多数投票方法对基分类器的结果进行整合.G.Gordon肺癌亚型识别的实验结果表明了该算法的可行性和有效性.  相似文献   

3.
针对中文短文本分类问题,从集成学习的角度提出一种基于多元概率推理模型的书写纹识别方法。将初始样本集划分为等粒度、可交叉的样本子集,构造具有差异性的子空间,在各子空间上采用基于概率推理模型的基分类器训练样本,通过概率求和法融合所有基分类器的输出得到训练样本的最终识别结果。实验结果表明,该方法对于网络书写纹具有较好的识别效果,查全率、查准率和Fl度量值分别高达81.6%、85.9%和83.69%。  相似文献   

4.
为改进SVM对不均衡数据的分类性能,提出一种基于拆分集成的不均衡数据分类算法,该算法对多数类样本依据类别之间的比例通过聚类划分为多个子集,各子集分别与少数类合并成多个训练子集,通过对各训练子集进行学习获得多个分类器,利用WE集成分类器方法对多个分类器进行集成,获得最终分类器,以此改进在不均衡数据下的分类性能.在UCI数据集上的实验结果表明,该算法的有效性,特别是对少数类样本的分类性能.  相似文献   

5.
提出了一种使用基于规则的基分类器建立组合分类器的新方法PCARules。尽管新方法也采用基分类器预测的加权投票来决定待分类样本的类,但是为基分类器创建训练数据集的方法与bagging和boosting完全不同。该方法不是通过抽样为基分类器创建数据集,而是随机地将特征划分成K个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将所有训练数据映射到新的特征空间作为基分类器的训练集。在UCI机器学习库的30个随机选取的数据集上的实验表明:算法不仅能够显著提高基于规则的分类方法的分类性能,而且与bagging和boosting等传统组合方法相比,在大部分数据集上都具有更高的分类准确率。  相似文献   

6.
刘清  陈炼  吕静 《现代计算机》2007,(10):14-16,57
介绍基于SVM的网络文本信息自动分类算法,该算法在训练阶段将一个大型数据集分成许多不相交的子集,按批次对各个训练子集中的样本进行训练而得到多个分类器,利用误差纠错输出编码优化分类器,从而减少较深层次训练需要学习的文档.  相似文献   

7.
针对肺结节病灶数据具有多样性及异质性特点,提出了动态多分类器选择集成算法(Dynamic Multiple Classifiers Selection,DMCS),将特征空间随机划分为若干特征子集,针对每个特征子集样本分布不同,对不同的特征子集选择适合的基分类器,最后进行集成学习。实验表明,该算法比目前有代表性的肺结节检测病灶分类算法具有更好的稳定性和检测性能。  相似文献   

8.
如何构造差异性大的基分类器是集成学习研究的重点,为此提出迭代循环选择法:以最大化正则互信息为准则提取最优特征子集,进而基于此训练得到基分类器;同时以错分样本个数作为差异性度量准则来评价所得基分类器的性能,若满足条件则停止,反之则循环迭代直至结束.最后用加权投票法融合所选基分类器的识别结果.通过仿真实验验证算法的有效性,以支持向量机为分类器,在公共数据集UCI上进行实验,并与单SVM及经典的Bagging集成算法和特征Bagging集成算法进行对比.实验结果显示,该方法可获得较高的分类精度.  相似文献   

9.
一种结合独立性模型与差异评估的Co-Training改进方案   总被引:4,自引:0,他引:4  
Co-Training算法要求两个特征视图满足一致性和独立性,但是,许多应用中不存在自然划分且满足这种假设的两个视图.为此,提出利用互信息(MI)或者CHI统计量评估特征之间的相互独立性,建立特征相互独立性模型(MID-Model).基于该模型,提出了新的特征子集划分方法PMID-MI与PMID-CHI算法,能有效地将一个特征集合划分成两个独立性较强的子集.并且利用多种差异评估法,进一步验证两个子集的独立性.基分类器之间的差异性能够减少两个基分类器给同一个未标注文本都标注错误的可能性.最后,提出了对Co-Training的改进算法SC-PMID.实验结果表明SC-PMID算法能够明显提高半监督分类精度.  相似文献   

10.
N-gram字符是网络书写纹识别最有效的特征类型之一。针对其特征维数高、冗余特征多且无关特征少等特点,提出一种基于特征空间划分来构造集成学习分类器的网络书写纹识别方法。该方法首先根据一定的划分粒度,将初始特征集划分为等维度、无交又的特征子集,然后基于每一个特征子集训练生成对应的基分类器(多元朴素贝叶斯),最后采用算术与几何平均相结合的融合策略完成集成学习分类器的构造。特征空间的划分(即特征子集的选择)采用遗传算法进行优化。实验在一个真实数据集上开展,其结果表明该方法有效地提高了网络书写纹的识别性能。  相似文献   

11.
为综合利用基于情感词典和基于机器学习的两类情感分类方法的优点,提出一种基于情感词汇与机器学习的方面级情感分类方法。通过选取少量情感倾向与评价对象无关的情感词汇对评价搭配进行情感分类;通过构建机器学习分类器,以评价短语对各类别的互信息占比作为分类器的分类概率权重,进行加权计算,选择加权后分类概率最大的类别作为评价搭配的情感倾向类别。在中文评论数据集上的实验结果表明,该方法能有效提高情感分类性能。  相似文献   

12.
该文提出了基于粗糙集的K类模式分类器的体系结构(RSPCMNNC),基于粗糙集理论提出了三个预处理算法,简化了分类器的结构,降低了学习难度,有效地避免产生过多的子网。样本空间基于最大均衡的策略来划分,保证BP算法在学习过程中的有效性。实验结果表明,该文提出的RSPCMNNC分类器显示出更高的识别率,对于实际应用中多特征模式的识别问题,具有很大的实用价值。  相似文献   

13.
中文情感分析中的一个重要问题就是情感倾向分类,情感特征选择是基于机器学习的情感倾向分类的前提和基础,其作用在于通过剔除无关或冗余的特征来降低特征集的维数。提出一种将Lasso算法与过滤式特征选择方法相结合的情感混合特征选择方法:先利用Lasso惩罚回归算法对原始特征集合进行筛选,得出冗余度较低的情感分类特征子集;再对特征子集引入CHI,MI,IG等过滤方法来评价候选特征词与文本类别的依赖性权重,并据此剔除候选特征词中相关性较低的特征词;最终,在使用高斯核函数的SVM分类器上对比所提方法与DF,MI,IG和CHI在不同特征词数量下的分类效果。在微博短文本语料库上进行了实验,结果表明所提算法具有有效性和高效性;并且在特征子集维数小于样本数量时,提出的混合方法相比DF,MI,IG和CHI的特征选择效果都有一定程度的改善;通过对比识别率和查全率可以发现,Lasso-MI方法相比MI以及其他过滤方法更为有效。  相似文献   

14.
快速、准确和全面地从大量互联网文本信息中定位情感倾向是当前大数据技术领域面临的一大挑战.文本情感分类方法大致分为基于语义理解和基于有监督的机器学习两类.语义理解处理情感分类的优势在于其对不同领域的文本都可以进行情感分类,但容易受到中文存在的不同句式及搭配的影响,分类精度不高.有监督的机器学习虽然能够达到比较高的情感分类精度,但在一个领域方面得到较高分类能力的分类器不适应新领域的情感分类.在使用信息增益对高维文本做特征降维的基础上,将优化的语义理解和机器学习相结合,设计了一种新的混合语义理解的机器学习中文情感分类算法框架.基于该框架的多组对比实验验证了文本信息在不同领域中高且稳定的分类精度.  相似文献   

15.
为进一步提高老年人日常动作识别系统的准确率,提出一种基于柔性传感器的老年人动作识别方案。通过柔性传感器与三维重力加速度传感器相结合,形成了老年人动作时序数据采集、处理和识别方法,根据人体动作时序波形特征,采用基于快速傅里叶变换的自动切割算法替代传统人工干预的数据预处理和特征提取方式;利用Stacking集成学习技术,将随机森林和朴素贝叶斯作为基分类器,以逻辑回归算法作为次级分类器生成分类模型。与以往依赖单一三维重力加速度传感器以及单一强分类模型进行数据采集和分析的传统技术相比,提出的方法在识别准确率有显著提升,并在临床应用中得到检验。实验结果表明,基于柔性传感器和集成学习的老年人动作识别技术在同时识别多种类型动作时能达到90%以上的准确率。  相似文献   

16.
支持向量机在训练过程中,将很多时间都浪费在对非支持向量的复杂计算上,特别是对于大规模数据量的语音识别系统来说,支持向量机在训练时间上不必要的开销将会更加显著。核模糊C均值聚类是一种常用的典型动态聚类算法,并且有核函数能够把模式空间的数据非线性映射到高维特征空间。在核模糊C均值聚类的基础上,结合了多类分类支持向量机中的一对一方法,按照既定的准则把训练样本集中有可能属于支持向量的样本数据进行预选取,并应用到语音识别中。实验取得了较好的结果,该方法有效地提高了支持向量机分类器的学习效率和泛化能力。  相似文献   

17.
主观句识别的工作在诸如情感分类和意见摘要等意见挖掘系统中占有很重要的地位。在该文中,我们提出一种基于情感密度的模糊集合分类器以识别汉语主观句。首先,我们利用优势率方法从训练语料中抽取主观性线索词;然后,为了能更好的表达一个句子的主观性,我们利用抽取出的主观性线索词计算出每个句子的情感密度;最后,我们结合情感密度的特点实现了一个三角形隶属度函数的模糊集合分类器以识别主观句。我们在NTCIR-6中文数据中做了两组实验。实验结果表明我们的方法具有一定的可行性。  相似文献   

18.
将集成学习的思想引入到增量学习之中可以显著提升学习效果,近年关于集成式增量学习的研究大多采用加权投票的方式将多个同质分类器进行结合,并没有很好地解决增量学习中的稳定-可塑性难题。针对此提出了一种异构分类器集成增量学习算法。该算法在训练过程中,为使模型更具稳定性,用新数据训练多个基分类器加入到异构的集成模型之中,同时采用局部敏感哈希表保存数据梗概以备待测样本近邻的查找;为了适应不断变化的数据,还会用新获得的数据更新集成模型中基分类器的投票权重;对待测样本进行类别预测时,以局部敏感哈希表中与待测样本相似的数据作为桥梁,计算基分类器针对该待测样本的动态权重,结合多个基分类器的投票权重和动态权重判定待测样本所属类别。通过对比实验,证明了该增量算法有比较高的稳定性和泛化能力。  相似文献   

19.
针对煤矿突水样本集呈非均衡分布的特点,提出基于集成学习分类的煤矿突水预测模型,重点研究基分类器的构建方法、性能衡量指标和权重分析,以及基于改进型Boosting的集成学习算法.实验结果表明,该算法以牺牲不突水样本的最小误判率为代价,实现突水样本100%的判别准确率,且计算量小,易于实现.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号