共查询到18条相似文献,搜索用时 62 毫秒
1.
2.
针对支持向量机(svM)模型不能有效处理海量数据挖掘的问题,提出一种改进的基于主动学习的支持向量机(AL_SVM)方法。该方法首先将训练集随机划分为多个独立同分布的子集,并选择其中一个子集作为初始训练集来训练SVM得到初始分类器和支持向量集,然后根据已经得到的分类器信息在剩余样本集中选择对于分类器改进作用最大的有价值样本。并与已得到的支持向量集合并构成新训练集,以更新分类器,从而在保留重要支持向量信息的前提下,去除大量不重要的支持向量,一定程度上避免了过学习问题,提高了学习效率。实验表明,AL_SVM方法能够在保持学习器泛化能力的同时提高其学习效率。 相似文献
3.
4.
入侵检测研究中,采用基于支持向量机的主动学习算法,有效地降低了学习的样本复杂度.针对支持向量机主动学习算法中存在的随机构造的初始训练集样本质量不高和容易陷入次优等问题,提出了一种结合核空间聚类的初始训练集构建方法,并在距离准则的基础上引入了概率选择机制.仿真实验表明,在不降低检测效果的前提下,该算法所需的学习样本更少,并表现出较高的稳定性. 相似文献
5.
针对传统的二分类支持向量机在数据种类繁多并含有很多不带标签的样本时的固有缺陷,提出了一种主动学习与非平衡二叉树结合的多类分类支持向量机.该方法首先通过类距离构造一个非平衡二叉树结构,从易到难依次构造节点,将最容易分出的类放在根节点,然后利用主动学习策略,自动为选择的样本添加标签,并添加到训练样本集中.实验结果表明本文提出算法性能优于常规主动学习支持向量机,有效提高了分类精度,且大大缩短了算法运行时间. 相似文献
6.
网络新闻自动分类已经成为当下的热点问题,SVM分类算法是文本分类中应用较为成熟的一种方法.文章针对SVM文本分类中特征选择和核函数选择的两个重要问题,在新闻文本实验环境下进行了探讨,结果表明使用互信息特征选择法且特征数在4000左右,使用SIGMOID核函数的情况下准确率与召回率均可达到97%的分类效果. 相似文献
7.
由于网络的发展,中文文本的分类技术也有待提高.向量空间模型是中文文本分类中常用的模型,词作为中文文本的特征,其维数很高,如此高的维数对分类并不是都有用的.所以对特征的选择尤为重要,文章通过两种分类器对多种特征选择方法在同一平面内进行比较,将分类器的各种参数设为最优状态,得到了IG的分类效果较好,并且利用了平均查全率对不同的特征选择方法进行纵向与横向的比较,实验证明,SVM整体的分类效果要优于KNN的分类效果. 相似文献
8.
一种基于RVM回归的分类方法 总被引:3,自引:0,他引:3
支持向量机是用于分类与回归的技术.由于其自身的诸多缺点,如无法获得概率输出,需要估计一个误差参数C,以及必须使用Mercer核函数等.相关向量机算法,克服了SVM上述缺点,RVM能获得与SVM相比拟的推广性能,并且更为稀疏.在此基础上,文中介绍了一种RVM回归用于分类的新分类方法,用RVRC来表示.并通过实验证明了它的... 相似文献
9.
10.
将半监督学习应用到应用流分类问题中,提出了一种基于半监督聚类的应用流分类算法(PSOSC).首先采用粒子群优化的K均值聚类方法对大量的无标记数据和少量的标记数据进行聚类,利用少量标记数据确定簇与应用类型的映射关系,实现应用流分类.实验表明PSOSC算法有较高的流准确率,同时,降低了对标记数据的需求. 相似文献
11.
一种基于半监督学习的应用层流量分类方法 总被引:3,自引:0,他引:3
基于应用层的流量分类在用户行为识别、网络带宽管理等方面有着十分重要的应用.将机器学习应用到应用层流量分类问题中.首先提出了一种基于熵函数的组合式特征选择算法,提取了5种TCP连接的特征.针对监督学习中无法识别新流量类型的问题,提出了一种基于半监督学习的流量分类算法.实验结果表明,算法的检测率优于Kmeans方法.在少量标记样本的情况下,随着未标记样本数增加,算法的检测率在增加. 相似文献
12.
13.
14.
一种基于粗糙集增量式规则学习的问题分类方法研究 总被引:2,自引:0,他引:2
该文提出一种基于粗糙集增量式规则自动学习来实现问题分类的方法,通过深入提取问句特征并采用决策表形式构建训练语料,利用机器学习的方法自动获取分类规则。与其他方法相比优势在于,用于分类的规则自动生成,并采用粗糙集理论的简约方法获得优化的最小规则集;首次在问题分类中引入增量式学习理念,不但提高了分类精度,而且避免了繁琐的重新训练过程,大大提高了学习速度,并且提高了分类的可扩展性和适应性。对比实验表明,该方法分类精度高,适应性好。在国际TREC2005Q/A实际评测中表现良好。 相似文献
15.
多视角主动学习是一种相比于传统主动学习能够取得更大程度版本空间缩减的技术,已被应用于多种类型的大数据分析中.本文针对现有的多视角主动学习算法在分类假设生成和采样策略中存在的不足分别提出了相应的改进方案.本文将Boosting思想应用到多视角主动学习框架中,通过将历史上各次查询得到的分类假设进行加权式投票来实现每次查询后分类假设的强化;与此同时,还提出了一种自适应的分级竞争采样策略,当分类争议样本规模较大时通过无监督谱聚类获得上述样本的空间分布描述,并在各个聚类中结合样本的分类不确定度和冗余度信息通过二次规划求解以获得可靠的批处理采样.为了证明上述改进的有效性,本文将多视角主动学习应用到图像分类领域中,并通过基于不同图像特征的视角来分别生成相应的分类假设.实验表明,本文提出的两点改进策略不仅均有助于提升多视角主动学习的性能,而且基于上述不同视角随机组合的多视角主动学习方法相比于经典的单视角主动学习算法能够更快地实现收敛并达到较高的场景分类准确性. 相似文献
16.
战车类型的识别分类是现代情报获取的重要研究内容。为了获得数据并研究战车分类算法,常进行外场真实实验,但其时间长、耗资巨大。本文在虚拟战场仿真平台上建立坦克、装甲车、运兵车三种战车模型。利用仿真环境中的战车噪声、磁场、振动特征信号作为样本数据,进行战车的分类算法研究。同时基于一对一多分类支持向量机,设计了一种战车分类算法,并给出了分类器交叉验证参数调整策略。实验表明,相比于AdaBoost算法,文章提出的战车分类算法的分类准确率较高。 相似文献
17.
针对视频分类中普遍面临的类内离散度和类间相似性较大而制约分类性能的问题,该文提出一种基于深度度量学习的视频分类方法。该方法设计了一种深度网络,网络包含特征学习、基于深度度量学习的相似性度量,以及分类3个部分。其中相似性度量的工作原理为:首先,计算特征间的欧式距离作为样本之间的语义距离;其次,设计一个间隔分配函数,根据语义距离动态分配语义间隔;最后,根据样本语义间隔计算误差并反向传播,使网络能够学习到样本间语义距离的差异,自动聚焦于难分样本,以充分学习难分样本的特征。该网络在训练过程中采用多任务学习的方法,同时学习相似性度量和分类任务,以达到整体最优。在UCF101和HMDB51上的实验结果表明,与已有方法相比,提出的方法能有效提高视频分类精度。 相似文献