共查询到20条相似文献,搜索用时 15 毫秒
1.
不平衡数据分类是当前机器学习的研究热点,传统分类算法通常基于数据集平衡状态的前提,不能直接应用于不平衡数据的分类学习.针对不平衡数据分类问题,文章提出一种基于特征选择的改进不平衡分类提升算法,从数据集的不同类型属性来权衡对少数类样本的重要性,筛选出对有效预测分类出少数类样本更意义的属性,同时也起到了约减数据维度的目的.然后结合不平衡分类算法使数据达到平衡状态,最后针对原始算法错分样本权值增长过快问题提出新的改进方案,有效抑制权值的增长速度.实验结果表明,该算法能有效提高不平衡数据的分类性能,尤其是少数类的分类性能. 相似文献
2.
针对传统支持向量机方法用于数据分类存在分类精度低的不足问题, 将支持向量机分类方法与特征选择同步结合, 并利用智能优化算法对算法参数进行优化研究. 首先将遗传算法(Genetic algorithm, GA)和乌燕鸥优化算法(Sooty tern optimization algorithm, STOA)进行混合, 先通过对平均适应度值进行评估, 当个体的适应度函数值小于平均值时采用遗传算法对其进行局部搜索的加强, 否则进行乌燕鸥本体优化过程, 同时将支持向量机内核函数和特征选择目标共同作为优化对象, 利用改进后的STOA-GA寻找最适应解, 获得所选的特征分类结果. 其次, 通过16组经典UCI数据集和实际乳腺癌数据集进行数据分类研究, 在最佳适应度值、所选特征个数、特异性、敏感性和算法耗时方面进行对比研究, 实验结果表明, 该算法可以更加准确地处理数据, 避免冗余特征干扰, 在数据挖掘领域具有更广阔的工程应用前景. 相似文献
3.
特征选择在文本分类中是非常必要的,这是由于它可以使分类更加有效与准确。本文根据特征选择方法χ2统计方法的不足,对χ2统计进行改进,并在支持向量机分类算法上进行实验。实验结果表明改进的方法可以提高分类的准确度。 相似文献
4.
基于支持向量机的肿瘤分类特征基因选取 总被引:19,自引:0,他引:19
依据基因表达谱有效建立肿瘤分类模型的关键在于准确找出决定样本类别的一组特征基因.针对该问题,在分析肿瘤基因表达谱特征的基础上,研究了肿瘤分类特征基因选取问题.首先,提出了一种新的类别可分性判据以滤除分类无关基因,并采用支持向量机作为分类器进行特征基因分类性能的检验.然后,采用两两冗余分析及基于支持向量机分类模型的灵敏度分析法进行冗余基因的剔除.以急性白血病亚型分类特征基因选取为例进行实验,结果表明了上述方法的可行性和有效性. 相似文献
5.
CC’s (Cloud Computing) networks are distributed and dynamic as signals appear/disappear or lose significance. MLTs (Machine learning Techniques)train datasets which sometime are inadequate in terms of sample for inferringinformation. A dynamic strategy, DevMLOps (Development Machine LearningOperations) used in automatic selections and tunings of MLTs result in significantperformance differences. But, the scheme has many disadvantages including continuity in training, more samples and training time in feature selections andincreased classification execution times. RFEs (Recursive Feature Eliminations)are computationally very expensive in its operations as it traverses through eachfeature without considering correlations between them. This problem can be overcome by the use of Wrappers as they select better features by accounting for testand train datasets. The aim of this paper is to use DevQLMLOps for automated tuning and selections based on orchestrations and messaging between containers. Theproposed AKFA (Adaptive Kernel Firefly Algorithm) is for selecting features forCNM (Cloud Network Monitoring) operations. AKFA methodology is demonstrated using CNSD (Cloud Network Security Dataset) with satisfactory results inthe performance metrics like precision, recall, F-measure and accuracy used. 相似文献
6.
研究了有关癌症分类的基因选择问题。开发了集成的基于平滑剪切绝对偏差罚分的SVM—特征选择方法,直接最小化分类器的性能。为解决优化问题,应用了突函数差异算法(difference of convex functionsal-gorithms,DCA)这一进行非突连续优化的通用框架,致使连续线性规划算法有限收敛。真实数据集上的先验实验表明算法达到了预想目标:在压缩大量属性的同时,保持了较小分类差错。 相似文献
7.
分类问题的一种可伸缩特征选择算法 总被引:4,自引:0,他引:4
特征选择是数据挖掘分类中的一个重要问题.该文推导出一种新的衡量特征与类别相关度的测度SCD即描述特征取值序列类分布的CV系数,利用该测度给出一种线性的可伸缩特征选择算法StaFSOS,并证明了在类别数为2时,SCD测度满足分支界限法的单调性;给出了StaFSOS的一个完备形式——BBStaFS.在12个标准数据集中,StaFSOS算法得出的结果和目标集几乎一致,而StaFSOS的效率高于其它算法;而在另1个中,BBStaFS算法得出了准确结果.在用1000个样本20个特征的真实数据进行的测试中,StaFSOS运行时间是目前较快的GRSR的1/2,得出的特征集准确有效. 相似文献
8.
音频自动分类中的特征分析和抽取 总被引:8,自引:1,他引:8
音频特征分析和抽取是音频自动分类的基础,本文将音频对象分为静音,噪音,纯语音,带背景音语音,音乐等5类,从帧层次和段层次上深入分析了不同类音频之间的区别性特征,包括帧层次上的MFCC,频域能量,子带能量,过零率,频谱中心等特征,在此基础上计算了段层次上的基本音频特征,包括静音比率,子带能量比均值等,提出了3个音频”流”特征-High-ZCR比率,Low-Frequency-Energy比率,频谱流量.设计并实现了一种基于支持向量机(support vector machine)的自动分类器,考察了上述特征组成的特征集合在该分类器中的分类性能.实验表明,本文提出的特征有效,分类性能良好. 相似文献
9.
10.
在基于内容图像检索中,图像的底层视觉特征和高层语义概念之间存在着较大的语义间隔。使用机器学习方法学习图像特征,自动建立图像类的模型成为一种有效的方法。本文提出了一种用支持向量机(SVM)实现自然图像自动语义归类的方法,基于块划分聚类得到特征向量作为SVM训练样本,实现语义分类器。由于参与聚类的是某类图像所有块的特征,提取的特征更能反映某一类图像特征。实验证明这种方法是有效的。 相似文献
11.
针对监督分类中的特征选择问题, 提出一种基于量子进化算法的包装式特征选择方法. 首先分析了现有子集评价方法存在过度偏好分类精度的缺点, 进而提出基于固定阈值和统计检验的两种子集评价方法. 然后改进了量子进化算法的进化策略, 即将整个进化过程分为两个阶段, 分别选用个体极值和全局极值作为种群的进化目标. 在此基础上, 按照包装式特征选择遵循的一般框架设计了特征选择算法. 最后, 通过15个UCI数据集分别验证了子集评价方法和进化策略的有效性, 以及新方法相较于其它6种特征选择方法的优越性. 结果表明, 新方法在80%以上的数据集上取得相似甚至更好的分类精度, 在86.67%的数据集上选择了特征个数更小的子集. 相似文献
12.
13.
传统的基于内容图像检索技术对图像领域没有限制,而宽泛的图像领域不仅严重影响了系统检索精度,而且增加了系统查询时间.本文提出一种基于SVR(Support Vector Regression)分类的多特征彩色图像检索新算法,该算法首先提取出图像的颜色、空间和纹理信息并作为图像的特征向量,然后以回归型支持向量机(SVR)为学习机器,对图像库进行分类处理以缩小图像领域范围,最后在较小的领域范围内进行图像检索.实验结果表明,本文算法能够准确和高效地查找出用户所需内容的彩色图像,并且具有较好的查准率和查全率. 相似文献
14.
基于SVM的图像分类研究 总被引:1,自引:0,他引:1
图像分类技术有着重要的应用前景,而且对于基于内容的图像检索的发展会有积极的推动作用。多类图像分类是图像分类中的难点,对基于SVM的多类图像分类方法进行了研究,提出在二类支持向量机的基础上构造多类分类器的方法,实验结果证明和传统方法相比,分类准确率有了较大的提高。 相似文献
15.
利用GA与SVM对NIDS进行关键特征提取 总被引:2,自引:0,他引:2
入侵检测是网络信息安全系统的重要组成部分,而检测特征数量的多少是影响整个入侵检测系统性能的重要因素。介绍了一种减少冗余特征、确定关键特征的方法。这种方法以检测精度为基准,借助遗传算法(GA)寻优,利用支持向量机(SVM)评价,根据统计学原理进行重要性排序。最后按照排序,根据检测精度和误判率变化情况减少冗余,确定关键特征。实验结果理想,并且,与文献[1,2]相比,关键特征更少,说明这种方法是科学的,是完全可行的。 相似文献
16.
网页分类是为了解决网络信息过载问题而延伸的一个热门研究领域,同时支持向量机以其出色的学习能力,在解决高维问题时表现出了特定的优势。本文在研究支持向量机和标准的免疫克隆优化算法的基础上,提出了一种改进的免疫克隆和支持向量机相结合的分类算法。标准算法中由于通过对抗体编码中某些位进行随机取反来实现抗体变异,造成搜索能力不强。该方法针对上述不足,将记忆单元和普通单元区分开来,对记忆单元定义自适应概率,从而加强在当前最优解邻域内的搜索能力,加快寻求全局最优解的速度。实验结果表明,该改进算法较其他算法具有更好的参数选择效果和更高的选择效率,是一种具有较高准确率和效率的网页分类方法。 相似文献
17.
18.
为了降低Wrapper模式网络故障特征选择方法分类算法的计算量,文章提出了一种基于元学习和二进制粒子群(ML-BPSO)的特征选择方法;算法在封装的分类训练中采用元学习方法估算分类精度,并利用BPSO在特征空间中进行全局搜索选出最优特征集;在DARPA数据集上的实验可以看出本文方法选取结果与BPSO-SVM相当但是计算量大大降低;实验结果表明文章提出的方法能够显著的降低网络故障特征选择计算量,同时保证了较高的诊断精度和较好的降维效果. 相似文献
19.
当前网络流量日趋复杂,给网络管理带来许多困难.为了准确地识别出网络中的各种流量,本文以支持向量机为分类器,以流的统计学特征为分类依据,提出一种组合式特征选择算法,该算法首先快速去除和分类不相关的特征,针对余下的特征,再利用遗传算法引导特征的选择和支持向量机模型参数的寻优,最终获得了最优的特征集和最佳的支持向量机分类模型.经过实验验证,基于该算法的网络流量识别方法在识别P2P流量时能以更少的特征获得更高的分类准确率. 相似文献
20.
The use of machine learning techniques to automatically analyse data for information is becoming increasingly widespread.
In this paper we primarily examine the use of Genetic Programming and a Genetic Algorithm to pre-process data before it is
classified using the C4.5 decision tree learning algorithm. Genetic Programming is used to construct new features from those
available in the data, a potentially significant process for data mining since it gives consideration to hidden relationships
between features. A Genetic Algorithm is used to determine which such features are the most predictive. Using ten well-known
datasets we show that our approach, in comparison to C4.5 alone, provides marked improvement in a number of cases. We then
examine its use with other well-known machine learning techniques. 相似文献