共查询到18条相似文献,搜索用时 65 毫秒
1.
刘悦婷 《延边大学学报(自然科学版)》2018,(1):43-48
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出基于近邻密度改进的SVM(NDSVM)不平衡数据集分类算法.该算法先计算多数类内每个样本的近邻密度值,然后依据该密度值选出多数类中位于边界区域、靠近边界区域的与少数类数目相等的样本分别与少数类完成SVM初始分类,最后用所得的支持向量机和剩余的多数类样本完成初始分类器迭代优化.人工数据集和UCI数据集的实验结果表明,与WSVM、ALSMOTE -SVM和基本SVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能. 相似文献
2.
《西安邮电学院学报》2018,(2):1-6
将K近邻分类法和支持向量机分类法结合起来,给出一种电信客户流失预测方法,即对边界样本采用加权K近邻分类,而对非边界样本采用改进的支持向量机分类。在公开不平衡数据集和电信数据集上的实验可验证所给方法有效,且能提高少数类的检测精度和总体评价指标。 相似文献
3.
针对现实中交通正常运行状态远多于事件状态这一事实,提出了面向不平衡数据集的交通事件检测算法.运用SMOTE (Synthetic Minority Over-sampling Technique)算法重构训练集,使之平衡,以支持向量机(Support Vector Machine,SVM)作为分类器,对交通事件进行检测.使用美国I-880高速公路获取的交通数据进行算法的训练和性能测试.结果表明,基于SMOTE-SVM的交通事件自动检测(Automatic Incident Detection,AID)算法可以提高检测率,减少平均检测时间. 相似文献
4.
南光浩 《延边大学学报(自然科学版)》2009,35(3):263-265
在支持向量机(SVM)方法中采用模糊☆近邻方法进行样本预选取,旨在保留最优分类超平面附近的样本点,去除远处样本点,使训练样本集减小,消除冗余,从而减小所需内存.实验结果表明,该方法无论是训练速度还是分类精度都远远好于单独的SVM分类器. 相似文献
5.
在现实网络环境中,数据分布不均衡是普遍现象,也是研究的热点问题.利用传统机器学习算法解决该问题的研究成果较多,综述性研究也较丰富.但当前从深度学习的角度探讨数据不均衡问题已成为新趋势.对此,综述了基于深度学习方法的研究成果.通过对数据不均衡问题进行深入分析,从数据预处理、分类器设计及改进两大方面梳理相关技术路线,包括传... 相似文献
6.
《西安邮电学院学报》2019,(2):72-77
为了提高跟踪学习检测算法的实时性和准确性,提出一种改进的目标跟踪算法。基于跟踪学习检测算法结构,将加速稳健特征作为输入,通过跟踪器和检测器生成正负样本集;利用正负样本集对支持向量机进行训练,得出权值和偏置对目标进行分类;综合模块将跟踪结果与检测结果相结合,确定目标位置,并输出最终的目标图像。实验结果表明,改进算法处理速度为47帧/s,准确率可达94.0%。与跟踪学习检测算法相比,改进算法在实时性和准确性上均有所提升。 相似文献
7.
8.
分析了传统的支持向量分类机对不平衡数据集的影响,并提出了一种调整分离超平面偏移的方法一平均距离比MDR法.首先分别计算正、负类的支持向量到分离超平面距离的平均值,让这个平均值之比等于两类样本数的反比,从而得到偏移b*的值.实验表明,对于不平衡数据集问题,该方法比标准SVM具有更好的效果. 相似文献
9.
为了处理大规模数据和不平衡数据分类问题,提出了一种新的分类方法,利用基于最大夹角间隔的核心集向量机算法实现对大样本数据的分类;针对不平衡数据分类问题,通过对不同的样本给予不同的权重,来提高算法的分类性能。加权最大夹角间隔核心集向量机方法不仅能够有效地解决不平衡数据的分类问题,而且能够实现对大样本数据的快速训练。 相似文献
10.
在邻域风险最小化原则(VRM)中运用模糊K近邻分类器,来提出一种新的定义邻域半径的方法,从而得出一种新的VRM算法.实例证明这一新算法对解决稀疏小样本的分类和回归有着较好的应用. 相似文献
11.
群体异常行为的发生将对社会公共安全构成危害,而不同等级的群体异常行为对社会公共安全构成的危害性不同,因此,对应的关注度和敏感度也不相同.结合ViBe算法,提出一种改进的人群密度分类方法.最后,通过对自拍视频数据集进行实验测试,验证了该算法的有效性和准确性. 相似文献
12.
在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。 相似文献
13.
目的提出一种可以发现不同密度层次分布的聚类算法,解决多层次不同密度数据集的聚类问题.方法采用对数据对象的k-邻居距离进行排序,利用线性回归分析方法发现密度区域变化的边界,对同一个密度区域中的点利用DBSCAN算法进行聚类,获得了多密度级别的类.结果使用真实数据集与人工数据集测试结果表明,此算法可以发现现有算法所不能发现的模式.结论算法在时间效率上与DBSCAN相同,空间效率上随着输入数据的数目增加而线性增长,同时此算法可适用于高维数据集. 相似文献
14.
不平衡数据分类方法综述 总被引:9,自引:0,他引:9
分类问题是机器学习领域的重要研究内容之一,现有的一些分类方法都已经相对成熟,用它们来对平衡数据进行分类一般都能取得较好的分类性能,但在现实世界中数据往往都是不平衡的,而现有的分类器的设计都是基于类分布大致平衡这一假设的,如果用这些方法来对不平衡数据进行分类就会导致分类器的性能下降,因而研究用于处理不平衡数据集的分类方法显得相当重要.为便于读者更清晰地了解数据不平衡分类问题的研究现状和未来研究的动向,本文对相关的研究进行了综述和展望. 相似文献
15.
为把数字乳腺机输出的原始图像分类为背景区域和乳腺区域2部分,以提高医生阅片质量与效率或输出到计算机辅助诊断(CAD)系统以便做进一步处理,提出了一种数字乳腺影像边缘轮廓识别的分类模板构造算法。该算法首先在低分辨率下采用最优阈值及形态学方法对数字乳腺进行初始分割,并使用面积分类器识别出最大面积目标(乳腺区域),然后在高分辨率下采用Dijkstra最小代价搜索算法准确获取乳腺区域封闭轮廓,最后构造分类模板。通过实验表明,该算法是一种快速、准确、稳健的数字影像边缘轮廓识别算法。 相似文献
16.
针对密度聚类算法无法应用于大规模数据集的问题,提出一种基于划分网格的密度聚类算法(GDSCAN)。将大规模二维点阵图划分为若干网格,网格最短边不小于给定邻域半径,目标点所在网格中任意点的邻域范围不会超过与该网格直接连接的网格,只需在保留网格内寻找邻域点,从而减少计算量;聚类从任意无类别核心点开始,将该点的所有密度可达组成一个簇,以此类推直至所有核心点都有类别;采用提出的GDSCAN算法对不同数量级的二维路网节点进行聚类验证。结果表明,GDSCAN算法可有效解决大规模二维点阵数据集中密度聚类的效率问题,数据量越大,效果越明显,且时间复杂度明显降低。 相似文献
17.
提出了基于串行分类算法的不平衡时间序列多分类方法,并以“上证50指数”15 min交易数据为例,进行了实验检验与结果分析. 结果表明,在多数情况下,串行分类算法比单一算法有更高的准确率、召回率和F1值,可以更有效解决不平衡时间序列多分类问题. 相似文献
18.
基于加权样本的FCM快速算法研究 总被引:2,自引:0,他引:2
为改进FCM算法在处理大样本集聚类时速度慢、耗时多的缺点,根据样本在特征空间中的特征值分布情况,引入等价样本和样本加权概念,在此基础上提出了FCM(Fuzzy C-Means)的快速算法一般形式:WFCM(Weighted Fuzzy C-Means)算法.理论上证明了WFCM算法和FCM算法对样本集分割的等价性,并且,WFCM在运算性能方面明显优于FCM算法.而两个算法在灰度图像分割上的例子验证了WFCM算法的快速性和有效性. 相似文献