首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
由于基于排序熵的有序决策树在扩展属性选取时,需计算每个条件属性的每个割点处的排序互信息,并通过对比这些排序互信息的大小来确定最大值(最大值对应的属性为扩展属性),计算复杂度较高.针对此问题,文中将割点分为平衡割点和非平衡割点两部分,建立一个数学模型,从理论上证明排序互信息最大值不会在平衡割点处达到,而只能在非平衡割点处达到.这说明在计算排序互信息时只需遍历非平衡割点,而无需再计算平衡割点处的值,从而使决策树构建的计算效率得到较大程度提高.数值实验验证此结果.  相似文献   

2.
决策树是常用的数据挖掘方法,扩展属性的选择是决策树归纳的核心问题。基于离散化方法的连续值决策 树归纳在选择扩展属性时,需要度量每一个条件属性的每一个割点的分类不确定性,并通过这些割点的不确定性选择 扩展属性,其计算时间复杂度高。针对这一问题,提出了一种基于相容粗糙集技术的连续值属性决策树归纳方法。该 方法首先利用相容粗糙集技术选择扩展属性,然后找出该属性的最优割点,分割样例集并递归地构建决策树。从理论 上分析了该算法的计算时间复杂度,并在多个数据集上进行了实验。实验结果及对实验结果的统计分析均表明,提出 的方法在计算复杂度和分类精度方面均优于其他相关方法。  相似文献   

3.
提出了一种基于MapReduce和上采样的两类非平衡大数据分类方法,该方法分为5步:(1)对于每一个正类样例,用MapReduce寻找其异类最近临;(2)在两个样例点之间的直线上生成若干个正类样例;(3)以新的正类样例子集的大小为基准,将负类样例随机划分为若干子集;(4)用负类样例子集和正类样例子集构造若干个平衡数据子集;(5)用平衡数据子集训练若干个分类器,并对训练好的分类器进行集成。在5个两类非平衡大数据集上与3种相关方法进行了实验比较,实验结果表明本文提出的优于这3种方法。  相似文献   

4.
针对非平衡数据分类时学习器泛化性能较差的问题,本文提出一种基于虚拟中心约减的非平衡分类(Imbalanced classification based on virtual center reduction,IC_VCR)方法.该方法首先将非平衡的二分类样本中的多类数据集进行聚类,然后计算虚拟的聚类中心,通过虚拟中心有效地替代多类样本参与学习,将多类样本有效压缩,从而使得两类样本的规模趋于平衡,以提高非平衡数据分类的性能.实验结果表明,IC_VCR方法在非平衡数据集上可以有效提高泛化性能,并同时得到较高的学习效率.  相似文献   

5.
陶秉墨  鲁淑霞 《计算机科学》2018,45(Z6):487-492
对于不平衡数据分类问题,传统的随机梯度下降方法在求解一般的支持向量机问题时会产生一定的偏差,导致效果较差。自适应随机梯度下降算法定义了一个分布p,在选择样例进行迭代更新时,其依据分布p而非依据均匀分布来选择样例,并且在优化问题中使用光滑绞链损失函数。对于不平衡的训练集,依据均匀分布选择样例时,数据的不平衡比率越大,多数类中的样例被选择的次数就越多,从而导致结果偏向少数类。分布p在很大程度上解决了这个问题。普通的随机梯度下降算法没有明确的停机准则,这导致何时停机成为一个很重要的问题,尤其是在大型数据集上进行训练时。以训练集或训练集的子集中的分类准确率为标准来设定停机准则,如果参数设定恰当,算法几乎可以在迭代的早期就停止,这种现象在大中型数据集上表现得尤为突出。在一些不平衡数据集上的实验证明了所提算法的有效性。  相似文献   

6.
针对不平衡数据集,提出一种基于后验概率的特征选择算法。该算法引入基于Parzen-window方法估算的不均衡因子,并以Tomek links中点为初始值进行迭代,找出满足后验概率相等的判别边界点,通过对这些点法向量进行投影计算得到各特征的权值。实验表明,对于不平衡数据集,该算法在不降低分类器总体性能的基础上,不仅可以有效降低维度,节省计算开销,而且能够避免常规特征选择算法用于不平衡数据时忽视小类的缺点。  相似文献   

7.
模糊粗糙集由于能够处理实数值数据,甚至是混合值数据中的不确定性受到人们的广泛关注,其最重要的应用之一是特征选择,相关的特征选择方法已有不少研究,但其快速的特征选择算法研究很少。实际中的数据一般含有噪声点或信息含量低的样例,如果对数据集先筛选出代表样例,再对筛选的样例集进行数据挖掘便会降低挖掘计算量。本文基于模糊粗糙集,先根据样例的模糊下近似值对样例进行筛选,然后利用筛选样例的模糊粗糙信息熵构造特征选择的评估度量,并给出相应的特征选择算法,从而降低了算法的计算复杂度。数值试验表明该快速算法具有有效性,并且对控制筛选样例个数的参数给出了建议。  相似文献   

8.
动态时间弯曲距离能度量不等长的时间序列、且具有较高的匹配精度,因此广泛应用在时间序列模式匹配中。但其计算复杂度较高,制约了在大规模数据集上的应用。为了实现时间序列模式度量结果和计算复杂度的平衡,提出一种基于特征点界标过滤的时间序列模式匹配方法。首先,提出一种特征点界标过滤的特征提取方法,保留时间序列主要特征,压缩时间维度;然后,利用动态时间弯曲距离对特征序列进行相似性度量;最后,在应用数据集上对所提方法进行有效性验证。实验结果表明,所提方法在保证高精度的前提下,能有效降低计算复杂度。  相似文献   

9.
数据增强是解决数据集不平衡的有效方法,针对现有的数据增强方法存在生成样本越界和随机性差的问题,提出一种基于最大最小距离的多中心数据增强方法MCA。通过计算所有样本的加权密度,减少离群点对最终分类结果的影响,同时将抽样方法与最大最小距离算法相结合选择最优的数据,生成多中心点集,避免生成结果出现样本类别越界的情况,从而拓展样本数据的多样性,并且降低时间复杂度。在此基础上,根据样本的相似性构建权重函数,计算加权平均生成新的样本,解决原有数据集不平衡的问题。在SwedishLeaf数据集和实测数据集上进行实验,结果表明,相比SMOTE、Easy Ensemble、RR等方法,该方法的精确率和召回率均提高了1.17%以上,F1值提高了2%以上,能够有效提高泛化能力,在少数类和多数类样本不平衡率较高的情况下具有较优的分类性能。  相似文献   

10.
一种新的不平衡数据学习算法PCBoost   总被引:8,自引:0,他引:8  
现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决策树,作为弱分类器.在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正“扰动”,删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势.  相似文献   

11.
针对现有的基于非负矩阵分解的隐私保护数据挖掘方法中,不区分样本的重要性的不同,对所有样本都进行同样强度扰动的问题进行改进。提出了一种结合样本选择的基于非负矩阵分解的隐私保护分类方法。该方法使用样本选择将原始样本区分为重要的和不重要的两类。在对数据进行扰动时,使用现有的基于非负矩阵分解的方法对所有样本进行扰动。随后利用非负矩阵分解的聚类性质,对不重要的样本进行附加扰动。实验表明,该方法在保持数据可用性的同时,可以对隐私信息提供更好的保护。  相似文献   

12.
周玉 《计算机应用研究》2021,38(6):1683-1688
为了提高神经网络分类器的性能,提出一种基于K均值聚类的分段样本数据选择方法.首先通过K均值聚类把训练样本根据已知的类别数进行聚类,对比聚类前后的各类样本,找出聚类错误的样本集和聚类正确的样本集;聚类正确的样本集根据各样本到聚类中心的距离进行排序并均分为五段,挑选各类的奇数段样本和聚类错误的样本构成新的训练样本集.该方法能够提取信息量大的样本,剔除冗余样本,减少样本数量的同时提高样本质量.利用该方法,结合人工和UCI数据集对三种不同的神经网络分类器进行了仿真实验,实验结果显示在训练样本平均压缩比为66.93%的前提下,三种神经网络分类器的性能都得到了提高.  相似文献   

13.
In this paper, image data compression methods based on sample selection in the piecewise-linear transform domain will be presented. The image is subjected to a 2-dimensional piecewise-linear transformation and some coefficients will be selected using threshold method and a proposed zonal sampling method. In the proposed zonal sampling method all samples outside the selected zone will be discarded completely (no zeros are replaced). The inverse transformation in this case will have a dimension equal to that of the selected zone. Thus the number of computations needed for the inverse transformation is reduced. The Peak Signal-to-Noise Ratio (PSNR) is used as a measure of quality of the reconstructed images. Comparisons of the compression ability using piecewise-linear transforms and some selected orthogonal transforms such as Walsh and cosine transforms are given. The results obtained by using the proposed zonal sampling method show that the piecewise-linear transforms have a better performance than the orthogonal transforms.  相似文献   

14.
随着深度学习的应用普及,其安全问题越来越受重视,对抗样本是在原有图像中添加较小的扰动,即可造成深度学习模型对图像进行错误分类,这严重影响深度学习技术的发展。针对该问题,分析现有对抗样本的攻击形式和危害,由于现有防御算法存在缺点,提出一种基于图像重构的对抗样本防御方法,以达到有效防御对抗样本的目的。该防御方法以MNIST为测试数据集,核心思路是图像重构,包括中心方差最小化和图像缝合优化,中心方差最小化只针对图像中心区域进行处理;图像缝合优化将重叠区域纳入补丁块选取的考量,并以补丁块的1/2大小作为重叠区域。使用FGSM、BIM、DeepFool以及C&W攻击方式生成对抗样本来测试两种方式的防御性能,并与现有的3种图像重构防御方式(裁剪与缩放、位深度压缩和JPEG压缩)效果对比。实验结果表明,所提中心方差最小化和图像缝合优化算法,对现有常见对抗样本的攻击起到了较好的防御效果。图像缝合优化对4种攻击算法生成的样本分类正确率都达到了75%以上,中心方差最小化的防御效果在70%左右。而用作对比的3种图像重构算法则对不同攻击算法的防御效果不稳定,整体分类正确率不足60%。所提中心方差最小化...  相似文献   

15.

In dynamic ensemble selection (DES) techniques, only the most competent classifiers, for the classification of a specific test sample, are selected to predict the sample’s class labels. The key in DES techniques is estimating the competence of the base classifiers for the classification of each specific test sample. The classifiers’ competence is usually estimated according to a given criterion, which is computed over the neighborhood of the test sample defined on the validation data, called the region of competence. A problem arises when there is a high degree of noise in the validation data, causing the samples belonging to the region of competence to not represent the query sample. In such cases, the dynamic selection technique might select the base classifier that overfitted the local region rather than the one with the best generalization performance. In this paper, we propose two modifications in order to improve the generalization performance of any DES technique. First, a prototype selection technique is applied over the validation data to reduce the amount of overlap between the classes, producing smoother decision borders. During generalization, a local adaptive K-Nearest Neighbor algorithm is used to minimize the influence of noisy samples in the region of competence. Thus, DES techniques can better estimate the classifiers’ competence. Experiments are conducted using 10 state-of-the-art DES techniques over 30 classification problems. The results demonstrate that the proposed scheme significantly improves the classification accuracy of dynamic selection techniques.

  相似文献   

16.
针对二分K-均值算法由于随机选取初始中心及人为定义聚类数而造成的聚类结果不稳定问题,提出了基于密度和中心指标的Canopy二分K-均值算法SDCBisecting K-Means。首先计算样本中数据密度及其邻域半径;然后选出密度最小的数据并结合Canopy算法的思想进行聚类,将得到的簇的个数及其中心作为二分K-均值算法的输入参数;最后在二分K-均值算法的基础上引入指数函数和中心指标对原始样本进行聚类。利用UCI数据集和自建数据集进行模拟实验对比,结果表明SDCBisecting K-Means不仅使得聚类结果更精确,同时算法的运行速度更快、稳定性更好。  相似文献   

17.
本文研究了一种数据驱动下的半导体生产线调度框架,该框架基于调度优化数据样本,应用机器学习算法,获得动态调度模型,通过该模型,对于半导体生产线,能够根据其当前的生产状态,实时地定出近似最优的调度策略.在此基础上,利用特征选择和分类算法,提出一种生成动态调度模型的方法,并且具体实现出一种混合式特征选择和分类算法的调度模型:先采用过滤式特征选择方法对生产属性进行初步筛选,然后再采用封装式特征选择和分类方法生成模型以提高模型生成的效率.最后,在某实际半导体生产线上,对在所提出的框架上采用6种不同算法实现的动态调度模型进行测试,并对算法性能数据和生产线性能据进行对比和分析.结果表明,数据驱动下的动态调度方法优于单一的调度规则,同时也能满足生产线调度实时性要求.在数据样本较多的情况下,建议采用本文所提出的方法.  相似文献   

18.
为了解决差分能量攻击(DPA)中的样本选取问题,提出了一套样本选取方法。方法从所使用的实验平台出发,通过理论分析提出样本选取方式和数量,然后进行实验验证。以AES算法为例,分别进行了仿真实验和实测实验,验证了所提出的选取方法的准确性。结果表明,仿真攻击的明文样本应该按顺序取,数量为一个全排列,而实测攻击应该直接采用大量随机数,两者对明文样本的要求存在较大差别。  相似文献   

19.
主动学习解决了因训练样本过大而导致需要大量人力物力的问题,核心问题是如何选择有价值的样本减少标注成本。以神经网络为分类器,大多数方法选择信息量大的样本并没有考虑所选择样本间的信息冗余问题。通过对冗余问题的研究,提出一种降低信息冗余的样本选择优化方法。用不确定性方法选出信息量大的样本构成候选样本集,同时用网络中计算的潜变量向量表示样本信息,利用该向量计算候选样本间的余弦距离选择出间隔距离大、信息冗余度低的子集。在Mnist、Fashion-mnist,以及Cifar-10数据集中与几种不确定性方法相比,在相同样本准确率下,该方法最低减少11%标记样本。  相似文献   

20.
流数据环境下如何利用大量非标记样本进行高效学习是一个非常重要的问题,基于分歧策略的主动学习是一种有效的解决方法,但通常该类算法只考虑具有最大分歧的边界样本,没有考虑训练前期对分歧度小的样本误判后的样本矫正问题,为此,提出一种基于分歧度评价的融合主动学习和集成学习的高效能学习方法。该方法基于样本分歧度和不同的训练阶段,采取不同的非标记样本选取方式。为评价方法性能,在人工流数据和HEp-2细胞图像数据上进行了实验,结果表明该方法相对于目前的Qboost方法,需要的训练样本数少且具有更高的分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号