排序方式: 共有20条查询结果,搜索用时 15 毫秒
1.
不平衡数据集中的组合分类算法 总被引:1,自引:0,他引:1
为提高少数类的分类性能,对基于数据预处理的组合分类器算法进行了研究.利用Tomek links对数据集进行预处理;把新数据集里的多数类样本按照不平衡比拆分为多个子集,每个子集和少数类样本合并成新子集;用最小二乘支持向量机对每个新子集进行训练,把训练后的各个子分类器组合为一个分类系统,新的测试样本的类别将由这个分类系统投票表决.数据试验结果表明,该算法在多数类和少数类的分类性能方面,都优于最小二乘支持向量机过抽样方法和欠抽样方法. 相似文献
2.
不平衡分类问题广泛地应用于现实生活中,针对大多数重采样算法侧重于类间平衡,较少关注类内数据分布不平衡问题,提出一种基于聚类的混合采样算法。首先对原始数据集聚类,然后对每一簇样本计算不平衡比,根据不平衡比的大小对该簇样本做出相应处理,最后将平衡后的数据集放入GBDT分类器进行训练。实验表明该算法与几种传统算法相比F1-value和AUC更高,分类效果更好。 相似文献
3.
互联网金融中的网络贷款用户数据具有类别不平衡的特性,严重影响传统分类器的性能。随机平衡采样算法在对原始数据集进行重采样的过程中,将所有样本同等考虑,本文在平衡采样的过程中充分考虑样本点的性能,将其分为3类样本:安全的、边界的、噪声的,针对不同类型的样本采用相应的采样方法,得到平衡的新数据集,然后对该数据集进行Bagging集成,提高算法的泛化性能,结果表明本文改进的随机平衡采样(Improved Random Balanced Sampling, IRBS)Bagging算法可以较好地对网络贷款用户进行分类。 相似文献
4.
基于双网的会计电子政务系统的设计与实现 总被引:1,自引:0,他引:1
会计电子政务既要面对分布广的会计从业人员,又要处理大量的数据.提高办公效率是会计电子政务中一个急需解决的问题.针对会计电子政务系统的特点,基于政务网和局域网,分别采用B/S结构和C/S结构的方式,在PKI的安全平台上设计并实现了会计电子政务系统.并考虑会计电子政务系统的业务逻辑特点,确保系统的安全性、易操作性和易维护性.该系统在广东省某财政局会计科的使用中表明是可行有效的. 相似文献
5.
针对短期负荷预测中节假日的特殊性,提出基于相似日负荷修正的算法。为了克服节假日样本较少所导致的预测困难,将近期周末扩充到相似日样本中。该算法评估相似性时综合考虑气象和时间因素。针对气象因素,采用灰色关联分析法来计算,而对于时间因素,兼顾到“近大远小”和“周期性”的原则,并以二者相似度的乘积量化总体相似性,选出若干相似日。考虑到类型日和年周期对负荷的影响,基于“历年节假日与周末负荷比例”和“负荷年增长率”分别修正相似周末和相似节假日的负荷。该算法应用到某地级市的预测中,平均相对误差为2.29%。 相似文献
6.
基于相似日负荷修正的节假日短期负荷预测 总被引:5,自引:0,他引:5
针对短期负荷预测中节假日的特殊性,提出基于相似日负荷修正的算法.为了克服节假日样本较少所导致的预测困难,将近期周末扩充到相似日样本中.该算法评估相似性时综合考虑气象和时间因素.针对气象因素,采用灰色关联分析法来计算,而对于时间因素,兼顾到"近大远小"和"周期性"的原则,并以二者相似度的乘积量化总体相似性,选出若干相似日.考虑到类型日和年周期对负荷的影响,基于"历年节假日与周末负荷比例"和"负荷年增长率"分别修正相似周末和相似节假日的负荷.该算法应用到某地级市的预测中,平均相对误差为2.29%. 相似文献
7.
两实例的距离或相似性度量在数据挖掘和机器学习中扮演着重要的角色。常用的距离度量方法主要适用于数值数据,针对分类数据,本文提出一种数据驱动的相似性度量方法。该方法利用属性值与类标签的信息,将属性值的类条件概率结合信息论来度量分类数据的相似性。为了与已提出的相似性度量方法作比较,把各度量方法与k最近邻算法结合,对多个分类数据集进行分类,通过十折交叉验证比较结果的错误率。实验表明该度量结合k最近邻方法使分类具有较低的错误率。 相似文献
8.
9.
为了解决传真无纸化的问题,基于APRO控件设计并实现了一套网络传真系统.该系统实现了传真、语音、电子邮件、内部通信等一系列功能,实现了传真与业务信息系统的无缝连接.并在某外贸公司的实际运行中证明是有效的. 相似文献
10.
在网络贷款用户数据集中,贷款成功和贷款失败的用户数量存在着严重的不平衡,传统的机器学习算法在解决该类问题时注重整体分类正确率,导致贷款成功用户的预测精度较低。针对此问题,在代价敏感决策树敏感函数的计算中加入类分布,以减弱正负样本数量对误分类代价的影响,构建改进的代价敏感决策树;以该决策树作为基分类器并以分类准确度作为衡量标准选择表现较好的基分类器,将它们与最后阶段生成的分类器集成得到最终的分类器。实验结果表明,与已有的常用于解决此类问题的算法(如MetaCost算法、代价敏感决策树、AdaCost算法等)相比,改进的代价敏感决策树对网络贷款用户分类可以降低总体的误分类错误率,具有更强的泛化能力。 相似文献