首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 484 毫秒
1.
电信流失客户数据精确预测是挽留客户的有效手段.电信业的管理中对收费、投诉、业务受理等问题,显然是一种典型的非平衡样本,传统用标准的支持向量机没有考虑样本分布不平衡问题,虽然在样本数据平衡前提下具有较好的预测精度,但对于不平衡电信客户数据,预测精度大大下降.为提高预测精度,针对支持向量机处理不平衡样本时的缺陷,提出了基于代价敏感学习的支持向量机模型.模型利用代价敏感学习对不平衡样本集分别采用不同惩罚系数,然后建立电信客户流失预测模型,最后对实际电信客户流失数据进行测试.通过与标准支持向量机、神经网络对比,结果表示模型提高了预测精度,有效地解决了数据集非平衡性问题,是一种有效的电信客户流失预测方法.  相似文献   

2.
基于代价敏感的决策树的电信离网分析模型   总被引:1,自引:0,他引:1  
随着电信行业竞争的加剧,客户流失率日益攀升,因此提高客户流失的预测精度将直接关系到电信企业的生存和发展.而电信客户数据集中存在严重的数据不平衡问题,会导致两类错分代价明显不等同.而基于传统决策树的客户流失模型却是在两类错分代价相等的前提下建立的,与实际情况不符.因此引入代价敏感学习理论,该理论将不同的错分代价纳入建模过程,以建立一个基于代价敏感的决策树的电信客户离网分析模型.该方法有效地提高了模型对流失客户的预测性能.这对促进电信业的发展具有相当重要的意义.  相似文献   

3.
入侵检测系统在最大化计算机安全性的同时,着手减小其代价也是关键点之一.标准的分类器设计一般基于精度,在入侵检测等实际应用问题中,不同的类别对应的错分代价也不同,在此类问题中直接使用标准分类方法就无法取得良好的分类和预测效果.代价敏感算法通过改变代价矩阵,可使高代价样本的错分率得到有效的控制,并尽量减少总体错分代价.本文时代价敏感支持向量机在入侵检测中的应用进行了研究,并用KDDCUP99标准数据集对文中算法进行了测试评估.  相似文献   

4.
现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法--NIBoost(New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。  相似文献   

5.
代价敏感概率神经网络及其在故障诊断中的应用   总被引:3,自引:1,他引:2  
针对传统的分类算法人多以误分率最小化为目标,忽略了误分类型之间的差别和数据集的非平衡性的问题,提出代价敏感概率神经网络算法.该算法将代价敏感机制引入概率神经网络,用期望代价取代误分率,以期望代价最小化为目标,基于期望代价最小的贝叶斯决策规则预测新样本类别.采用工业现场数据和数据集German Credit验证了该算法的有效性.实验结果表明,该算法具有故障识别率高、泛化能力强、建模时间短等特点.  相似文献   

6.
万建武  杨明  吉根林  陈银娟 《软件学报》2013,24(5):1155-1164
传统的局部保持降维方法追求最低的识别错误率,即假设每一类的错分代价都是相同的.这个假设在真实的人脸识别应用中往往是不成立的.人脸识别是一个多类的代价敏感和类不平衡问题.例如,在人脸识别的门禁系统中,将入侵者错分成合法者的损失往往高于将合法者错分成入侵者的损失.因此,每一类的错分代价是不同的.另外,如果任一类合法者的样本数少于入侵者的样本数,该类合法者和入侵者就是类别不平衡的.为此,将错分代价融入到局部保持的降维模型中,提出了一种错分代价最小化的局部保持降维方法.同时,采用加权策略平衡了各类样本对投影方向的贡献.在人脸数据集AR,PIE,Extended Yale B 上的实验结果表明了该算法的有效性.  相似文献   

7.
非平衡数据集的分类问题是机器学习领域的一个研究热点。针对非平衡数据集分类困难的问题,特别是由于非平衡分布引起的少数类识别能力低下的问题,提出了一种改进算法,AdaBoost-SVM-OBMS。该算法结合Boosting算法和基于错分样本产生新样本的过抽样技术。在新算法中,以支持向量机为元分类器,每次Boosting迭代中标记出错分的样本点,然后在错分样本点与其近邻间随机产生一定数量与错分样本同一类别的新样本点。新产生样本点加入原训练集中重新训练学习,以提高分类困难样本的识别能力。在AUC,F-value和G-mean 3个不同价格的评价指标下8个benchmark数据集上对AdaBoost-SVM-OBMS算法与AdaBoost-SVM算法和APLSC算法进行了对比实验,实验结果表明了AdaBoost-SVM-OBMS算法在非平衡数据集分类中的有效性。  相似文献   

8.
《计算机科学与探索》2017,(11):1775-1782
针对网络行为数据中中类样本不均衡、样本标注代价大的问题,结合委员会投票和动态代价思想提出一种针对不均衡数据集的分类算法DC-TSVM(dynamic cost and cooperative labeling transductive support vector machine)。该方法在构建每个子分类器时利用类密度之间的关系动态计算各个类的错分代价,减少分类超平面的偏移,然后利用投票熵选择标注准确性较高的样本进行投票标注,减少错误的累积和传递,提高标注准确率,增强最后分类器的泛化性能。KDDCUP99数据集上的实验结果表明该方法对未知攻击有较高的检测准确率。  相似文献   

9.
侯波  赵伦  颜昌沁 《数字社区&智能家居》2011,(20):5031-5032,5034
该文针对目前电信行业中一个日益严峻的问题:客户离网进行研究,通过收集客户的基本数据、消费数据和缴费行为等数据,建立客户流失预测模型,进行客户流失分析及预测.通过对大量相关技术和统计方法的研究,最终确定了clementine的C5.0模型作为电信客户流失的预测模型.此模型对客户流失预测有较高的准确性,为电信经营分析系统作...  相似文献   

10.
传统的方法中,标准的分类器设计一般基于精度,但是许多实际应用问题中,不同的类别对应的错分代价也不同,往往少数类样本更加值得关注。对于不平衡的数据集处理,最直接的方法就是改变学习算法的本身使之成为代价敏感算法,当然相对于改变数据集的结构,这也是稍难实现的方法。除此之外,改变数据集的分布也是常用办法,本文采用的办法是过取样和欠取样。本文将对以上所提到的三种方法在不同的数据集上比较其性能,以了解不同解决策略的特性与适用的环境。  相似文献   

11.
软件缺陷预测是典型的非平衡学习问题。基于CS SVM和聚类算法改进代价敏感支持向量机(SVM)算法,提出了CCS SVM软件缺陷预测模型。在CCS SVM预测模型中,将SVM与类别误分代价结合起来,以非平衡数据评价指标作为目标函数,优化错分代价因子,提升少数类样本的识别率。通过聚类找到每类样本的中心点,根据样本到其中心点的距离定义每个样本的类别置信度,给每个样本分配不同的误分代价系数,并把样本的置信度引入到代价敏感SVM优化问题中,提高算法鲁棒性,提升SVM分类性能。此外,为了提高模型的泛化能力,使用遗传算法优化特征选择和模型参数。通过美国航空航天局NASA MDP数据集实验表明,本文方法的G mean和F measure模型评价值有明显的提升。  相似文献   

12.
客户流失分析与预测是客户关系管理的重要内容。根据银行实际客户流失数据中正负样本数量不平衡而且数据量大的特点,采用遗传算法对传统支持向量机进行改进,得到GA-SVM模型,并以国内某商业银行VIP客户流失预测为实例,与人工神经网络、决策树、逻辑回归和贝叶斯分类器方法进行了对比,发现该方法能获得最好的正确率、命中率、覆盖率和提升系数,是预测现有客户流失倾向的有效方法。  相似文献   

13.
针对电信企业客户流失问题,提出采用贝叶斯决策树算法的预测模型,将贝叶斯分类的先验信息方法与决策树分类的信息熵增益方法相结合,应用到电信行业客户流失分析中,分别将移动公司的客户数据以及UCI数据纳入到模型中得出相应的结果。加入贝叶斯节点弥补决策树不能处理缺失值以及二义性数据的缺点。检验结果表明,基于贝叶斯推理的决策树算法在牺牲了较小的训练时间与分类时间的情况下,得到了比仅基于决策树算法更高的覆盖率与命中率。  相似文献   

14.
武帅  王雄  段云峰 《微计算机信息》2007,23(12):163-165
使用支持向量机(SVM,Support Vector Machine)数据挖掘方法对移动通信行业客户流失倾向进行预测,对支持向量机同决策树算法预测的结果进行对比,结果表明支持向量机对本文所选取的属性数据具有更强的分类能力,而且在不同训练数据规模情况下预测模型有较好的稳定性。实验证实,运用本研究模型选取全体客户的22.31%,可以预测出50.07%流失的客户,表明本研究中提出的预测模型具有实际应用价值。  相似文献   

15.
This study proposes a novel PSO–CS-SVM model that hybridizes the particle swarm optimization (PSO) and cost sensitive support vector machine (CS-SVM) to deal with the problem of unbalanced data classification and asymmetry misclassification cost in loan default discrimination problem. Cost sensitive learning is applied to the standard SVM by integrating misclassification cost of each sample into standard SVM and PSO is employed for parameter determination of the CS-SVM. Meantime, the financial data are discretized by using the self-organizing mapping neural network. And the evaluation indices are reduced without information loss by genetic algorithm for decreasing the complexity of the model. The effectiveness of integrated model of CS-SVM and PSO is verified by three experiments comparing with traditional CS-SVM, PSO–SVM, SVM and BP neural network through real loan default data of companies in China. The corresponding results indicate that the accuracy rate, hit rate, covering rate and lift coefficient are improved dramatically by the developed approach. The proposed method can control the different types of errors distribution with various cost of misclassification accurately, reduce the total misclassification cost largely, and distinguish the loan default problems effectively.  相似文献   

16.
夏国恩 《计算机应用》2008,28(1):149-151
将核主成分分析(KPCA)引入到客户流失预测中,提出了相应的特征提取算法。将KPCA与Logistic回归结合,设计了预测模型。通过对某电信公司客户流失预测的试验结果表明:该方法获得的命中率、覆盖率、准确率和提升系数高于原始属性集和主成分分析(PCA)特征提取法。这表明KPCA能提取客户数据的非线性特征,是研究客户流失预测问题的有效方法。  相似文献   

17.
针对于大样本数据的客户流失预测,从特征有效表达的角度,提出了一种基于谱回归特征约简的预测模型.模型在原始客户特征基础上,利用基于谱回归的流形降维,建立可区分性的低维特征空间,在此之上采用支持向量机实现客户流失的二分类.通过在网络客户和传统电信客户两种不同数据集上的大样本实验,并与不同分类器、不同特征约简或选择方法的对比,证明了该方法的有效性.  相似文献   

18.
为了提高铁路零散白货客户流失预测的准确性和高效性,根据铁路零散白货客户的流失特征,提出了基于CDL模型的客户流失识别方法,在此基础上,针对数据量大的问题,提出了基于Hadoop并行框架的C4.5决策树客户流失预测模型。通过仿真实验,证明该模型具有较好的准确性和预测能力,并且随着样本数量的增加,Hadoop并行框架的效率得到了明显的提升,且不影响客户流失预测模型的准确性和预测能力。  相似文献   

19.
In order to accurately forecast and prevent customer churn in e-commerce, a customer churn forecasting framework is established through four steps. First, customer behavior data is collected and converted into data warehouse by extract transform load (ETL). Second, the subject of data warehouse is established and some samples are extracted as train objects. Third, alternative predication algorithms are chosen to train selected samples. Finally, selected predication algorithm with extension is used to forecast other customers. For the imbalance and nonlinear of customer churn, an extended support vector machine (ESVM) is proposed by introducing parameters to tell the impact of churner, non-churner and nonlinear. Artificial neural network (ANN), decision tree, SVM and ESVM are considered as alternative predication algorithms to forecast customer churn with the innovative framework. Result shows that ESVM performs best among them in the aspect of accuracy, hit rate, coverage rate, lift coefficient and treatment time. This novel ESVM can process large scale and imbalanced data effectively based on the framework.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号