首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
软件缺陷预测是软件工程领域的重点研究方向,是保证软件质量的重要途径之一。其中软件缺陷数据的类不平衡问题会影响缺陷预测分类的准确性,为解决类不平衡数据对预测分类的影响,针对如何优化数据预处理的算法执行顺序进行了研究,提出了一种有效提升分类效果的软件缺陷预测模型(ASRAdaboost)。该算法模型在根据对照实验确定数据预处理最优顺序后,采用特征选择卡方检验算法,再执行SMOTE过采样与简单采样方法,解决数据类不平衡和属性冗余同时存在的问题,最后结合Adaboost集成算法,构建出软件缺陷预测模型ASRAdaboost。实验均采用J48决策树作为基分类器,实验结果表明:ASRAdaboost算法模型有效提高了软件缺陷预测的准确性,得到了更好的分类效果。  相似文献   

2.
网络日志预处理中优化的会话识别算法   总被引:1,自引:0,他引:1  
研究网络日志预处理中会话识别问题,会话识别是网络日志数据预处理中最蘑要的一个环节.为使用户准确快速地找到需要的资源,传统网络日志预处理方法采用固定阈值会话识别算法,不能适合网络日志的动态性和不能很好消除网络日志中的冗余信息,导致后继网络日志数据挖掘效率和挖掘精度低.为更好消除网络日志冗余信息,提高后继数据挖掘的效率和精度,提出一种改进的网络日志预处理会话识别算法.新算法可根据页面内容、站点结构确定页面重要程度,对阈值进行动态调整,克服传统固定阈值缺陷,根据用户对页面内容的兴趣度删除不感兴趣页面,消除冗余信息,并对该算法进行了仿真.结果表明,相对于传统网络预测的会话识别算法,新算法能更准确地确定页面访问时间阈值,消除了网络日志冗余信息,提高了网络日志预处理效率和数据挖掘精度.  相似文献   

3.
欠抽样方法在非平衡数据集分类时,未充分考虑数据分布变化对分类结果造成的影响。为此,提出一种基于聚类融合去冗余的改进欠抽样方法。采用聚类算法得到多数类样本高密度分布区域的聚类中心,将多数类样本划分为不同子集,通过计算各子集的相似度冗余系数对多数类样本进行去冗余删除,以达到欠抽样的目的。对15个不同平衡率的数据集欠抽样后,利用代价敏感混合属性多决策树模型进行分类。实验结果表明,在不降低非平衡数据集分类准确率的前提下,该方法能够提高少数类样本的正类率及预测模型的G-mean值。  相似文献   

4.
数据预处理是提高挖掘过程精度和性能的关键。文章在分析决策树算法和滑坡数据属性值特点基础上,利用聚类将连续属性值划分区间,提出了一种针对滑坡数据连续属性值离散化的方法,通过实验,新方法构造的决策树比原算法的分类正确率高,规则冗余少。  相似文献   

5.
李杰  侯锐 《计算机仿真》2020,37(3):148-151,177
针对传统的大数据访问中信息传输冗余量消除方法存在查全率、信息传输冗余量消除效率以及速率较低等问题,提出了基于Hamming距离值的大数据访问中信息传输冗余量消除方法。利用滑动以及滚动相结合的窗口移动模式减少窗口计算量,将Rsync滚动校验算法以及MD5算法相结合,在文件任意位置开始计算滚动校验值,通过递进关系,获取连续数据块的校验值,根据不同数据块的校验值进行数据匹配。将经过匹配后的数据块利用CDC分块检测算法进行检测,根据余弦相似度计算公式以及Hamm距离值计算相似度,实现大数据访问中信息传输冗余量消除。实验结果表明,所提方法有效提高了冗余信息查全率、信息传输冗余量消除效率以及速率,能够快速、准确地消除多余的信息。  相似文献   

6.
介绍了人工智能处理二分类问题的一般流程,详细阐述数据预处理、模型构建的技术处理方法,并对比xgboost、LM神经网络、随机森林、cart决策树、逻辑回归算法的应用效果,对智能风控具有一定的借鉴意义.  相似文献   

7.
直接将传统的分类方法应用于不平衡数据集时,往往导致少数类的分类精度低下。提出一种基于K-S统计的不平衡数据分类方法,以有效提高少数类的识别率。利用K-S统计评估分类与特征之间的关系,去除冗余特征,并且构建K-S决策树获得数据分片,调整数据的不平衡度;最后对分片数据双向抽样调整,进行分类学习。该方法使用的K-S统计假设条件极易满足,其效率高且适用性强。通过KDD99入侵检测数据的分析对比表明,对于不平衡的数据集,该方法对多数类及少数类都具有较高的分类精度。  相似文献   

8.
在分析数据预处理的意义基础上,提出了一种基于最大距离算法的模式聚类的数据预处理方法,该方法不依赖任何数学模型,通过对某造纸厂制浆蒸煮过程中采集的大量现场数据的仿真处理,研究表明本文提出的方法能在保留原始数据的有用信息的基础上剔除冗余数据,侦破过失误差,减少随机误差。  相似文献   

9.
不完备信息系统中决策规则的提取是数据挖掘领域的重要研究问题。对不完备信息系统中决策规则的主要获取方法进行分析,以决策属性具有缺失值的不完备决策表为研究对象,提出一种基于数据优先填补的决策树规则提取算法。针对ROUSTIDA算法在数据填补时运算量较大且容易导致决策规则冲突这一问题,算法采用决策属性优先填补的思想,引入对象完备度概念对其进行改进,使用改进的ROUSTIDA算法对不完备决策表进行一次性数据填补预处理,并在限制容差关系下采用属性重要性为启发函数构建决策树,从而获得决策规则。实例表明该方法是有效的,生成的决策规则简单,且具有较高的精确度。  相似文献   

10.
在分析数据预处理的意义基础上,提出了一种基于最大距离算法的模式聚类的数据预处理方法。该方法不依赖于任何数学模型,通过对某造纸厂大量数据的仿真处理,研究表明本文提出的方法能在保留原始数据的有用信息的基础上剔除冗余数据,侦破过失误差,减少随机误差。  相似文献   

11.
针对电信企业客户流失问题,提出采用贝叶斯决策树算法的预测模型,将贝叶斯分类的先验信息方法与决策树分类的信息熵增益方法相结合,应用到电信行业客户流失分析中,分别将移动公司的客户数据以及UCI数据纳入到模型中得出相应的结果。加入贝叶斯节点弥补决策树不能处理缺失值以及二义性数据的缺点。检验结果表明,基于贝叶斯推理的决策树算法在牺牲了较小的训练时间与分类时间的情况下,得到了比仅基于决策树算法更高的覆盖率与命中率。  相似文献   

12.
终端客户推荐系统是大型制造商终端营销的一种有效工具.如何在互联网+环境下通过采集全域市场数据,设计一个寻找最佳目标客户的推荐方法成为了一项挑战.为解决这一问题,本文提出一种基于全域市场数据感知的终端客户推荐方法(GMF).即采用全域分析的思想对全国范围内的客户数据进行预处理,建立全方位,多角度的评估指标,得到目标客户价值.然后通过域子空间分解的方法,在域子空间中对数据进行分解分析,得到某一区域内的客户评价标准,将二者分析结果进行有效融合,通过计算耦合对象相似度,并筛选出最相似的TopN个数据作为最佳目标客户结果集.在大型制造商营销活动所生成的数据集上的实验结果表明:本文提出的推荐算法其性能明显优于当前主流的协同过滤算法.  相似文献   

13.
针对长期积累的病历数据不仅数量庞大,记录方式、内容千差万别,而且噪声、缺省值大量存在的问题,提出了智能医疗诊断系统,利用以往的病历数据经过数据挖掘等技术来产生决策规则,以期为潜在的患者及早发现病情,获得早期诊治:总结了病历文本的记录内容和特点,对每一类的特点和形成原因进行了分析研究,并结合医疗诊断分别提出了针对它们的预处理方法,为下一步数据挖掘做好了准备。  相似文献   

14.
决策树方法在煤炭物流客户分析中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
目前物流企业中积累了大量的客户历史数据,为了有效利用这些数据,使用数据挖掘方法对客户进行分类管理和服务是CRM中非常重要的一方面。而决策树是进行分类分析与数据挖掘的常用方法。研究了运用C4.5算法对煤炭物流客户信息构造决策树,并把提取到的规则应用到公路煤炭物流公司的客户关系管理中,结果证明具有较好的应用价值。  相似文献   

15.
客户满意度反映了客户期望值与客户体验的匹配程度,是评价客户服务质量的一个重要指标。在电力客户满意度研究中,最重要的是获取真实的客户满意度评价结果。本文利用电力客户服务所积累的真实业务数据,提出了基于分层结构的客户满意度得分判定方法,该方法具有严谨的三层结构设计,与实际数据紧联系,逻辑逐层递进,互为补充,从而实现了从模糊的满意度评价到直观的满意度得分的顺利转化。随后通过实际应用案例研究,将电力客户满意度评价与具体的业务过程相联系,提出研究技术路线,对抽取的业务数据进行满意度得分转化,并利用R语言挖掘客户满意度较低的深层原因。所提方法突出了电力客户服务测评的综合性,能客观地从用户体验的角度反映服务质量,具有现实应用价值。  相似文献   

16.
数据挖掘是一种重要的数据分析方法,决策树是数据挖掘中的一种主要技术,如何构造出最优决策树是许多研究者关心的问题。本文通过Rough集方法对决策表进行属性约简和属性值约简,去除决策表中与决策无关的冗余信息。在简化的决策表基础上构造近似最优决策树,本文给出了近似最优决策树的生成算法,并通过实例说明。  相似文献   

17.
李明辉 《软件》2012,(7):85-86
数据挖掘中的决策树算法在银行业中有很重要的价值。决策树技术应用于银行业中,可以通过对特定的客户背景信息的分析,预测该客户所属的客户类别,从而采取相应的经营策略,这样既可以提高银行服务的服务水平,开发客户资源,避免客户流失,又能够节约资源,利用最小的投入,获得较大的收益。在银行贷款业务中,判断贷款对象是否有风险,贷款方案是否可行,将客户按照银行的实际需求进行分类,这些问题通过决策树算法都可以解决。  相似文献   

18.
基于贝叶斯网络的电信客户流失预测分析   总被引:6,自引:0,他引:6  
电信客户流失分析常用的数据挖掘方法有自动聚类、决策树和人工神经网络,它们是采用数据本身来训练模型的,没有利用先验知识。电信客户流失是由客户心理、服务质量和对手竞争等诸多复杂的因素造成的,利用这些已有的先验知识,可以提高预测的精度。该文根据先验知识选取分析变量,采集样本数据,通过贝叶斯网络的结构学习和参数学习,建立客户流失模型并进行客户流失趋势预测,取得了比标准数据集更准确的结果,该结果和决策树方法的预测结果相比还具有较大的优势,说明贝叶斯网络是分析客户流失等不确定性问题的有效工具。  相似文献   

19.
数据挖掘是一种重要的数据分析方法,决策树是数据挖掘中的一种主要技术,如何构造出最优决策树是许多研究者关心的问题。本文通过Rough集方法对决策表进行属性约简和属性值约简,去除决策表中与决策无关的冗余信息。在简化的决策表基础上构造近似最优决策树,本文给出了近似最优决策树的生成算法,并通过实例说明。  相似文献   

20.
为了提高客服中心的智能管理和信息调度能力,结合大数据分析方法进行客服中心实时数据监测和自动采集设计。提出一种基于模糊规则特征量挖掘和层次分析聚类的客服中心实时数据流自动监测方法。建立客服中心的网格分布结构模型并进行客服中心实时数据流监测统计特征分析,进行客服中心实时监测数据属性集的向量量化特征分解,对客服中心实时数据采用信息融合和模糊层析性分析方法实现信息融合,进行关联数据自适应特征提取,挖掘客服中心实时监测数据信息流的正相关性特征量。在层次性聚类算法基础上采用自回归分析进行客服中心实时数据流的模糊聚类和信息预测,提高客服中心实时数据监测的准确性,同时降低了客服服务中心数据流监测的风险。仿真结果表明,采用该方法进行客服中心实时数据监测的聚类性较高,预测性较好,能降低数据聚类的误分率,提高了客服中心实时数据监测能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号