共查询到20条相似文献,搜索用时 125 毫秒
1.
预测软件缺陷的数目有助于软件测试人员更多地关注缺陷数量多的模块,从而合理地分配有限的测试资源。针对软件缺陷数据集不平衡的问题,提出了一种基于数据过采样和集成学习的软件缺陷数目预测方法——SMOTENDEL。首先,对原始软件缺陷数据集进行n次过采样,得到n个平衡的数据集;然后基于这n个平衡的数据集利用回归算法训练出n个个体软件缺陷数目预测模型;最后对这n个个体模型进行结合得到一个组合软件缺陷数目预测模型,利用该组合预测模型对新的软件模块的缺陷数目进行预测。实验结果表明SMOTENDEL相比原始的预测方法在性能上有较大提升,当分别利用决策树回归(DTR)、贝叶斯岭回归(BRR)和线性回归(LR)作为个体预测模型时,提升率分别为7.68%、3.31%和3.38%。 相似文献
2.
为了解决传统聚类方法在多维数据集中聚类效果不佳的问题,提出了将网络社团划分的方法,并应用到多维数据聚类分析中。对于一个多维数据集,首先对分析对象进行特征提取,构建出每个对象的特征向量,通过计算皮尔森相关系数来度量不同特征向量之间的相似性,从而构建出一个相似性网络,采用Blondel算法对该网络进行社团划分达到聚类的效果。实验结果表明该方法可以在多维数据聚类中得到较好的聚类结果,准确率达到92.5%,优于K-means算法的75%。 相似文献
3.
基于聚类融合的不平衡数据分类方法 总被引:2,自引:0,他引:2
不平衡数据分类问题目前已成为数据挖掘和机器学习的研究热点。文中提出一类基于聚类融合的不平衡数据分类方法,旨在解决传统分类方法对少数类的识别率较低的问题。该方法通过引入“聚类一致性系数”找出处于少数类边界区域和处于多数类中心区域的样本,并分别使用改进的SMOTE过抽样方法和改进的随机欠抽样方法对训练集的少数类和多数类进行不同的处理,以改善不同类数据的平衡度,为分类算法提供更好的训练平台。通过实验对比8种方法在一些公共数据集上的分类性能,结果表明该方法对少数类和多数类均具有较高的识别率。 相似文献
4.
5.
多视图子空间聚类方法因其可以揭示数据内在的低维结构而被广泛关注,但大多数现有的多视图子空间聚类算法直接将多个来自原始数据的充满噪声的相似度矩阵进行融合,并且通常是在得到一致的多视图表示之后再使用K均值算法聚类得到最终的结果,这种将表示的学习过程和后续的聚类过程分离的两阶段算法会导致无法得到最优的聚类结果.为了解决这些问题,提出一种单步划分融合多视图子空间聚类算法.该算法不是直接融合具有噪声和冗余信息的相似度矩阵,而是从相似度矩阵中提取出更具有判别性信息的划分级信息进行融合.提出一个新的框架,将表示学习、多视图信息融合以及最后的聚类过程整合在同一框架中.这三个过程彼此促进,好的聚类结果可以引导生成更好的多视图表示,从而得到更好的聚类效果.提出一种有效的轮替优化算法来解决由此得到的优化问题.最后,在四个真实的基准数据集上得到的实验结果可以证明提出方法的有效性以及先进性. 相似文献
6.
人工神经网络为数据融合提供了新的理论方法和技术手段,在数据融合的各个方面具有广泛的应用前景。自适应共振理论(ART)是一种无监督神经网络,能够实现对输入的任何模拟信号的自动识别和分类。据此提出了一种以ART2网络聚类分析为核心的数据融合算法,探讨了ART2网络用于特征层数据融合实现模式识别/分类的机理,最后给出该算法在一例模式识别/分类中的应用-实现对工业控制系统中设备运行状态的实时监测和故障诊断,验证了该算法的有效性和可行性。 相似文献
7.
8.
为改进SVM对不均衡数据的分类性能,提出一种基于拆分集成的不均衡数据分类算法,该算法对多数类样本依据类别之间的比例通过聚类划分为多个子集,各子集分别与少数类合并成多个训练子集,通过对各训练子集进行学习获得多个分类器,利用WE集成分类器方法对多个分类器进行集成,获得最终分类器,以此改进在不均衡数据下的分类性能.在UCI数据集上的实验结果表明,该算法的有效性,特别是对少数类样本的分类性能. 相似文献
9.
针对大规模文本聚类中对聚类算法执行效率的要求,提出了一个内容相关的纵向数据划分策略FTDV,并基于该策略提出了数据划分优化的并行DVP k-means算法,提高了常规并行k-means算法的并行化程度,达到了优化算法执行效率的目的。在实验中,与常规并行k-means算法和基于关键方向分解的PDDP k-means算法进行比较,DVP k-means具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚簇。 相似文献
10.
基于数据空间融合的全局计算与数据划分方法 总被引:2,自引:1,他引:2
计算与数据划分问题是影响并行程序在分布主存多处理机中执行性能的重要因素,也是并行编译优化的重点.针对该问题,提出了一套关于数据空间融合的理论框架,并基于该框架给出了一种有效的全局计算与数据划分方法,用于分布主存计算环境中的计算与数据划分问题的求解.该方法能够尽量开发计算空间的并行度,利用数据融合技术优化数据分布,并能搜寻优化的全局计算与数据划分.该方法还能很自然地与数据复制以及偏移常量的对准结合在一起,从而使得数据通信量尽可能地小.实验结果表明了所提出方法的有效性. 相似文献
11.
12.
为了将图像中内容特征相近的像素尽可能分割到同一区块,提高图像分割的针对性和自适应性,提出了一种基于有序数据聚类的图像自适应分条算法.该算法首先计算图像中所有像素点的梯度值,相加每列像素梯度值得到列累积能量;然后对能量数据进行加权平滑生成连续曲线,用该平滑曲线的凹凸性自适应确定图像分条总数;最后构造图像列累积能量数据的条件距离矩阵,由已确定的分条数采用系统聚类的方法实现图像分条.分条实验结果对比表明,提出的算法能根据不同图像内容自适应地进行图像条分割,且将分条结果应用于图像内容感知缩放研究中可获得满意的缩放效果,因此该算法能较好地对图像内容进行分类和识别. 相似文献
13.
非平衡数据集的分类问题是机器学习领域的一个研究热点。针对非平衡数据集分类困难的问题,特别是由于非平衡分布引起的少数类识别能力低下的问题,提出了一种改进算法,AdaBoost-SVM-OBMS。该算法结合Boosting算法和基于错分样本产生新样本的过抽样技术。在新算法中,以支持向量机为元分类器,每次Boosting迭代中标记出错分的样本点,然后在错分样本点与其近邻间随机产生一定数量与错分样本同一类别的新样本点。新产生样本点加入原训练集中重新训练学习,以提高分类困难样本的识别能力。在AUC,F-value和G-mean 3个不同价格的评价指标下8个benchmark数据集上对AdaBoost-SVM-OBMS算法与AdaBoost-SVM算法和APLSC算法进行了对比实验,实验结果表明了AdaBoost-SVM-OBMS算法在非平衡数据集分类中的有效性。 相似文献
14.
基于分布式的大数据集聚类分析 总被引:1,自引:0,他引:1
为了提高聚类效率提出了一种基于分布式的大数据集聚类算法。该方法并不是一次性对所有的数据进行聚类,而是将大数据集随机分成若干个子集,对每个子集同时进行聚类,最后进行类的合并。实验结果表明大多数情况下该方法和传统的一次性聚类的结果一致,而且极大地提高了聚类的速度。 相似文献
15.
提出了利用Cascade组合方法生成基于贝叶斯、神经网络与决策树的组合分类器,并将之应用到肝脏图像的分类中。实验结果表明,与现有医学图像分类方法相比,该组合方法可以有效地提高医学图像分类的准确性和稳定性。 相似文献
16.
为提高数据分类的性能,提出了一种基于信息熵[1]的多分类器动态组合方法(EMDA)。此方法在多个UCI标准数据集上进行了测试,并与由集成学习算法—AdaBoost,训练出的各个基分类器的分类效果进行比较,证明了该算法的有效性。 相似文献
17.
18.
基于一趟聚类的不平衡数据下抽样算法 总被引:1,自引:0,他引:1
抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大的簇少抽,密度小的簇多抽或全抽.在压缩数据集的同时,保证了少数类的数量.实验结果表明,本文提出的抽样方法使不平衡数据样本具有较高的代表性,聚类与分类性能得到了提高. 相似文献