共查询到19条相似文献,搜索用时 109 毫秒
1.
一种高斯区间核SVM分类模型 总被引:1,自引:1,他引:0
王文剑祁晓博郭虎升 《数据采集与处理》2017,32(1):46-53
区间型数据(Interval data, ID)是属性特征取值为区间的一类数据,针对区间型数据的分类问题,本文提出一种高斯区间核支持向量机分类模型(Support vector machine based on Gauss interval kernel, GIK_SVM)。该方法引入半宽因子,在区间型数据的中值与半宽度之间进行折中,并据此构造高斯区间核用以衡量两个区间型数据间的相似性,然后用SVM模型进行分类。在人造数据集和真实数据集上的实验结果表明,本文提出的算法对区间数据有更好的分类性能。 相似文献
2.
在现实应用中,区间值数据会因为测量、干扰或信息传输等噪声影响导致数据出现缺失值,而且这些数据随着时间推移呈现动态递增趋势,忽略或删除这些数据很有可能导致有用信息的丢失而出现决策误判。为此,针对这一问题,提出面向不完备区间值决策系统的三支决策模型和增量式规则获取算法。首先定义不完备区间值数据的量化相似容差关系,构造出基于不完备区间值决策系统的三支决策模型;其次从两个层级分析对象集动态规则获取策略,提出增量式规则获取算法;最后,通过一组UCI数据集对该算法进行验证。实验结果表明,该算法不仅能减少误划分损失获得更高的划分精度,而且在运行时间上也具有较大优越性。 相似文献
3.
不确定性数据聚类方法的研究日益受到广泛关注,其中UIDK-means算法与U-PAM算法继承了基于划分算法无法识别任意形状簇和对噪声点敏感的缺陷。FDBSCAN算法事先假定不确定性数据的概率分布函数或概率密度函数是已知的,然而这些信息在实际应用中往往难以获取。针对上述算法的不足,提出一种基于区间数的多维不确定性数据聚类UID-DBSCAN算法。该算法利用区间数结合数据的统计信息合理地表示不确定性数据,采用低计算复杂度的区间数距离函数衡量不确定性数据对象间的相似度,首次提出区间数的密度、密度可达与密度相连等概念,并将其用于扩展簇中,同时结合数据集的统计特征自适应地选取算法的密度参数来实现自动聚类。实验结果表明,UID-DBSCAN算法能够有效识别噪声,处理任意形状簇,具有较高的聚类精度和较低的计算复杂度。 相似文献
4.
针对在非平衡数据分类中倾向于少数类而导致分类效果降低的问题,提出了一种基于生成对抗网络的蒙特卡洛过采样算法。首先,利用生成对抗网络(GAN)生成少数类数据的概率密度函数,通过少数类数据的概率密度值确定少数类数据的过采样权重;其次,为了保证生成数据的多样性,采用蒙特卡洛算法对少数类数据进行过采样;同时,为了避免与多数类产生交叉与重叠,通过高斯分布的3σ法则对进入到多数类区间3σ内的少数类数据进行翻转,使数据集达到平衡。最后,从UCI与KEEL数据库中选取7组数据集进行算例实验,将决策树分类器作为基分类器对数据进行分类。实验结果表明所提算法是有效的。 相似文献
5.
6.
《计算机科学与探索》2016,(7):1003-1009
半监督聚类是一种用先验信息完善聚类过程的机器学习方法。通过将元胞自动机(cellular automata,CA)距离变换算法引入到半监督聚类过程中,采用平面距离变换算法将数据集划分为若干子类,获得聚类数和约束信息,并作为下一阶段聚类的先验信息。利用半监督K-means聚类算法对第一阶段的聚类结果做进一步划分,可以获得完整的聚类中心和聚类数,并由此提出CA-K-means二阶段聚类算法。采用3组人工数据集和3组标准UCI数据集进行对比仿真实验,将CA-K-means二阶段聚类算法与半监督K-means聚类算法、遗传Kmeans聚类算法和单纯的CA层次聚类算法进行对比,结果显示,该算法对复杂分布数据的聚类准确率较高,聚类性能更加优良。 相似文献
7.
为抑制噪声数据对分类结果的影响,将噪声处理算法与高斯随机域算法相结合,提出一种带噪声系数的高斯随机域学习算法;针对样本集不平衡性数据分类问题,考虑主动学习在样本不平衡问题中的应用,将主动学习与图半监督算法相结合,提出一种鲁棒性强的主动学习图半监督分类算法。利用基于样本划分的主动学习方法,对正类的近邻样本集中样本与特定类样本形成的新样本集做总体散度排序,筛选出能使新样本集中总体散度最小的样本,代替正类的近邻样本集中所有样本,形成平衡类。在UCI标准数据集上的实验结果表明,与标准的图半监督算法相比,该算法的分类精度更高、泛化能力更强。 相似文献
8.
基于人工免疫系统的数据简化 总被引:3,自引:0,他引:3
针对数据简化中的实例选择问题,基于抗体克隆选择学说提出了一种免疫克隆数据简化算法.利用马尔可夫理论证明了该算法能以概率1 收敛.通过对7 个具有代表性的标准UCI 数据集的简化实验证明了该算法的有效性.通过实验分析了权值参数λ的取值变化对算法性能的影响,确定了其最佳取值区间.针对海量数据集简化时算法收敛较慢的问题,引入分层编码策略.通过对7 个大规模及海量数据集的简化实验表明了在进化代数不变的情况下,新的编码方式能够极大地提高算法的收敛速度,得到更为理想的结果.通过对Letter 和DNA两个数据集的实验给出了分层编码中层数t的最佳取值区间. 相似文献
9.
模糊K Prototypes(FKP)算法融合了K Means和K Modes对数值型和符号型数据的处理方法,适合于混合类型数据的聚类分析。同时,模糊技术使得FKP适合于处理含有噪声和缺少数据的数据库。但是,在使用FCM(FuzzyC Meansalgorithm)或FKP算法时,如何选取加权指数α仍是悬而未决的问题。许多研究者基于他们的实验结果给出FCM中的最佳加权指数可能位于区间 [1. 5,2. 5],本文则提出了一个FKP中加权指数的探寻算法。在多个实际数据集上的实验结果表明,为进行有效的聚类,FKP中加权指数应该小于 1. 5。 相似文献
10.
11.
Box Car过程数据压缩算法在现场总线控制系统中得到广泛采用。其压缩效果受记录限和压缩区间的影响。本文基于对典型仿真数据的大量计算,分析了Box Car过程数据压缩算法记录限和压缩区间对趋势平稳的过程数据的压缩比、计算时间和压缩系数的影响。本文还分析了过程数据趋势特征和波动特性对Box Car算法压缩比和逼近系数的影响。本文的计算结果对于在实际应用中根据过程数据不同的趋势和噪声特征调整Box Car压缩算法参数以获得理想的压缩效果具有指导意义。 相似文献
12.
基于区间数聚类的无线传感器网络定位方法 总被引:2,自引:0,他引:2
在基于接收信号强度指示(Received signal strength indicator, RSSI) 测距的无线传感器网络(Wireless sensor network, WSN)定位方法应用过程中, 信号强度与对应通信距离的对数成线性关系的假设在实际无线通信环境下几乎不能满足, 从而导致定位误差较大. 针对此问题, 本文首先利用区间数表示方法结合实际定位环境中RSSI数据的统计信息表示RSSI的分布区域, 并采用区间数聚类方法实现距离估计, 以减小由于RSSI值不确定性引起的距离估计误差, 然后利用这些距离估计值实现基于测距的WSN定位方法. 采用三种实际通信环境下RSSI测量数据完成的定位实验结果表明, 本文提出的基于区间数聚类RSSI-通信距离(RSSI-D)估计的定位方法可有效地提高定位精度. 相似文献
13.
人工免疫算法在过程数据分析中的应用 总被引:4,自引:2,他引:4
将人工免疫算法应用于过程数据的分类处理,能有效地提取数据的有用信息,而且算法简单,处理迅速。文章通过对锌钡白颜料粉种聚类分析的仿真研究,说明人工免疫算法广阔的实用价值。 相似文献
14.
15.
平面散乱点三角剖分分治算法的实现 总被引:2,自引:0,他引:2
平面散乱点三角剖分在实践中有广泛应用。文中在分析已有算法的基础上,提出利用分治算法实现平面散乱点三角剖分。给出了算法实现流程并讨论了算法实现过程中几个重要问题。最终给出了实验结果。文中的研究对开展此类工作有借鉴和指导作用。 相似文献
16.
17.
18.
In real life, data often appear in the form of sequences and this form of data is called sequence data. In this paper, a new definition on sequence similarity and a novel algorithm, Projection Algorithm, for sequence data searching are proposed. This algorithm is not required to access every datum in a sequence database. However, it guarantees that no qualified subsequence is falsely rejected. Moreover, the projection algorithm can be extended to match subsequences with different scales. With careful selection of parameters, most of the similar subsequences with different scales can be retrieved. We also show by experiments that the proposed algorithm can outperform the traditional sequential searching algorithm up to 96 times in terms of speed up. 相似文献
19.
离群点是与其他正常点属性不同的一类对象,其检测技术在各行业上均有维护数据纯度、保障业内安全等重要应用,现有算法大多是基于距离、密度等传统方法判断检测离群点.本算法给每个对象分配一个"孤立度",即该点相对其邻点的孤立程度,通过排序进行判定,比传统算法效率更高.在AP(affinity propagation)聚类算法的基础上进行改进与优化,提出能检测异常数据点的算法APO(outlier detection algorithm based on affinity propagation).通过加入孤立度模块并计算处理样本点的孤立信息,并引入放大因子,使其与正常点之间的差异更明显,通过增大算法对离群点的敏感性,提高算法的准确性.分别在模拟数据集和真实数据集上进行对比实验,结果表明:该算法与AP算法相比,对离群点的敏感性更加强烈,且本算法检测离群点的同时也能聚类,是其他检测算法所不具备的. 相似文献