首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
一种高斯区间核SVM分类模型   总被引:1,自引:1,他引:0  
区间型数据(Interval data, ID)是属性特征取值为区间的一类数据,针对区间型数据的分类问题,本文提出一种高斯区间核支持向量机分类模型(Support vector machine based on Gauss interval kernel, GIK_SVM)。该方法引入半宽因子,在区间型数据的中值与半宽度之间进行折中,并据此构造高斯区间核用以衡量两个区间型数据间的相似性,然后用SVM模型进行分类。在人造数据集和真实数据集上的实验结果表明,本文提出的算法对区间数据有更好的分类性能。  相似文献   

2.
在现实应用中,区间值数据会因为测量、干扰或信息传输等噪声影响导致数据出现缺失值,而且这些数据随着时间推移呈现动态递增趋势,忽略或删除这些数据很有可能导致有用信息的丢失而出现决策误判。为此,针对这一问题,提出面向不完备区间值决策系统的三支决策模型和增量式规则获取算法。首先定义不完备区间值数据的量化相似容差关系,构造出基于不完备区间值决策系统的三支决策模型;其次从两个层级分析对象集动态规则获取策略,提出增量式规则获取算法;最后,通过一组UCI数据集对该算法进行验证。实验结果表明,该算法不仅能减少误划分损失获得更高的划分精度,而且在运行时间上也具有较大优越性。  相似文献   

3.
魏方圆  黄德才 《计算机科学》2017,44(Z11):442-447
不确定性数据聚类方法的研究日益受到广泛关注,其中UIDK-means算法与U-PAM算法继承了基于划分算法无法识别任意形状簇和对噪声点敏感的缺陷。FDBSCAN算法事先假定不确定性数据的概率分布函数或概率密度函数是已知的,然而这些信息在实际应用中往往难以获取。针对上述算法的不足,提出一种基于区间数的多维不确定性数据聚类UID-DBSCAN算法。该算法利用区间数结合数据的统计信息合理地表示不确定性数据,采用低计算复杂度的区间数距离函数衡量不确定性数据对象间的相似度,首次提出区间数的密度、密度可达与密度相连等概念,并将其用于扩展簇中,同时结合数据集的统计特征自适应地选取算法的密度参数来实现自动聚类。实验结果表明,UID-DBSCAN算法能够有效识别噪声,处理任意形状簇,具有较高的聚类精度和较低的计算复杂度。  相似文献   

4.
针对在非平衡数据分类中倾向于少数类而导致分类效果降低的问题,提出了一种基于生成对抗网络的蒙特卡洛过采样算法。首先,利用生成对抗网络(GAN)生成少数类数据的概率密度函数,通过少数类数据的概率密度值确定少数类数据的过采样权重;其次,为了保证生成数据的多样性,采用蒙特卡洛算法对少数类数据进行过采样;同时,为了避免与多数类产生交叉与重叠,通过高斯分布的3σ法则对进入到多数类区间3σ内的少数类数据进行翻转,使数据集达到平衡。最后,从UCI与KEEL数据库中选取7组数据集进行算例实验,将决策树分类器作为基分类器对数据进行分类。实验结果表明所提算法是有效的。  相似文献   

5.
唐鹏飞  张贤勇  莫智文 《计算机应用研究》2021,38(11):3300-3303,3309
区间集决策信息表拓展了经典决策信息表,但其属性约简研究较少.针对区间集决策信息表存在的问题,采用模型正域及相关依赖度提出属性约简及其启发式约简算法.在区间集粗糙集模型中,定义关于决策分类的正域与依赖度,证明粒化单调性等性质.提出基于依赖度的属性约简,设计启发式约简算法.实例分析与数据实验表明,设计的基于依赖度的启发式约简算法是有效的,所得结果有利于依赖学习与特征优化.  相似文献   

6.
《计算机科学与探索》2016,(7):1003-1009
半监督聚类是一种用先验信息完善聚类过程的机器学习方法。通过将元胞自动机(cellular automata,CA)距离变换算法引入到半监督聚类过程中,采用平面距离变换算法将数据集划分为若干子类,获得聚类数和约束信息,并作为下一阶段聚类的先验信息。利用半监督K-means聚类算法对第一阶段的聚类结果做进一步划分,可以获得完整的聚类中心和聚类数,并由此提出CA-K-means二阶段聚类算法。采用3组人工数据集和3组标准UCI数据集进行对比仿真实验,将CA-K-means二阶段聚类算法与半监督K-means聚类算法、遗传Kmeans聚类算法和单纯的CA层次聚类算法进行对比,结果显示,该算法对复杂分布数据的聚类准确率较高,聚类性能更加优良。  相似文献   

7.
为抑制噪声数据对分类结果的影响,将噪声处理算法与高斯随机域算法相结合,提出一种带噪声系数的高斯随机域学习算法;针对样本集不平衡性数据分类问题,考虑主动学习在样本不平衡问题中的应用,将主动学习与图半监督算法相结合,提出一种鲁棒性强的主动学习图半监督分类算法。利用基于样本划分的主动学习方法,对正类的近邻样本集中样本与特定类样本形成的新样本集做总体散度排序,筛选出能使新样本集中总体散度最小的样本,代替正类的近邻样本集中所有样本,形成平衡类。在UCI标准数据集上的实验结果表明,与标准的图半监督算法相比,该算法的分类精度更高、泛化能力更强。  相似文献   

8.
基于人工免疫系统的数据简化   总被引:3,自引:0,他引:3  
针对数据简化中的实例选择问题,基于抗体克隆选择学说提出了一种免疫克隆数据简化算法.利用马尔可夫理论证明了该算法能以概率1 收敛.通过对7 个具有代表性的标准UCI 数据集的简化实验证明了该算法的有效性.通过实验分析了权值参数λ的取值变化对算法性能的影响,确定了其最佳取值区间.针对海量数据集简化时算法收敛较慢的问题,引入分层编码策略.通过对7 个大规模及海量数据集的简化实验表明了在进化代数不变的情况下,新的编码方式能够极大地提高算法的收敛速度,得到更为理想的结果.通过对Letter 和DNA两个数据集的实验给出了分层编码中层数t的最佳取值区间.  相似文献   

9.
模糊K Prototypes(FKP)算法融合了K Means和K Modes对数值型和符号型数据的处理方法,适合于混合类型数据的聚类分析。同时,模糊技术使得FKP适合于处理含有噪声和缺少数据的数据库。但是,在使用FCM(FuzzyC Meansalgorithm)或FKP算法时,如何选取加权指数α仍是悬而未决的问题。许多研究者基于他们的实验结果给出FCM中的最佳加权指数可能位于区间 [1. 5,2. 5],本文则提出了一个FKP中加权指数的探寻算法。在多个实际数据集上的实验结果表明,为进行有效的聚类,FKP中加权指数应该小于 1. 5。  相似文献   

10.
张雁  吴保国  吕丹桔  林英 《计算机工程》2014,(6):215-218,229
半监督学习和主动学习都是利用未标记数据,在少量标记数据代价下同时提高监督学习识别性能的有效方法。为此,结合主动学习方法与半监督学习的Tri-training算法,提出一种新的分类算法,通过熵优先采样算法选择主动学习的样本。针对UCI数据集和遥感数据,在不同标记训练样本比例下进行实验,结果表明,该算法在标记样本数较少的情况下能取得较好的效果。将主动学习与Tri-training算法相结合,是提高分类性能和泛化性的有效途径。  相似文献   

11.
Box Car过程数据压缩算法在现场总线控制系统中得到广泛采用。其压缩效果受记录限和压缩区间的影响。本文基于对典型仿真数据的大量计算,分析了Box Car过程数据压缩算法记录限和压缩区间对趋势平稳的过程数据的压缩比、计算时间和压缩系数的影响。本文还分析了过程数据趋势特征和波动特性对Box Car算法压缩比和逼近系数的影响。本文的计算结果对于在实际应用中根据过程数据不同的趋势和噪声特征调整Box Car压缩算法参数以获得理想的压缩效果具有指导意义。  相似文献   

12.
基于区间数聚类的无线传感器网络定位方法   总被引:2,自引:0,他引:2  
彭宇  罗清华  王丹  彭喜元 《自动化学报》2012,38(7):1190-1199
在基于接收信号强度指示(Received signal strength indicator, RSSI) 测距的无线传感器网络(Wireless sensor network, WSN)定位方法应用过程中, 信号强度与对应通信距离的对数成线性关系的假设在实际无线通信环境下几乎不能满足, 从而导致定位误差较大. 针对此问题, 本文首先利用区间数表示方法结合实际定位环境中RSSI数据的统计信息表示RSSI的分布区域, 并采用区间数聚类方法实现距离估计, 以减小由于RSSI值不确定性引起的距离估计误差, 然后利用这些距离估计值实现基于测距的WSN定位方法. 采用三种实际通信环境下RSSI测量数据完成的定位实验结果表明, 本文提出的基于区间数聚类RSSI-通信距离(RSSI-D)估计的定位方法可有效地提高定位精度.  相似文献   

13.
人工免疫算法在过程数据分析中的应用   总被引:4,自引:2,他引:4  
将人工免疫算法应用于过程数据的分类处理,能有效地提取数据的有用信息,而且算法简单,处理迅速。文章通过对锌钡白颜料粉种聚类分析的仿真研究,说明人工免疫算法广阔的实用价值。  相似文献   

14.
为消除重复数据对数据传输和存储产生的影响,提出一种基于重复数据消除的差异备份方法。通过将文件的块按照一定区间划分固定大小并采用Hash表对文件块进行唯一性标识,使Rsync算法能检测不同文件之间的重复数据,通过分割Hash表,使块实现局部匹配,并利用校验和文件实现文件不同版本的差异传输。实验结果表明,与Rsync算法相比,该方法能有效减少传输的数据量,降低备份中心的存储量,提高块查找的效率。  相似文献   

15.
平面散乱点三角剖分分治算法的实现   总被引:2,自引:0,他引:2  
戴晓明  朱萍 《微机发展》2006,16(1):11-12
平面散乱点三角剖分在实践中有广泛应用。文中在分析已有算法的基础上,提出利用分治算法实现平面散乱点三角剖分。给出了算法实现流程并讨论了算法实现过程中几个重要问题。最终给出了实验结果。文中的研究对开展此类工作有借鉴和指导作用。  相似文献   

16.
针对基于内容的数据分块算法中基本滑动窗口算法不能确定最大数据块的问题,提出一种基于字节指纹极值特征的数据分块算法。算法以上一个块边界点为起点构建最大块长区间,通过定义字节指纹极值域半径函数F并利用函数F值的分布特性,以概率1在允许的最大块长的区间内确定下一个块边界点。该算法克服了基本滑动窗口等分块算法不能确定最大分块长度的不足,其时间复杂度为O(n)。  相似文献   

17.
高月  邵培南  邢洁雯 《计算机工程》2007,33(23):57-59,6
软件测试过程中经常需要对大量的数值计算模块进行穷举测试,传统的软件测试方法就显露出了不足与局限。该文采用区间算法生成测试数据,比较了采用区间算法的软件测试方法和传统的软件测试方法,结果表明,区间代数方法很好地解决了传统测试方法不能解决的问题,发现程序代码中可能的计算异常,判断能否给出程序代码输出变量的上限范围和是否存在不可能达到的分支。  相似文献   

18.
In real life, data often appear in the form of sequences and this form of data is called sequence data. In this paper, a new definition on sequence similarity and a novel algorithm, Projection Algorithm, for sequence data searching are proposed. This algorithm is not required to access every datum in a sequence database. However, it guarantees that no qualified subsequence is falsely rejected. Moreover, the projection algorithm can be extended to match subsequences with different scales. With careful selection of parameters, most of the similar subsequences with different scales can be retrieved. We also show by experiments that the proposed algorithm can outperform the traditional sequential searching algorithm up to 96 times in terms of speed up.  相似文献   

19.
离群点是与其他正常点属性不同的一类对象,其检测技术在各行业上均有维护数据纯度、保障业内安全等重要应用,现有算法大多是基于距离、密度等传统方法判断检测离群点.本算法给每个对象分配一个"孤立度",即该点相对其邻点的孤立程度,通过排序进行判定,比传统算法效率更高.在AP(affinity propagation)聚类算法的基础上进行改进与优化,提出能检测异常数据点的算法APO(outlier detection algorithm based on affinity propagation).通过加入孤立度模块并计算处理样本点的孤立信息,并引入放大因子,使其与正常点之间的差异更明显,通过增大算法对离群点的敏感性,提高算法的准确性.分别在模拟数据集和真实数据集上进行对比实验,结果表明:该算法与AP算法相比,对离群点的敏感性更加强烈,且本算法检测离群点的同时也能聚类,是其他检测算法所不具备的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号