排序方式: 共有73条查询结果,搜索用时 15 毫秒
61.
针对特征选择算法的鲁棒性和稳定性问题以及现实应用领域中大量的廉价未标签数据的利用问题,提出一种基于双重融合策略的半监督特征选择算法.该方法综合利用弱分类器融合技术和未标签数据包含的数据集的簇的结构信息来扩充标签数据集,然后在得到的标签数据集上采用不同的特征选择算法,对不同的特征结果进行简单的融合操作,得到最终的特征子集.在一些公共教据集和有毒性预测数据集上的实验结果表明该方法在改善学习精度上有很好的应用前景. 相似文献
62.
互k最近邻算法(mKnnc)是k最近邻分类算法(Knn)的一种改进算法,该算法用互k最近邻原则对训练样本以及k最近邻进行噪声消除,从而提高算法的分类效果。然而在利用互k最近邻原则进行噪声消除时,并没有将类别属性考虑进去,因此有可能把真实有效的数据当成噪声消除掉,从而影响分类效果。基于类别子空间距离加权的互k最近邻算法考虑到近邻的距离权重,既能消除冗余或无用属性对最近邻分类算法依赖的相似性度量的影响,又能较好地消除邻居中的噪声点。最后在UCI公共数据集上的实验结果验证了该算法的有效性。 相似文献
63.
64.
65.
基于聚类融合的不平衡数据分类方法 总被引:2,自引:0,他引:2
不平衡数据分类问题目前已成为数据挖掘和机器学习的研究热点。文中提出一类基于聚类融合的不平衡数据分类方法,旨在解决传统分类方法对少数类的识别率较低的问题。该方法通过引入“聚类一致性系数”找出处于少数类边界区域和处于多数类中心区域的样本,并分别使用改进的SMOTE过抽样方法和改进的随机欠抽样方法对训练集的少数类和多数类进行不同的处理,以改善不同类数据的平衡度,为分类算法提供更好的训练平台。通过实验对比8种方法在一些公共数据集上的分类性能,结果表明该方法对少数类和多数类均具有较高的识别率。 相似文献
66.
基于KNN模型的层次纠错输出编码算法 总被引:2,自引:0,他引:2
纠错输出编码是一种解决多类分类问题的有效方法,但其编码矩阵只对类进行编码且都采用事先构造出来的统一形式,适应性较差。为此,提出一种新颖的层次纠错输出编码算法。该算法在训练阶段先通过KNN模型算法在数据集上构建多个同类簇,选取各类中最具代表性的簇形成层次编码矩阵,然后再根据编码矩阵进行单分类器训练。在测试阶段,该算法通过模型融合进一步发挥KNN模型和纠错输出编码各自的优点。在UCI公共数据集上的实验结果表明,新方法的性能优于KNN模型算法和纠错输出编码算法。 相似文献
67.
文章提出了一种基于算法选择和结果评估的自动聚类方法。对给定数据集,该方法首先通过分析数据集的潜在簇结构,并依据所发现的簇结构为数据集挑选一种合适的备选聚类算法集;然后利用聚类有效性指标对这个算法集的算法聚类结果进行评估,以确保得到高质量聚类结果。实验结果表明该方法能够自动地挑选适合数据集的聚类算法,并获得高质量的聚类结果。 相似文献
68.
基于空间分割的数据简化和分类 总被引:1,自引:1,他引:1
郭躬德 《小型微型计算机系统》2002,23(4):456-459
数据简化的目的是简化数据集并保留有用的分类结构 .本文提出一个基于空间分隔的数据简化和分类算法 ,该算法将常规数据库的记录映射到多维空间上 ,从而将数据简化过程转变成在多维空间中同类数据的空间合并问题 ,也就是多维空间中不同类数据的空间分隔问题 ,最终得到一系列分隔空间 ,达到数据简化和分类的作用 .该方法用现实世界的 7个数据集进行评估 ,并与 C4.5所获得的结果进行比较 ,效果是显著的 ,并且结果唯一 相似文献
69.
70.
类属型数据广泛分布于生物信息学等许多应用领域,其离散取值的特点使得类属数据聚类成为统计机器学习领域一项困难的任务.当前的主流方法依赖于类属属性的模进行聚类优化和相关属性的权重计算.提出一种非模的类属型数据统计聚类方法.首先,基于新定义的相异度度量,推导了属性加权的类属数据聚类目标函数.该函数以对象与簇之间的平均距离为基础,从而避免了现有方法以模为中心导致的问题.其次,定义了一种类属型数据的软子空间聚类算法.该算法在聚类过程中根据属性取值的总体分布,而不仅限于属性的模,赋予每个属性衡量其与簇类相关程度的权重,实现自动的特征选择.在合成数据和实际应用数据集上的实验结果表明,与现有的基于模的聚类算法和基于蒙特卡罗优化的其他非模算法相比,该算法有效地提高了聚类结果的质量. 相似文献