首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
获取数据流上样本的真实类别的代价很高,因此标记所有样本的方式缺乏实用性,而随机标记部分样本又会导致模型的不稳定.针对上述问题,文中提出基于聚类假设的数据流分类算法.基于通过聚类算法分到同类中的样本可能具有相同类别这一聚类假设,利用训练数据集上的聚类结果拟合样本的分布情况,在分类阶段有目的性地选取很难分类或潜在概念漂移的样本更新模型.为了训练数据集上每个类别的样本,建立各自对应的基础分类器,当数据流中样本的类别消失或重现时,只需要冻结或激活与之对应的基础分类器,而无需再重新学习之前已经掌握的知识.实验表明,文中算法能够在适应概念漂移的前提下,减少更新模型需要的样本数量,并且取得和当前数据流上的分类算法相当或更好的分类效果.  相似文献   

2.
辨证分型是中医诊断治疗中的一个重要环节,首先要诊断患者疾病,提出相应的辨证方法,并进行证候分型以指导治疗,同时证型可以从古代方剂中归纳和总结。文章采用遗传算法原理对古代闭经方剂进行聚类,得到的方剂聚类簇即可作为证型总结和归纳的依据,为当代中医诊断智能化提供思路。  相似文献   

3.
基于基因打靶技术的中医脏腑辨证分型算法   总被引:3,自引:0,他引:3       下载免费PDF全文
受生物学基因打靶技术的启发和通过对中医脏腑证型分类标准的研究,提出了一种新颖的中医智能脏腑辨证算法,称之为中医脏腑辨证分型算法。主要思想是把中医脏腑证型的主要症状和次要症状,以及舌象、脉象信息设计为脏腑证型模靶;临床病例病症信息作为脏腑病症基因组,并进行模靶射击式的辨证分型操作。通过对慢性胃炎疾病的辨证分型计算结果的分析,说明中医脏腑辨证分型算法的有效性,为中医辨证信息处理的客观化、可计算化提供了一种新的研究方法,同时具有一定的临床诊断应用价值。  相似文献   

4.
汪敏  武禹伯  闵帆 《计算机应用》2020,40(12):3437-3444
针对传统岩性识别方法识别精度低,难以和地质经验有机结合的问题,提出了一种基于多种聚类算法和多元线性回归的多分类主动学习算法(ALCL)。首先,通过多种异构聚类算法聚类得到对应每种算法的类别矩阵,并通过查询公共点对类别矩阵进行标记和预分类;其次,提出优先级最大搜寻策略和最混乱查询策略选取用于训练聚类算法权重系数模型的关键实例;然后,定义目标求解函数,通过训练关键实例求解得到每种聚类算法的权重系数;最后,结合权重系数进行分类计算,从而对结果置信度高的样本进行分类。应用大庆油田油井的6个公开岩性数据集进行实验,实验结果表明,ALCL的分类精度最高时,比传统监督学习算法和其他主动学习算法提高了2.07%~14.01%。假设检验和显著性分析的结果验证了ALCL在岩性识别问题上具有更好的分类效果。  相似文献   

5.
汪敏  武禹伯  闵帆 《计算机应用》2005,40(12):3437-3444
针对传统岩性识别方法识别精度低,难以和地质经验有机结合的问题,提出了一种基于多种聚类算法和多元线性回归的多分类主动学习算法(ALCL)。首先,通过多种异构聚类算法聚类得到对应每种算法的类别矩阵,并通过查询公共点对类别矩阵进行标记和预分类;其次,提出优先级最大搜寻策略和最混乱查询策略选取用于训练聚类算法权重系数模型的关键实例;然后,定义目标求解函数,通过训练关键实例求解得到每种聚类算法的权重系数;最后,结合权重系数进行分类计算,从而对结果置信度高的样本进行分类。应用大庆油田油井的6个公开岩性数据集进行实验,实验结果表明,ALCL的分类精度最高时,比传统监督学习算法和其他主动学习算法提高了2.07%~14.01%。假设检验和显著性分析的结果验证了ALCL在岩性识别问题上具有更好的分类效果。  相似文献   

6.
中医四诊分析是基于四诊信息进行中医证候分类研究的重要内容,构建有效的中医四诊分析模型可以更好地挖掘中医证候间的关联关系,从而为中医临床提供决策支持。本文通过对子空间聚类CLIQUE算法的分析,结合四诊信息的数据特征,提出一种基于限定空间搜索策略的改进CLIQUE算法(ChM-CLIQUE)。通过优化CLIQUE算法的搜索策略,以稠密单元中网格密度最大的单元为中心进行深度优先搜索生成聚类簇,提高算法的性能,同时基于聚类簇中样本高斯分布的特性引入网格自适应密度,增强聚类边界的识别精度。在中医临床采集的数据集上进行多组对比实验,实验结果表明本文算法的轮廓系数较CLIQUE算法有显著性的提高。  相似文献   

7.
基于模糊聚类的思想提出了一种新的两级集成分类器算法.将数据集用Fuzzy C-Means算法进行聚类,得到每个实例对应于每个类别的模糊隶属度.一级集成根据Bagging算法获得成员分类器,分类器个数为数据集类别数且每个成员分类器对应一个类别标号,这些成员分类器的采样方式是通过其对应类别的模糊隶属度为每个实例加权后进行随机重采样.二级集成是将一级集成产生的针对类别的成员分类器通过动态加权多数投票法来组合,学习到最终的分类结果.该算法称为EWFuzzyBagging,实验结果表明,该算法与Bagging和AdaBoost相比具有更好的健壮性.  相似文献   

8.
胡小生  张润晶  钟勇 《计算机科学》2013,40(11):271-275
类别不平衡数据分类是机器学习和数据挖掘研究的热点问题。传统分类算法有很大的偏向性,少数类分类效果不够理想。提出一种两层聚类的类别不平衡数据级联挖掘算法。算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界。实验结果表明,该算法具有处理类别不平衡数据分类问题的优势。  相似文献   

9.
针对化工过程中的数据存在的多模态特性,提出基于模糊C均值(FCM)与主成分分析(PCA)的故障检测方法。首先,通过FCM算法将具有多模态特性的训练样本进行聚类,根据所有样本到聚类中心的距离计算样本所属于每个聚类中心的隶属度。其次,以隶属度作为判定依据判断样本所属类别,将训练样本分成若干类别。再次,对每一个分类后的类别进行标准化处理并建立模型,通过核密度估计法确定每一个类别的控制限。最后,将待测样本划分类别,计算样本在各类别下的Hotelliing’s T和平方预测误差(SPE)(又称Q统计量),并与控制限比较以实现故障检测。将该方法运用于数值例子和田纳西-伊斯曼(TE)工业过程并将检测结果与PCA方法进行了对比分析。对比结果表明,该研究的故障检测率大幅提升。FCM算法通过对原始数据分类,有效地提升了PCA对具有多模态特性数据的处理能力。  相似文献   

10.
不平衡数据分类是机器学习研究领域中的一个热点问题。针对传统分类算法处理不平衡数据的少数类识别率过低问题,文章提出了一种基于聚类的改进AdaBoost分类算法。算法首先进行基于聚类的欠采样,在多数类样本上进行K均值聚类,之后提取聚类质心,与少数类样本数目一致的聚类质心和所有少数类样本组成新的平衡训练集。为了避免少数类样本数量过少而使训练集过小导致分类精度下降,采用少数过采样技术过采样结合聚类欠采样。然后,借鉴代价敏感学习思想,对AdaBoost算法的基分类器分类误差函数进行改进,赋予不同类别样本非对称错分损失。实验结果表明,算法使模型训练样本具有较高的代表性,在保证总体分类性能的同时提高了少数类的分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号