首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于互信息的无监督特征选择   总被引:5,自引:0,他引:5  
在数据分析中,特征选择可以用来降低特征的冗余,提高分析结果的可理解性和发现高维数据中隐藏的结构.提出了一种基于互信息的无监督的特征选择方法(UFS-MI),在UFS-MI中,使用了一种综合考虑了相关度和冗余度的特征选择标准UmRMR(无监督最小冗余最大相关)来评价特征的重要性.相关度和冗余度分别使用互信息来度量特征与潜在类别变量之间的依赖和特征与特征之间的依赖.UFS-MI同时适用于数值型和非数值型特征.在理论上证明了UFS-MI的有效性,实验结果也表明UFS-MI可以达到与传统的特征选择方法相当甚至更好的性能.  相似文献   

2.
传统的无监督领域自适应算法在对齐总体分布时存在分类信息流失问题,难以保证迁移学习效果。针对这个问题,提出了一种基于类内最大均值差异的分布对齐策略。该策略首先预测所有样本的伪标签,然后借助伪标签样本信息依次对齐每个类别的领域类内分布。在深度学习框架下,所提算法能够有效保留分类信息,提高了目标领域的预测能力。实验结果表明,与传统算法比较,所提算法在多个基准数据集上获得了最优的迁移学习效果。  相似文献   

3.
ART是一种典型的、无监督的、能够对复杂输入模式实现自稳定和自组织识别的神经网络。该文针对标准ARTII算法的预处理信号畸变问题,提出了新的非线性变换函数和竞争学习算法,该新型ARTII算法的输入域由原来的非负实数域扩大到整个实数域,且分类性能良好,以多种分类问题对该算法的性能进行验证,结果表明该算法性能优良,能自适应地识别未知故障模式,分类准确。  相似文献   

4.
提出了一种针对分类属性数据特征选择的新算法。通过给出一种能够直接评价分类属性数据特征选择的评价函数新定义,重新构造能实现分类属性数据信息量、条件互信息、特征之间依赖度定义的计算公式,并在此基础上,提出了一种基于互信息较大相关、较小冗余的特征选择(MRLR)算法。MRLR算法在特征选择时不仅考虑了特征与类标签之间的相关性,而且还考虑了特征之间的冗余性。大量的仿真实验表明,MRLR算法在针对分类属性数据的特征选择时,能获得冗余度小且更具代表性的特征子集,具有较好的高效性和稳定性。  相似文献   

5.
[目的]联合国可持续发展目标(SDGs)是联合国于2015年提出的指导全世界在2015-2030年间发展方向的目标,涵括了社会、经济、环境三个方向上的海量数据.针对SDGs标注数据少、数据量大、难以查找利用的特点,本文旨在无监督地对SDGs数据进行分类.[方法]本文首先利用结合textrank和相对词频的关键词提取算法...  相似文献   

6.
为了实现对无任何先验知识的高光谱遥感数据的全自动分类,提出了一种关于高光谱图像的无监督分类算法。该算法将高光谱图像的凸面几何特征与光谱特征相结合,通过自动提取端元,并利用所提取的端元进行类别识别来实现高光谱图像的自动分类。此算法的特点是原理简单、易于实现、适应性广,而且不需要任何辅助支持和人工干预。实验结果表明,该算法能够获得较好的分类效果。  相似文献   

7.
为了能有效应对数据流中的概念漂移现象,提出结合无监督学习的数据流分类算法.该算法以集成式分类技术为基础,在分类过程中引入属性约简,利用聚类算法对数据进行聚类,通过对比分类和聚类结果的准确率,判断是否发生概念漂移.实验表明,文中算法在综合时间花销和准确率上取得较好效果.  相似文献   

8.
李庆勇  何军    张春晓 《智能系统学报》2021,16(6):999-1006
采用对抗训练的方式成为域适应算法的主流,通过域分类器将源域和目标域的特征分布对齐,减小不同域之间的特征分布差异。但是,现有的域适应方法仅将不同域数据之间的距离缩小,而没有考虑目标域数据分布与决策边界之间的关系,这会降低目标域内不同类别的特征的域内可区分性。针对现有方法的缺点,提出一种基于分类差异与信息熵对抗的无监督域适应算法(adversarial training on classification discrepancy and information entropy for unsupervised domain adaptation, ACDIE)。该算法利用两个分类器之间的不一致性对齐域间差异,同时利用最小化信息熵的方式降低不确定性,使目标域特征远离决策边界,提高了不同类别的可区分性。在数字标识数据集和Office-31数据集上的实验结果表明,ACDIE算法可以学习到更优的特征表示,域适应分类准确率有明显提高。  相似文献   

9.
文本分类是信息检索和文本挖掘的重要基础,朴素贝叶斯是一种简单而高效的分类算法,可以应用于文本分类.但是其属性独立性和属性重要性相等的假设并不符合客观实际,这也影响了它的分类效果.如何克服这种假设,进一步提高其分类效果是朴素贝叶斯文本分类算法的一个难题.根据文本分类的特点,基于文本互信息的相关理论,提出了基于互信息的特征项加权朴素贝叶斯文本分类方法,该方法使用互信息对不同类别中的特征项进行分别赋权,部分消除了假设对分类效果的影响.通过在UCIKDD数据集上的仿真实验,验证了该方法的有效性.  相似文献   

10.
基于流形距离的人工免疫无监督分类与识别算法   总被引:3,自引:0,他引:3  
将一种新的流形距离作为相似性度量测度, 提出了一种用于无监督分类与识别的人工免疫系统方法. 通过基于流形距离的相似性度量, 有效利用样本集固有的全局一致性信息, 充分挖掘无类属样本的空间分布信息, 对样本进行类别划分. 新方法将免疫响应过程建模为一个四元组 AIR=(G,I,R,A) , 其中 G 为引发免疫响应的外界刺激, 即抗原; I 为所有可能抗体的集合; R 为抗体间相互作用的规则集合; A 为支配抗体反应、指导抗体进化的动态算法. 针对无监督分类问题, 将抗体编码为代表各类别的典型样本序号的排列, 利用动态算法 A 搜索能代表各类别的典型样本的最佳组合. 将新方法与标准的 K-均值算法、基于流形距离的进化聚类算法以及 Maulik 等人提出的基于遗传算法的聚类算法进行了性能比较. 对 6 个人工数据集及手写体数字识别问题的仿真实验结果显示, 新方法对样本空间分布复杂的无监督分类问题和实际的模式识别问题具有较高的准确率和较好的鲁棒性.  相似文献   

11.
黄婧 《信息与电脑》2023,(14):100-102
为提高乳腺肿瘤图像分类精度,研究基于原型迁移生成对抗网络的无监督乳腺肿瘤图像分类算法。基于动态调节增强乳腺肿瘤图像信息,然后提取需分类图像与原型乳腺肿瘤图像相似的特征,以分类期望误差最小化为目标训练生成对抗网络,实现无监督式乳腺肿瘤图像分类。  相似文献   

12.
无监督特征选择可以降低数据维数,提高算法的学习性能,是机器学习和模式识别等领域中的重要研究课题。和大多数在目标函数中引入稀疏正则化解决松弛问题的方法不同,提出了一种基于最大熵和l2,0范数约束的无监督特征选择算法。使用具有唯一确定含义的l2,0范数等式约束,即选择特征的数量,不涉及正则化参数的选取,避免调整参数。结合谱分析探索数据的局部几何结构并基于最大熵原理自适应的构造相似矩阵。通过增广拉格朗日函数法,设计了一种交替迭代优化算法对模型求解。在四个真实数据集上与其他几种无监督特征选择算法的对比实验,验证了所提算法的有效性。  相似文献   

13.
融合无监督和监督学习策略生成的多分类决策树   总被引:6,自引:0,他引:6  
提出了一种融合无监督和监督两种学习策略生成多分类决策树的方法.它首先利用无监督聚类方法能够发现待分类样本之问的内在联系和规律的特点,确定出最为符合多类样本分布特征的决策树的树型,继而利用监督学习支持向量机的方法对样本进行准确的分类,通过采用核函数和不对称的Lagrangian系数限制条件,支持向量机很好的解决了样本特征空间上的线性不可分性和决策树型确定过程中出现的训练样本不对称性的影响、该方法具有较高的计算效率和准确性,在实验申取得了比较好的结果.  相似文献   

14.
李亚娥  汪西莉 《微机发展》2013,(2):112-114,118
基于局部和全局一致性算法本身带有一定数量的参数,而参数delta的选取对算法迭代过程的迭代次数和分类结果很敏感,通常是通过实验手动设置,这种做法相对比较耗时。为了解决该问题,提高算法分类效率,文中针对该问题将算法应用到图像分类中提出了一种自适应的参数设置方法,确定参数delta的最佳取值范围。通过实验结果可以看出,确定的参数范围的取值能使算法的分类正确率最高、迭代过程所用的时间最短。因此本方法能有效地提高算法的分类效率。  相似文献   

15.
中文分词是文本过滤的首要的基础性工作,也是智能化中文信息处理的关键。本文提出了一种结合正向最大匹配法和互信息的中文分词算法。实验结果说明,该算法能在一定程度上提高文本的分类性能。  相似文献   

16.
用代表点替代类均值代表类、用加权距离替代欧氏距离作为样本与类之间的相似性度量,由此建立一种新的无监督数据聚类算法.提取指标对分类所作贡献大小的量化值,以此为启发性知识定义加权距离,建立了用质心修正当前代表点的迭代算法.与均值聚类等序贯算法不同,基于质心的迭代算法的批处理性可消除输入产生的随机性干扰.采用IRIS数据和Breast Cancer数据验证了该算法的有效性.  相似文献   

17.
基于分类权与质心驱动的无监督学习算法   总被引:1,自引:0,他引:1  
为了充分挖掘隐藏在样本向量中的空间信息和知识信息: 用聚类点代替类均值, 把提取指标对聚类所做贡献的量化值定义为指标分类权; 用分类权定义样本点与聚类点的加权距离, 使之作为样本与类之间的相似性度量更具合理性, 即将加权距离转化为样本隶属度. 为了消除序贯算法产生的随机性, 用样本的K类隶属度作为点质量的样本质点组的质心, 修正当前的K类聚类点, 由此建立基于分类权和质心驱动的搜索聚类点的迭代算法. IRIS数据检验结果表明, 新算法的聚类效果与稳定性都优于已有的无监督学习方法.  相似文献   

18.
K-means是一种无监督学习算法,基于数据对象之间的距离度量划分数据簇、欧氏距离等度量方法存在一些问题,比如离群点数据较多,算法准确度较低.互信息可以度量任意两个数据对象之间的互相包含程度,基于互信息改进K-means算法,可以更好地度量数据对象之间的距离,确保簇内高度相同和簇间高度相异,旨在解决离群点数据较多的情况下K-means算法准确度不高的问题.实验结果显示,与K-means算法、模糊K-means算法相比,改进K-means算法实验结果精确度达到了97.8%,该方法明显提高K-means算法的准确度.  相似文献   

19.
针对当前大多数无监督图像分类方法不能对每个图像类进行特征选择和自动确定图像类别的数量问题,提出一种基于Adaboost和随机图划分的无监督图像分类方法。该方法包括两个部分:1)将图像分类问题看做是一个自动的随机图划分问题,其中图的每一个顶点代表一幅图像,通过划分形成的子图代表了图像类。再采用Ada-boost算法对每一个形成的图像类进行特征选择,从而得到每类图像的表达模型。2)采用一种基于蒙特卡洛马尔可夫链(MCMC)的随机采样算法(SWC)来对图进行划分。相比传统的随机采样算法,SWC具有更快的收敛速度。在两个图像数据集上的实验结果表明,本文方法的分类性能明显优于其他现有的无监督分类法。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号