首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
现有的多视图无监督特征选择方法大多存在以下问题:样本的相似度矩阵、不同视图的权重矩阵和特征的权重矩阵往往是预先定义的,不能有效刻画数据间的真实结构以及反映不同视图和特征的重要性,进而导致不能选出有用的特征。为解决上述问题,首先,在多视图模糊C均值聚类的基础上进行视图权重和特征权重的自适应学习,以同时实现特征选择并保证聚类性能;然后,在拉普拉斯秩约束下自适应地学习样本的相似度矩阵,并构建一个基于自适应学习的多视图无监督特征选择(ALMUFS)方法;最后,设计一种交替迭代优化算法对目标函数进行求解,并在8个真实数据集上将所提方法与6种无监督特征选择基线方法进行比较。实验结果表明,ALMUFS的聚类精度和F-measure优于其他方法,与自适应协作相似性学习(ACSL)相比,平均提高8.99和11.87个百分点;与ASVM(Adaptive Similarity and View Weight)相比,平均提高11.09和13.21个百分点,验证了所提方法的可行性和有效性。  相似文献   

2.
基于矩阵相似度的图象特征抽取和识别   总被引:5,自引:1,他引:4  
  相似文献   

3.
针对特征选择中存在数据缺乏类别信息的问题,提出一种新型的基于改进ReliefF的无监督特征选择方法UFS-IR.由于ReliefF类算法存在小类样本抽样概率低、无法删除冗余特征的缺陷,该方法以DBSCAN聚类算法指导分类,通过改进抽样策略,使用调整的余弦相似度度量特征间的相关性作为去冗余的凭据.实验表明UFS-IR可以有效缩减数据维度的同时保证特征子集的最大相关最小冗余性,具有很好的性能.  相似文献   

4.
为捕捉样本之间的复杂关系,提升噪声鲁棒性,提出一种基于动态超图学习拉普拉斯矩阵的无监督特征选择方法。通过对训练样本的协方差矩阵施加正交约束,利用超图动态学习拉普拉斯矩阵分别保持低维训练样本的全局和局部结构,获取样本之间的复杂关系;引入的两种子空间学习方法增强特征选择的辨别能力。通过公共数据集实验结果验证了提出方法能够提升特征选择质量,以及相关上游任务的精度和鲁棒性。  相似文献   

5.
基于互信息的无监督特征选择   总被引:5,自引:0,他引:5  
在数据分析中,特征选择可以用来降低特征的冗余,提高分析结果的可理解性和发现高维数据中隐藏的结构.提出了一种基于互信息的无监督的特征选择方法(UFS-MI),在UFS-MI中,使用了一种综合考虑了相关度和冗余度的特征选择标准UmRMR(无监督最小冗余最大相关)来评价特征的重要性.相关度和冗余度分别使用互信息来度量特征与潜在类别变量之间的依赖和特征与特征之间的依赖.UFS-MI同时适用于数值型和非数值型特征.在理论上证明了UFS-MI的有效性,实验结果也表明UFS-MI可以达到与传统的特征选择方法相当甚至更好的性能.  相似文献   

6.
传统基于用户的协同过滤推荐算法在计算用户相似性时经常面临数据稀疏的问题,同时忽略了不同评分项目之间的差异。针对这些问题,提出一种基于FunkSVD矩阵分解和相似度矩阵的推荐算法。利用用户评分数据与物品标签数据计算出用户的相似度矩阵;利用FunkSVD对得到的相似度矩阵进行矩阵分解,生成新的用户相似度矩阵;根据用户之间评分数据对两个相似度矩阵中的用户相似度加权组合,并生成用户的综合相似度矩阵来对用户进行评分预测。经过Movielens数据集的实验表明,该算法提高了预测的准确性,优于传统的推荐算法。  相似文献   

7.
近邻法对不相关特征的敏感性很高,利用邻域重构系数可以保持原有数据结构的优点,为此,文中提出基于邻域保持学习的无监督特征选择算法.首先根据数据样本和邻域的相似性构造相似矩阵,并引入中间矩阵构造低维空间.然后利用拉普拉斯乘子法选择有效特征子集.在4个公开数据集上的实验表明,文中算法可以有效识别代表性特征.  相似文献   

8.
谢娟英  丁丽娟  王明钊 《软件学报》2020,31(4):1009-1024
基因表达数据具有高维小样本特点,包含了大量与疾病无关的基因,对该类数据进行分析的首要步骤是特征选择.常见的特征选择方法需要有类标的数据,但样本类标获取往往比较困难.针对基因表达数据的特征选择问题,提出基于谱聚类的无监督特征选择思想FSSC(feature selection by spectral clustering).FSSC对所有特征进行谱聚类,将相似性较高的特征聚成一类,定义特征的区分度与特征独立性,以二者之积度量特征重要性,从各特征簇选取代表性特征,构造特征子集.根据使用的不同谱聚类算法,得到FSSC-SD(FSSC based on standard deviation)、FSSCMD(FSSC based on mean distance)和FSSC-ST(FSSC based on self-tuning)这3种无监督特征选择算法.以SVMs(support vector machines)和KNN(K-nearest neighbours)为分类器,在10个基因表达数据集上进行实验测试.结果表明,FSSC-SD、FSSC-MD和FSSC-ST算法均能选择到具有强分类能...  相似文献   

9.
针对无标签高维数据的大量出现,对机器学习中无监督特征选择进行了研究。提出了一种结合自表示相似矩阵和流形学习的无监督特征选择算法。首先,通过数据的自表示性质,构建相似矩阵,结合低维流形能够表示高维数据结构这一流形学习思想,建立一种考虑流形学习的无监督特征选择优化模型。其次,为了保证选择更有用及更稀疏的特征,采用◢l◣▼2,1▽范数对优化模型进行约束,使特征之间相互竞争,消除冗余。进而,通过变量交替迭代对优化模型进行求解,并证明了算法的收敛性。最后,通过与其他几个无监督特征算法在四个数据集上的对比实验,表明所给算法的有效性。  相似文献   

10.
本体算法中相似度矩阵的学习   总被引:1,自引:0,他引:1  
本体图中顶点之间的相似度计算是各类本体算法的本质所在.本体图中各个顶点对的相似度组成本体相似度矩阵,因此得到一个最优相似度矩阵是本体应用的实质.本文提出一种通过计算距离矩阵来得到本体相似度矩阵的方法,该方法着眼于降维过程的稀疏化和解的光滑性.从样本集得到相似顶点对集合S和不相似度顶点对集合D,由此得到三元组Γ.将Γ的信息融入到计算模型中,进而使得距离矩阵保持了原本体图中顶点间的距离结构特征.借鉴凸最小最大优化模型的光滑逼近法,得到距离矩阵计算模型的求解策略.最后,通过两个具体实验表明,本文所给的相似度矩阵计算方法对于特定应用领域中的本体相似度计算和不同本体间建立本体映射具有较高的效率.  相似文献   

11.
特征选择是去除不相关和冗余特征,找到具有良好泛化能力的原始特征的紧凑表示,同时,数据中含有的噪声和离群点会使学习获得的系数矩阵的秩变大,使得算法无法捕捉到高维数据中真实的低秩结构。因此,利用Schatten-p范数逼近秩最小化问题和特征自表示重构无监督特征选择问题中的系数矩阵,建立一个基于Schatten-p范数和特征自表示的无监督特征选择(SPSR)算法,并使用增广拉格朗日乘子法和交替方向法乘子法框架进行求解。最后在6个公开数据集上与经典无监督特征选择算法进行实验比较,SPSR算法的聚类精度更高,可以有效地识别代表性特征子集。  相似文献   

12.
马磊  罗川  李天瑞  陈红梅 《计算机应用》2023,(10):3121-3128
动态特征选择算法能够大幅提升处理动态数据的效率,然而目前基于模糊粗糙集的无监督的动态特征选择算法较少。针对上述问题,提出一种特征分批次到达情况下的基于模糊粗糙集的无监督动态特征选择(UDFRFS)算法。首先,通过定义伪三角范数和新的相似关系在已有数据的基础上进行模糊关系值的更新过程,从而减少不必要的运算过程;其次,通过利用已有的特征选择结果,在新的特征到达后,使用依赖度判断原始特征部分是否需要重新计算,以减少冗余的特征选择过程,从而进一步提高特征选择的速度。实验结果表明,UDFRFS相较于静态的基于依赖度的无监督模糊粗糙集特征选择算法,在时间效率方面能够提升90个百分点以上,同时保持较好的分类精度和聚类表现。  相似文献   

13.
属性图嵌入旨在将属性图中的节点表示为低维向量,并同时保留节点的拓扑信息和属性信息.属性图嵌入已经有一系列相关工作,然而它们大多数提出的是有监督或半监督的算法.在实际应用中,需要标记的节点数量多,导致这些属性图嵌入算法的难度大,且需要消耗巨大的人力物力.针对上述问题以无监督的视角重新分析,提出了一种无监督的属性图嵌入算法...  相似文献   

14.
特征选择方法可以从成千上万个特征中选择合适的少量特征,使模型更加有效、高效。本文考虑到真实场景下高维数据集中特征之间互相关联以及使用复杂网络结构描述特征空间的全局性与合理性,提出无监督场景下的基于复杂网络节点度中心性的特征选择方法。根据特征间的相关性大小,设定阈值选择保留符合要求的关联;再利用保留的关联生成以特征为节点的无向无权重网络结构;最后以衡量节点度中心性的方法筛选此网络中影响力最大的节点集,亦即最优特征子集。本文方法为处理特征重要性及特征冗余增加了灵活性。采用对比实验,将本文方法与常用特征选择或特征提取方法在多个高维数据集上进行性能比较。实验分析结果表明此方法的有效性以及普适性。  相似文献   

15.
词向量使用低维稠密向量表示词,通过向量运算能够反映词间关系,被广泛应用于自然语言处理任务。对基于矩阵分解的词向量方法进行了研究,发现降维前相似度矩阵质量与词向量质量存在线性相关性,提出了一种基于中心化相似度矩阵的方法。该方法使得相似(不相似或弱相似)词间的相似程度相对增强(减弱)。在WS-353和RW数据集的词语相似性实验中验证了所提出方法的有效性,两个数据集下词向量质量最高提升0.2896和0.1801。中心化能够提升降维前相似度矩阵质量,进而提升词向量质量。  相似文献   

16.
潘锋  王建东  牛奔 《计算机应用》2011,31(8):2108-2110
为提高无监督状态下特征选择的准确度,基于图谱理论证明了标准化Laplacian矩阵前K个最小特征值分布表现了簇结构的可识别性,使用谱分析方法指导无监督特征选择,提出了特征重要度排序算法。对大容量数据集特征选择,应用Nystrm方法降低时间复杂度。实验结果表明,使用该算法与使用主流无监督特征选择方法及全部特征相比能得到更高的聚类性能评分。  相似文献   

17.
哈希编码能够节省存储空间、提高检索效率,已引起广泛关注.提出一种成对相似度迁移哈希方法(pairwise similarity transferring hash,PSTH)用于无监督跨模态检索.对于每个模态,PSTH将可靠的模态内成对相似度迁移到汉明空间,使哈希编码继承原始空间的成对相似度,从而学习各模态数据对应的哈希编码;此外,PSTH重建相似度值而不是相似度关系,使得训练过程可以分批进行;与此同时,为缩小不同模态间的语义鸿沟,PSTH最大化模态间成对相似度.在三个公开数据集上进行了大量对比实验,PSTH取得了SOTA的效果.  相似文献   

18.
基于压缩稀疏矩阵矢量相乘的文本相似度计算   总被引:4,自引:0,他引:4  
在信息检索矢量模型的基础上.提出了一种基于压缩稀疏矩阵矢量相乘的文本相似度计算方法,具有矢量模型计算简单和速度快的特点.该方法采用压缩稀疏矩阵矢量空间存储数据,在相似度计算和数据存储时不需要考虑文本矢量矩阵中的零元素,大大减少了计算量和存储空间,从而使信息检索系统运行效率显著提高.仿真实验表明,上述方法比基于矢量模型的传统反向索引机制节省了38%的存储空间.  相似文献   

19.
20.
基于特征相似度的贝叶斯网络入侵检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
传统贝叶斯入侵检测方法未考虑属性和属性权值对检测结果的影响。为此,提出基于特征相似度的贝叶斯网络入侵检测方法。利用相似度对网络连接数据的属性特征进行选择,抽取其关键特征,并降低属性的冗余度,以优化朴素贝叶斯的分类性能。实验结果表明,该方法能降低分类数据的维数,提高分类的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号