首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
特征选择在传统的单标记问题中已经得到深入的研究,但是大多数传统的特征选择算法却无法用于多标记问题。这是因为多标记问题中的每一个数据样本都同时与多个类标相关联,此时需要设计新的指标来评价特征。并且由于多个类标之间通常存在一定的关联性,在设计特征选择算法时还需要对类标的结构进行建模以利用类标的关联信息。采用谱特征选择(spectral feature selection,SPEC)框架解决上述问题。SPEC所需的相似性矩阵和图结构由样本类标的Jaccard相似性来构建,它能反映类标间的关联性。此外,所提出的方法属于过滤器模型,它独立于分类算法且不需要将多标记问题转化为单标记问题来处理。在现实世界数据集上的实验验证了所提出算法的正确性和较好的性能。  相似文献   

2.
谢娟英  丁丽娟  王明钊 《软件学报》2020,31(4):1009-1024
基因表达数据具有高维小样本特点,包含了大量与疾病无关的基因,对该类数据进行分析的首要步骤是特征选择.常见的特征选择方法需要有类标的数据,但样本类标获取往往比较困难.针对基因表达数据的特征选择问题,提出基于谱聚类的无监督特征选择思想FSSC(feature selection by spectral clustering).FSSC对所有特征进行谱聚类,将相似性较高的特征聚成一类,定义特征的区分度与特征独立性,以二者之积度量特征重要性,从各特征簇选取代表性特征,构造特征子集.根据使用的不同谱聚类算法,得到FSSC-SD(FSSC based on standard deviation)、FSSCMD(FSSC based on mean distance)和FSSC-ST(FSSC based on self-tuning)这3种无监督特征选择算法.以SVMs(support vector machines)和KNN(K-nearest neighbours)为分类器,在10个基因表达数据集上进行实验测试.结果表明,FSSC-SD、FSSC-MD和FSSC-ST算法均能选择到具有强分类能...  相似文献   

3.
特征选择旨在选择待处理数据中最具代表性的特征,降低特征空间的维度.文中提出基于局部判别约束的半监督特征选择方法,充分利用已标记样本和未标记样本训练特征选择模型,并借助相邻数据间的局部判别信息提高模型的准确度,引入l2,1约束提高特征之间可区分度,避免噪声干扰.最后通过实验验证文中方法的有效性.  相似文献   

4.
视频对象自动分类是智能视频监控的重要技术基础之一.为了提高分类精度,必须选择合适的对象特征.目前常用的视频对象分类方法都缺乏对于分类特征重要性的评价机制.提出一种视频对象分类特征评价与选择方法,该方法基于Adaboost算法的思想,通过对特征贡献进行定量评价实现特征选择.实验将视频对象区分为"单个行人"、"人群"、"车辆"和"骑车的人"四种类别,证明了该方法的合理性和有效性.  相似文献   

5.
Fisher Score (FS)是一种快速高效的评价特征分类能力的指标,但传统的FS指标既无法直接应用于多标记学习,也不能有效处理样本极值导致的类中心与实际类中心的误差。提出一种结合中心偏移和多标记集合关联性的FS多标记特征选择算法,找出不同标记下每类样本的极值点,以极值点到该类样本的中心距离乘以半径系数筛选新的样本,从而获得分布更为密集的样本集合,以此计算特征的FS得分,通过整体遍历全体样本的标记集合中的每个标记,并在遍历过程中针对具有更多标记数量的样本自适应地赋以标记权值,得到整体特征的平均FS得分,以特征的FS得分进行排序过滤出目标子集实现特征选择目标。在8个公开的多标记文本数据集上进行参数分析及5种指标性能比较,结果表明,该算法具有一定的有效性和鲁棒性,在多数指标上优于MLNB、MLRF、PMU、MLACO等多标记特征选择算法。  相似文献   

6.
Neural Processing Letters - Redundant features and outliers (noise) included in the data points for a machine learning clustering model heavily influences the discovery of more distinguished...  相似文献   

7.
Constraint Databases represent complex data by means of formulas described by constraints (equations, inequations or Boolean combinations of both). Commercial database management systems allow the storage and efficient retrieval of classic data, but for complex data a made-to-measure solution combined with expert systems for each type of problem are necessary. Therefore, in the same way as commercial solutions of relational databases permit storing and querying classic data, we propose an extension of the Selection Operator for complex data stored, and an extension of SQL language for the case where both classic and constraint data need to be managed. This extension shields the user from unnecessary details on how the information is stored and how the queries are evaluated, thereby enlarging the capacity of expressiveness for any commercial database management system. In order to minimize the selection time, a set of strategies have been proposed, which combine the advantages of relational algebra and constraint data representation.  相似文献   

8.
Constraint Score is a recently proposed method for feature selection by using pairwise constraints which specify whether a pair of instances belongs to the same class or not. It has been shown that the Constraint Score, with only a small amount of pairwise constraints, achieves comparable performance to those fully supervised feature selection methods such as Fisher Score. However, one major disadvantage of the Constraint Score is that its performance is dependent on a good selection on the composition and cardinality of constraint set, which is very challenging in practice. In this work, we address the problem by importing Bagging into Constraint Score and a new method called Bagging Constraint Score (BCS) is proposed. Instead of seeking one appropriate constraint set for single Constraint Score, in BCS we perform multiple Constraint Score, each of which uses a bootstrapped subset of original given constraint set. Diversity analysis on individuals of ensemble shows that resampling pairwise constraints is helpful for simultaneously improving accuracy and diversity of individuals. We conduct extensive experiments on a series of high-dimensional datasets from UCI repository and gene databases, and the experimental results validate the effectiveness of the proposed method.  相似文献   

9.
特征选择和提取要素的分析及其评价   总被引:12,自引:1,他引:12  
该文将统计学习理论应用于特征选择和提取方法的分析,研究了影响特征选择和提取的要素并给出了正、负边缘距离的定义和特征选择和提取的评价方法。以往的特征分类评价和分类方法多是建立在传统的统计学基础之上,前提是有足够多的样本,但当样本有限时难以获得理想的效果。该文以研究小样本统计估计和预测的理论一统计学习理论框架为指导,研究基于小样本所选择和提取的特征的分类评价,提出了衡量特征推广性能的正边缘距离概念和衡量类交叠情况的负距离概念,并在此基础上,进一步提出了特征选择和提取的最大正边缘距离评价、最小负距离评价、最小维评价和最小误识率评价。该文以相似的手写汉字的识别为例,说明所提出的定义和评价方法的实用性。  相似文献   

10.
针对特征空间中存在潜在相关特征的规律,分别利用谱聚类探索特征间的相关性及邻域互信息以寻求最大相关特征子集,提出联合谱聚类与邻域互信息的特征选择算法.首先利用邻域互信息移除与标记不相干的特征.然后采用谱聚类将特征进行分簇,使同一簇组中的特征强相关而不同簇组中的特征强相异.继而基于邻域互信息从每一特征簇组中选择与类标记强相关而与本组特征低冗余的特征子集.最后将所有选中特征子集组成最终的特征选择结果.在2个基分类器下的实验表明,文中算法能以较少的合理特征获得较高的分类性能.  相似文献   

11.
microRNA(miRNA)是一类长度约为21nt的非编码RNA,具有重要的调控功能.miRNA前体包含一级序列特征和二级结构特征,其中含有冗余和无用的特征,这些特征无益于前体分类模型的分类准确度.因此需要去除冗余特征,进而降低特征维数并提高分类性能.针对miRNA的前体序列数据,已有特征选取方法,仅考虑了特征之间的区分距离.全面考虑了每个特征属性对分类的增益和特征间冗余性,选取的特征有助于建立高效的分类模型.实验结果表明,选取的特征子集有效地提高了miRNA前体分类器的预测性能,取得了更好的分类结果.  相似文献   

12.
基于谱聚类的无监督特征选择主要涉及相关系数矩阵和聚类指示矩阵, 在以往的研究中, 学者们主要关注于相关系数矩阵, 并为此设计了一系列约束和改进, 但仅关注相关系数矩阵并不能充分学习到数据内在结构. 考虑群组效应, 本文向聚类指示矩阵施加$F$范数, 并结合谱聚类以使相关系数矩阵学习更为准确的聚类指示信息, 通过交替迭代法求解两个矩阵. 不同类型的真实数据集实验表明文中方法的有效性, 此外, 实验表明$F$范数还可以使方法更加鲁棒.  相似文献   

13.
KDD中的特征选择   总被引:1,自引:0,他引:1  
随着数据库、数据仓库技术的发展,各种数据处理和分析工具不断出现,数据库中的知识发现(简称KDD)就是现在受到研究人员和软件开发商广泛关注的一种数据分析方法。文章主要针对KDD的数据预处理阶段的一类重要问题———分类问题,描述了特征选择的概念,分析了它在KDD中应用的重要性和必要性,并针对KDD的特点介绍现有的特征选择的各种方法并进行归纳,为下一步的研究和开发提供一个有益的框架。  相似文献   

14.
构建个人信用风险评估模型的过程中, 特征工程很大程度上决定了评估器的性能, 传统的特征选择方法无法全面的考虑高维度指标对评估结果的影响, 且大多数研究在构建模型的过程中人为决定特征集大小, 导致随机性强、可信度低; 基于此, 提出基于传统风控指标优化XGBoost的随机森林模型(IV-XGBoostRF), 将传统风控指标IV与XGBoost相结合对原始特征集进行筛选, 建立较为完善的信用评估模型. 通过对比实验的结果显示改进后的随机森林模型准确度提高了0.90%, 且其他各项评估指标均优于传统信用评估模型, 证明了该组合特征选择方法的可行性, 有一定的应用价值.  相似文献   

15.
16.
入侵检测建模过程中特征提取最优化评估   总被引:2,自引:0,他引:2  
胡威  李建华  陈波 《计算机工程》2006,32(12):150-151,168
在入侵检测建模过程中,特征提取是一个重要的步骤。特征提取有利干提高入侵检测的效率和准确性,好的特征可以在特征空间提供完美的分类独立性。但在以往的入侵检测模型评估中,对原始数据的特征提取并没有涉及提取的标准和原则。文章利用KDD数据集,针对不同种类的网络入侵攻击,使用经典聚类算法对特征提取的特征类别进行比较,以获取该领域的知识。  相似文献   

17.
在说话人确认系统中,训练和测试的声学环境不匹配将造成性能急剧下降。本文提出了从特征规整和评分规整两个方面进行补偿的方法。首先,改进了基于分段的倒谱均值方差规整(SCMVN)方法,将倒谱系数都规整到相同的段内高斯统计分布,以提高不同环境条件下特征匹配程度;其次,针对由于不同说话人和不同测试环境引起的输出评分分布变化,提出了两阶段的评分规整方法,即先零规整再测试规整(TZnorm)和先测试规整再零规整(ZTnorm)两种得分变换方法,使得失配条件下与说话人无关的决策门限更加鲁棒。基于NIST2002说话人识别评测库上的实验表明,采用SCMVN的特征规整和ZTnorm的评分规整方法能够明显地提高系统性能。与采用倒谱均值减和零规整的基线系统相比,等错误率和最小检测代价分别降低了20.3%和18.1%。  相似文献   

18.
半监督谱聚类特征向量选择算法   总被引:7,自引:0,他引:7  
对于一个K类问题,Ng-Jordan-Weiss(NJW)谱聚类算法通常采用数据规范化亲和度矩阵的前K个最大特征值对应的特征向量作为数据的一种表示。然而,对于某些模式识别问题,这K个特征向量不一定能够体现原始数据的结构。文中提出一种半监督谱聚类特征向量选择算法。该算法利用一定量的监督信息寻找能够体现数据结构的特征向量组合,进而获得优于传统谱聚类算法的聚类性能。UCI标准数据集和MNIST手写体数据集上的仿真实验验证该算法的有效性和鲁棒性。  相似文献   

19.
A Context for Constraint Satisfaction Problem Formulation Selection   总被引:2,自引:0,他引:2  
Much research effort has been applied to finding effective ways for solving constraint satisfaction problems. However, the most fundamental aspect of constraint satisfaction problem solving, problem formulation, has received much less attention. This is important because the selection of an appropriate formulation can have dramatic effects on the efficiency of any constraint satisfaction problem solving algorithm.In this paper, we address the issue of problem formulation. We identify the heuristic nature of generating a good formulation and we propose a context for this process. Our work presents the research community with a focus for the many elements which affect problem formulation and this is illustrated with the example adding redundant constraints. It also provides a significant step towards the goal of automatic selection of problem formulations.  相似文献   

20.
数据标记的难以获取使得跨领域适应成为一种有效的途径.然而情感分类具有较强的领域依赖性,利用传统的特征选择方法在原始领域构建的特征空间不能体现领域间的共性,难以适用于目标领域.为此,提出一种面向跨领域情感分类的特征选择方法(LLRTF),利用对数似然比选取在原始领域富有判别力的特征,并通过对照两个领域的统计信息,选出其中在目标领域影响较大的特征.基于该方法构建的公共特征空间,能减少领域间数据分布的差异.实验结果表明,LLRTF优于基准算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号