首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
特征选择方法与算法的研究   总被引:1,自引:0,他引:1  
特征选择的主要思想是通过去除一些包含少量或不相关的信息的特征去选择特征子集。特征选择方法可分为三大类:一是过滤式,二是封装式,三是嵌入式。鉴于目前存在大量的特征选择算法,为了能够适当地决定在特定的情况下使用哪种算法,需要提出可以依赖或判定的标准。文中的主要工作就是综述一些基本特征选择算法,根据文献中已有的理论和实验结果对特征选择方法和算法进行比较分类,然后提出一种可以依赖或判定的标准。  相似文献   

2.
特征选择的主要思想是通过去除一些包含少量或不相关的信息的特征去选择特征子集。特征选择方法可分为三大类:一是过滤式,二是封装式,三是嵌入式。鉴于目前存在大量的特征选择算法,为了能够适当地决定在特定的情况下使用哪种算法,需要提出可以依赖或判定的标准。文中的主要工作就是综述一些基本特征选择算法,根据文献中已有的理论和实验结果对特征选择方法和算法进行比较分类,然后提出一种可以依赖或判定的标准。  相似文献   

3.
基于覆盖算法的垃圾邮件过滤   总被引:2,自引:0,他引:2  
电子邮件系统分类的正确性与风险性是评价邮件系统好坏的关键因素,邮件过滤是文本分类问题的一种特殊应用.将神经网络中的覆盖算法引入到邮件过滤中,结合多种特征降维方法进行邮件分类实验,并与SVM方法进行了比较.给出一个结合覆盖算法、合适的特征选择与降维方法的分类器,可以实现较好的效果.另外,根据垃圾邮件过滤在实际使用中的最小风险性的要求,从风险角度分析了覆盖算法对测试样本进行分类时的过程.根据分析结果提出对其拒识样本的处理过程进行改进,通过改变非垃圾邮件所属覆盖的影响范围降低了垃圾邮件过滤时的风险.  相似文献   

4.
杨柳  李云 《计算机应用》2021,41(12):3521-3526
K-匿名算法通过对数据的泛化、隐藏等手段使得数据达到K-匿名条件,在隐藏特征的同时考虑数据的隐私性与分类性能,可以视为一种特殊的特征选择方法,即K-匿名特征选择。K-匿名特征选择方法结合K-匿名与特征选择的特点使用多个评价准则选出K-匿名特征子集。过滤式K-匿名特征选择方法难以搜索到所有满足K-匿名条件的候选特征子集,不能保证得到的特征子集的分类性能最优,而封装式特征选择方法计算成本很大,因此,结合过滤式特征排序与封装式特征选择的特点,改进已有方法中的前向搜索策略,设计了一种混合式K-匿名特征选择算法,使用分类性能作为评价准则选出分类性能最好的K-匿名特征子集。在多个公开数据集上进行实验,结果表明,所提算法在分类性能上可以超过现有算法并且信息损失更小。  相似文献   

5.
特征选择是模式识别和机器学习领域的重要问题。针对目前Filter和Wrapper方法,以及传统二阶段组合式方法存在的缺陷,提出了一种双重过滤式特征选择方法FSTPF,并在三个国际公认数据集和一个盾构隧道施工实时数据集上进行了验证测试。实验结果表明,FSTPF算法降维效果好,且获得的优化特征子集的分类准确率得到了提高。  相似文献   

6.
针对多维数据集,为得到一个最优特征子集,提出一种基于特征聚类的封装式特征选择算法。在初始阶段,利用三支决策理论动态地将原始特征集划分为若干特征子空间,通过特征聚类算法对每个特征子空间内的特征进行聚类;从每个特征类簇里挑选代表特征,利用邻域互信息对剩余特征进行降序排序并依次迭代选择,使用封装器评估该特征是否应该被选择,可得到一个具有最低分类错误率的最优特征子集。在UCI数据集上的实验结果表明,相较于其它特征选择算法,该算法能有效地提高各数据集在libSVM、J48、Nave Bayes以及KNN分类器上的分类准确率。  相似文献   

7.
特征选择是高维数据降维的一种关键技术。传统数据降维技术如PCA,只是转化数据的表达形式,不能表达数据的相关程度。近年来提出信息度量方法,使用评价函数表示数据的不确定性程度,虽然能较好地体现数据之间的相关程度,但并没有充分考虑选取的特征对整个样本空间的影响。针对传统方法的不足,提出一种基于贝叶斯和谐度特征选择算法。贝叶斯和谐度来自贝叶斯阴阳和谐学习理论,可以估计整个数据空间的联合概率分布,选取的特征能够较好地反应整个样本空间的变化。根据和谐度的变化来度量类之间的相似度从而得到冗余度较低的特征组合。与传统方法如ReliefF、FCBF等比较后发现,在取同样特征个数的情况下,和谐度度量得到的特征组合对数据分类更有效。  相似文献   

8.
针对传统垃圾邮件过滤问题中采用单一特征选择方法不能够有效提取训练集中全部重要特征或提取结果存在特征冗余的问题,提出一种基于多种特征选择方法融合的垃圾邮件过滤模型SF_FSF(Spam filtering based on feature selection fusion)。SF_FSF方法通过引入信息融合的概念,将特征选择看成一个决策问题,采用基于平均投票法的信息融合模型进行特征选择结果的融合,以提取垃圾邮件数据集中的重要特征,获得优秀的过滤能力。实验结果表明,SF_FSF方法比基于单一特征选择的垃圾邮件过滤方法得到了更好的过滤结果。  相似文献   

9.
维度灾难是机器学习任务中的常见问题,特征选择算法能够从原始数据集中选取出最优特征子集,降低特征维度.提出一种混合式特征选择算法,首先用卡方检验和过滤式方法选择重要特征子集并进行标准化缩放,再用序列后向选择算法(SBS)与支持向量机(SVM)包裹的SBS-SVM算法选择最优特征子集,实现分类性能最大化并有效降低特征数量.实验中,将包裹阶段的SBS-SVM与其他两种算法在3个经典数据集上进行测试,结果表明,SBS-SVM算法在分类性能和泛化能力方面均具有较好的表现.  相似文献   

10.
基于PCA的特征选择算法   总被引:1,自引:1,他引:0  
在人脸识别的某些应用中,最好能够找到原始特征的关键子集,减少不必要的特征计算和资源耗费,而不是得到所有原始特征的映射.主成分分析法(Principal Components Analysis,PCA)是目前比较常用的人脸识别算法,PCA将人脸图像映射到能很好地表征训练图像集的特征脸空间中,但是基于PCA的人脸识别的缺陷在于原始空间所有的特征都映射到了低维特征窄间中,是基于最佳描述性特征子集.提出了一种新的基于PCA的特征选择方法,将特征选择与特征抽取相结合,对特征脸空间再进行特征选择,选择人脸原始特征集中最关键的特征,并将其应用在基于PCA的人脸识别中.  相似文献   

11.
人脸特征自适应选取技术   总被引:3,自引:1,他引:3  
如何选取并提取稳定可靠的人脸特征是人脸识别技术中迫切需要解决的问题,文中在对现有特征提取方法的优缺点进行详细分析的基础上,提出人脸特征自适应选取算法框架,详细论述了如何建立并提取人脸特征自适应选取的准则,该算法在100多幅人脸图像实验中效果理想。  相似文献   

12.
针对垃圾邮件过滤,首先对获取的垃圾邮件及合法邮件进行分词,预处理,构建文本矢量,然后用四种常用的特征词提取方法进行矢量降维,再在此基础上,给出了一种综合性的特征词提取算法,即按照各个评估函数的排序结果,取它们交集的前n个特征词作为候选词进行分类测试,仿真比较了各个算法中n对分类结果的影响,从而验证了该算法的有效性。  相似文献   

13.
Fisher Score (FS)是一种快速高效的评价特征分类能力的指标,但传统的FS指标既无法直接应用于多标记学习,也不能有效处理样本极值导致的类中心与实际类中心的误差。提出一种结合中心偏移和多标记集合关联性的FS多标记特征选择算法,找出不同标记下每类样本的极值点,以极值点到该类样本的中心距离乘以半径系数筛选新的样本,从而获得分布更为密集的样本集合,以此计算特征的FS得分,通过整体遍历全体样本的标记集合中的每个标记,并在遍历过程中针对具有更多标记数量的样本自适应地赋以标记权值,得到整体特征的平均FS得分,以特征的FS得分进行排序过滤出目标子集实现特征选择目标。在8个公开的多标记文本数据集上进行参数分析及5种指标性能比较,结果表明,该算法具有一定的有效性和鲁棒性,在多数指标上优于MLNB、MLRF、PMU、MLACO等多标记特征选择算法。  相似文献   

14.
Incremental Feature Selection   总被引:6,自引:3,他引:6  
Feature selection is a problem of finding relevant features. When the number of features of a dataset is large and its number of patterns is huge, an effective method of feature selection can help in dimensionality reduction. An incremental probabilistic algorithm is designed and implemented as an alternative to the exhaustive and heuristic approaches. Theoretical analysis is given to support the idea of the probabilistic algorithm in finding an optimal or near-optimal subset of features. Experimental results suggest that (1) the probabilistic algorithm is effective in obtaining optimal/suboptimal feature subsets; (2) its incremental version expedites feature selection further when the number of patterns is large and can scale up without sacrificing the quality of selected features.  相似文献   

15.
黄国宏  刘刚 《微机发展》2008,18(5):227-230
针对现有的基于Fisher准则的线性特征提取方法存在的不足,提出了一种新的加权Fisher特征提取方法。该方法通过引入一个加权函数来削弱边缘类别的影响,减少投影空间中相邻类别间的重叠,提高了识别正确率。针对小样本问题,也给出了该算法的一个可行的最优判别矢量集的求解方法。分别对COIL图像数据库以及ORL人脸数据库进行实验,结果表明,就识别率而言,该方法得到的最优判别矢量具有更好的特征提取能力。  相似文献   

16.
基于Fisher准则和特征聚类的特征选择   总被引:2,自引:0,他引:2  
王飒  郑链 《计算机应用》2007,27(11):2812-2813
特征选择是机器学习和模式识别等领域的重要问题之一。针对高维数据,提出了一种基于Fisher准则和特征聚类的特征选择方法。首先基于Fisher准则,预选出鉴别性能较强的特征子集,然后在预选所得到的特征子集上对特征进行分层聚类,从而最终达到去除不相关和冗余特征的目的。实验结果表明该方法是一种有效的特征选择方法。  相似文献   

17.
提取稳定且具有判别性的低维特征是模式识别研究中的关键问题。在深入研究Fisher判别准则的基础上,从因子分析的实际角度考虑,提出基于因子分析的判别准则,解决Fisher判别准则类内和类间散布矩阵非最优定义问题。通过在合成数据集和真实人脸数据集上进行实验比较表明,该方法在解决数据集中的边缘类和人脸的表情、姿态变化等问题上比Fisher判别准则更优。  相似文献   

18.
特征选择技术能有效解决维数灾难问题,许多搜索策略已经被应用到特征选择问题中。针对和声特征选择算法搜索能力低下的问题,提出了一种基于全局自适应调距的和声特征选择算法(HSFS-GPA)。将特征集的距离定义引入到特征选择问题中,在算法搜索过程中结合全局信息对随机产生的新和声进行调整,以一定概率减小候选和声与当前最优和声的距离来加快算法搜索速度,或减少候选和声与最差和声的距离以避免陷入局部最优;同时,采用竞争选择方案随时更新和声库全局信息,改进和声库的更新机制提高算法搜索质量。将HSFS-GPA与原始和声特征选择算法、粒子群算法和遗传算法进行对比实验,HSFS-GPA所选特征子集的大小比原始和声算法减少15%,子集评价值平均提高到0.98。实验结果表明,HSFS-GPA能在相同的条件下搜索到更优质的特征子集。  相似文献   

19.
冯宗翰  吴小俊 《计算机工程》2011,37(17):136-139
提出一种将迹比准则和基于错分区域的+L-R方法相结合的特征选择算法.该算法使用迹比算法得到优秀特征子集,对分类产生的错分区域进行+L-R选择得到新特征,新特征可以区分之前被错分的数据,从而降低错分率.采用+L-R算法降低数据冗余.实验结果表明,该算法有效改进迹比准则特征选择算法,同时降低错分率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号