首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 73 毫秒
1.
高维数据特征降维研究综述   总被引:6,自引:2,他引:6  
胡洁 《计算机应用研究》2008,25(9):2601-2606
特征降维能够有效地提高机器学习的效率,特征子集的搜索过程以及特征评价标准是特征降维的两个核心问题。综述国际上关于特征降维的研究成果,总结并提出了较完备的特征降维模型定义;通过列举解决特征降维上重要问题的各种方案来比较各种算法的特点以及优劣,并讨论了该方向上尚未解决的问题和发展趋势。  相似文献   

2.
传统随机森林填补方法并未考虑高维不平衡问题导致填补没有针对性,且使用0值预填补的方式可能会引入噪声并导致预测精度降低,因此提出一种基于Q学习和随机森林的缺失值填补方法(QL-RF).该方法在特征选择后使用Q-learning权衡填补精度和填补数量,通过计算奖励筛选出具有填补价值的样本和特征组合,然后利用冗余特征填补重要特征中的缺失,并重点填补了少数类样本.此外,为提高不平衡数据下的分类效果,基于Bagging框架提出一种融合量子粒子群算法(QPSO)和XGBoost的集成分类模型(QXB).实验表明:QL-RF在G-means、F1-measure、AUC指标下均优于传统RF填补法,QXB显著优于SMOTE-RF和SMOTE-XGBoost,所提方法能够有效地处理高维不平衡数据下的缺失和分类问题.  相似文献   

3.
一种面向高维数据的均分式Lasso特征选择方法   总被引:1,自引:0,他引:1  
Lasso是一种基于一范式的特征选择方法。与已有的特征选择方法相比较,Lasso不仅能够准确地选择出与类标签强相关的变量,同时还具有特征选择的稳定性,因而成为人们研究的一个热点。但是,Lasso方法与其他特征选择方法一样,在高维海量或高维小样本数据集的特征选择容易出现计算开销过大或过学习问题(过拟和)。为解决此问题,提出一种改进的Lasso方法:均分式Lasso方法。均分式Lasso方法将特征集均分成K份,对每份特征子集进行特征选择,将每份所选的特征进行合并,再进行一次特征选择。实验表明,均分式Lasso方法能够很好地对高维海量或高维小样本数据集进行特征选择,是一种有效的特征选择方法。  相似文献   

4.
较大的心理压力对大学生的心理和生理均会产生危害.心理压力往往在前期容易被人忽视,从而导致严重的问题.因此,如果能较早发现心理压力,并进行合理干预,有益于人的身心健康.传统心理压力检测方法以问卷调查和借助专业设备的评估为主,但都存在成本较高,且对被评估对象侵扰较大等不足.另一方面,随着智能手机的快速普及,通过手机中内置的位置、声音、加速度等多种传感器感知用户的行为习惯,并基于感知数据评估用户心理压力成为一种低成本、低侵扰的心理压力评估手段.在此背景下,针对基于智能手机感知数据分析,对评估大学生心理压力的方法展开了研究,从感知数据中提取合理的特征,提出了一种更高效的心理压力评估方法.首先,讨论了如何从原始的手机感知数据提取出合理的特征;其次,介绍将心理压力评估转化为分类问题,并使用半监督学习方法构造分类模型;最后,在开放数据集StudentLife上对上述模型进行实验验证.实现结果表明:该方法在心理压力检测精确度和召回率等方面均优于基线方法.  相似文献   

5.
Lasso方法与其他特征选择一样,对高维海量或高维小样本数据集的特征选择容易出现计算开销过大或过学习问题(过拟合).为解决此问题,提出一种改进的Lasso方法:迭代式Lasso方法.迭代式Lasso方法首先将特征集分成K份,对第一份特征子集进行特征提取,将所得特征加入第二份,再对第二份特征进行特征提取;然后将所得特征加入第三份,依次迭代下去,直到第K份,得到最终特征子集.实验表明,迭代式Lasso方法能够很好地对高维海量或高维小样本数据集进行特征选择,是一种有效的特征选择方法.目前,此方法已经很好地应用在高维海量和高维小样本数据的分类或预测模型中.  相似文献   

6.
特征选择算法是微阵列数据分析的重要工具,特征选择算法的分类性能和稳定性对微阵列数据分析至关重要。为了提高特征选择算法的分类性能和稳定性,提出一种面向高维微阵列数据的集成特征选择算法来弥补单个基因子集信息量的不足,提高基因特征选择算法的分类性能和稳定性。该算法首先采用信噪比方法选择若干区分基因;然后对每个区分基因利用条件信息相关系数评估候选基因与区分基因的相关性,生成多个相关基因子集,最后,通过集成学习技术整合多个相似基因子集。实验结果表明,本文提出的集成特征选择算法的分类性能以及稳定性在多数情况下均优于只选择单个基因子集的方法。  相似文献   

7.
证券市场数据分析与预测,作为一个经典的大数据分析场景,很多数据挖掘方法已经在本领域得到实际应用。但是鉴于企业本身情况的变化以及证券市场的人为操作等情况,现有的各种大数据挖掘方法无法应对不可见或者未出现的情况,为此论文探索使用易经方法,将其应用在证券市场的数据挖掘和分析预测。利用数据挖掘进行特征筛选、数据降维,通过滑动时间窗、随机森林、三才映射等方法实现传统易经体系中的断卦步骤,将易经概念、规则抽象成算法并对卦辞分类,由解卦算法得出预测值。与先前的预测模型相比,该模型融合易经预测体系与机器学习,充分利用了证券市场的场景特征与历史数据,最终对证券市场平稳、上升、下跌三种发展趋势进行预测。使用10年内股票证券交易公共数据集进行实验,准确率优于SVM、XGBoost等流行的机器学习算法,并在分行业建模中进一步提升了效果。  相似文献   

8.
构建个人信用风险评估模型的过程中, 特征工程很大程度上决定了评估器的性能, 传统的特征选择方法无法全面的考虑高维度指标对评估结果的影响, 且大多数研究在构建模型的过程中人为决定特征集大小, 导致随机性强、可信度低; 基于此, 提出基于传统风控指标优化XGBoost的随机森林模型(IV-XGBoostRF), 将传统风控指标IV与XGBoost相结合对原始特征集进行筛选, 建立较为完善的信用评估模型. 通过对比实验的结果显示改进后的随机森林模型准确度提高了0.90%, 且其他各项评估指标均优于传统信用评估模型, 证明了该组合特征选择方法的可行性, 有一定的应用价值.  相似文献   

9.
软件安全性是衡量软件是否能够抵御恶意攻击的重要性质.在当前互联网环境下,黑客攻击无处不在,因而估计软件中可能含有的漏洞数量与类型,即对软件进行安全评估,变得十分必要.在实际中用户不仅需要对未发布、或者最新发布的软件实施安全性评估,对已发布软件也会有一定的安全评估需求,例如当用户需要从市场上互为竞争的多款软件中作出选择,就会希望能花费较低成本、较为客观地对这些软件进行第三方的评估与比较.本文提出了一种由自然语言数据驱动的智能化软件安全评估方法来满足这一要求,该方法基于待评估软件现有用户的使用经验信息来评估软件的安全性,它首先自适应地爬取用户在软件使用过程中对软件的自然语言评价数据,并利用深度学习方法与机器学习评估模型的双重训练来获得软件的安全性评估指标.由于本文的自适应爬虫能够在反馈中调整特征词,并结合搜索引擎来获得异构数据,因而可通过采集广泛的自然语言数据来进行安全评估.另外,使用一对多的机器翻译训练能有效解决将自然语言数据转换为语义编码的问题,使得用于安全评估的机器学习模型可以建立在自然语言的语义特征基础上.我们进一步在国际通用漏洞披露数据库(CVE)和美国国家漏洞数据库(NVD)上对本文方法进行了实验,结果表明,本文方法在评估软件漏洞数量,漏洞类型,以及漏洞严重程度等指标上十分有效.  相似文献   

10.
周钢  郭福亮 《计算机科学》2021,48(z1):250-254
从集成学习的预测误差分析和偏差-方差分解可以发现使用有限的、具有正确率和差异性的基学习器进行集成学习,具有更好的泛化精度.利用信息熵构建了两阶段的特征选择集成学习方法,第一阶段先按照相对分类信息熵构建精度高于0.5的基特征集B;第二阶段先在B的基础上按互信息熵标准评判独立性,运用贪心算法构建独立的特征子集,再运用Jaccard系数评价特征子集间多样性,选取多样性的独立特征子集并构建基学习器.通过数据实验分析发现,该优化方法的执行效率和测试精度优于普通Bagging方法,在多分类的高维数据集上优化效果更好,但不适用于二分类问题.  相似文献   

11.
运用群决策方法,对随机森林、神经网络、梯度提升树三种算法所生成的个体学习器进行集成,构建基于群决策的P2P借贷信用风险评估模型.选取人人贷、拍拍贷的数据进行实验研究,结果显示,集成模型的风险评估效果较个体学习器有所提升,且优于传统的逻辑回归方法.  相似文献   

12.
支持向量机作为非参数方法已经广泛应用于信用评估领域.为克服其训练高维数据不能主动进行特征选择导致准确率下降的缺点,构建C4.5决策树优化支持向量机的信用评估模型.利用C4.5信息熵增益率方法进行属性选择,减少冗余属性.模型通过网格搜索确定最优参数,使用F-score和平均准确率评价模型性能,并在两组公开数据集上进行验证.实证分析表明,C4.5决策树优化支持向量机的信用评估模型有效减少了数据学习量,较于传统各类单一模型有较高的分类准确率和实用性.  相似文献   

13.
针对个人信用评估中未标号数据获取容易而已标号数据获取相对困难,以及普遍存在的数据不对称问题,提出了基于改进图半监督学习技术的个人信用评估模型。该模型采用了半监督学习技术,一方面能从大量的未标号数据中学习,避免了个人信用评估中已标号数据相对缺乏造成的泛化能力下降问题;另一方面,通过改进图半监督学习技术,对图半监督迭代结果进行归一化及修改决策边界,有效减小了数据不对称的影响。在UCI的三个信用审核数据集上的评测结果表明,该模型具有明显优于支持向量机和改进前方法的评估效果。  相似文献   

14.
为实现对高维混合、不平衡信贷数据中的不良贷款者的准确预测,从降维预处理和分类算法两方面进行优化,提出一种基于混合数据主成分分析(Principal Component Analysis of Mixed Data,PCAmix)预处理的单类[K]近邻[(K]-Nearest Neighbor,[KNN)]计算均值算法。针对传统的主成分分析(Principal Component Analysis,PCA)不能直接处理定性变量的问题,使用PCAmix降维预处理数据,为规避不平衡数据在二分类模型中性能较差的缺点,采用单类分类和[K]近邻算法邻居计算的思想,仅采用多数类训练模型。利用Bootstrap方法找到最佳的决策边界,使得正负样本最大限度地分离,最终准确预测客户的违约风险。采用UCI数据库中的German和Default个人信用评分数据集进行验证,实验结果表明该算法在处理高维混合、不平衡的信贷数据上具有较好的分类效果。  相似文献   

15.
范例推理技术是人工智能领域中一种基于知识的问题求解和学习方法。为了有效评估银行客户信用等级并提高银行信贷业务效率,文中提出了范例推理技术(CBR)在银行客户信用评估中的应用,并给出了基于范例推理的银行客户信用评估系统的原型,介绍了该系统中的关键技术:范例表示、相似性计算和范例检索,研究了归纳学习、特征子集选择等机器学习方法在范例检索中的应用。  相似文献   

16.
随着互联网金融和电子支付业务的高速增长,由此引发的个人信用问题也呈现与日俱增的态势.个人信用预测本质上是不平衡的序列二分类问题,这类问题的数据样本规模大、维度高、数据分布极不平衡.为了高效区分申请者的信用情况,本文提出一种基于特征优化和集成学习的个人信用预测方法 (PL-SmoteBoost).该方法在Boosting集成框架下构建个人信用预测模型,首先利用Pearson相关系数对数据进行初始化分析,剔除冗余数据;通过Lasso选取部分特征来减少数据维度,降低高维风险;通过SMOTE过采样方法对降维数据的少数类进行线性插值,以解决类不平衡问题;最后为了验证算法有效性,以常用的处理二分类问题的算法作为对比方法,采用从Kaggle和微软开放数据库下载的高纬度不平衡数据集对算法进行测试,以AUC作为算法的评价指标,利用统计检验手段对实验结果进行分析.结果表明,相对于其他算法,本文提出的PL-SmoteBoost算法具有显著优势.  相似文献   

17.
信用评估模型的优劣会对信贷机构损益和金融市场秩序产生直接的影响,为提升个人信用评估模型的精度,将集成方法应用到信用评估领域,提出改进DS证据理论的支持向量机集成个人信用评估模型,并将属性约减纳入建模过程中。利用C4.5决策树约减冗余属性,并根据数据集类别标签和支持向量机混淆矩阵,后验概率构造证据理论概率赋值函数。计算基于分类器间支持度的权重与专家权重修正由于训练过程受到干扰而产生的冲突证据。通过DS融合做出最终决策。实证分析探讨了该方法的优越性和可行性,可成为一种有效信用评估工具。  相似文献   

18.
何劲松 《计算机学报》2007,30(2):168-175
允许经验风险不为0是现代模式分类器构造方法区别于传统模式分类器构造方法的标志.为了进一步研究分类器构造观点的变化对模式分类系统所产生的更深入的影响,拓展模式分类系统的学习空间,作者讨论了限制经验风险必须为0的传统模式分类系统在分类性能问题上所受的限制,分析了影响模式分类系统分类性能的关键因素,给出了学习空间可拓展的必要条件,并构造了一种投机学习方法,证明了学习空间可拓展的充分条件.同时,在实验中观察到,分类器评价与测试集上的分类风险是非一致单调的.这一结论对于模式识别及其应用研究是严峻的.  相似文献   

19.
在互联网金融机构有很多信贷业务,部分新开展的业务由于客户数据较少,无法建立有效的信用评分模型.本文研究将迁移学习思想应用到该问题中,利用已有其他业务的客户数据帮助新开展的业务建立有效的信用评分模型.本文提出一种联合Triplet-Loss表征学习和领域适配的深度学习方法对已有业务数据进行重新编码,并将重新编码后所得的知识迁移到新开展业务的模型中,最后使用XGBoost做为分类器.针对上述问题,本文提出的模型相对传统机器学习方法在效果上有一定提升,在一定程度上解决了该问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号