首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
分类是数据挖掘和数据分析中最有应用价值的技术之一。传统的积极学习方法需要预先对模型空间进行假设,并且没有充分考虑到实例之间的相关性,其泛化能力将会受到一定程度的影响。针对上述问题,提出了一种基于新型映射关系的局部加权回归方法 MLWR。该算法首先找出测试样本在训练集中的近邻样本,然后建立测试样本和近邻样本的回归函数,根据建立的回归模型和近邻样本的标签,计算得到测试样本的标签。实验与当前流行的多种分类方法在UCI的9个数据集上进行测试。实验结果表明我们的方法能有效地提高分类精度,对较大样本数据也有较好的适用性。  相似文献   

2.
结合粗糙集与支持向量回归进行油藏物性参数预测   总被引:1,自引:0,他引:1  
为了更准确的预测油藏物性3个重要参数:孔隙度,渗透率、饱和度,提出了结合粗糙集属性约简和支持向量机回归的方法.首先用粗糙集理论对测井数据样本属性进行约简,从而选出决策属性,构成新的样本数据.然后用支持向量回归理论对数据样本进行训练,建立支持向量回归模型,并且对测试样本进行预测.实验结果表明,该方法获得了较好的拟舍结果,并且减少了支持向量机在训练中的计算复杂度,提高了物性参数预测的准确率.执行该方法可为油藏开发提供决策依据.  相似文献   

3.
参数选择是支持向量分类、回归分析的关键问题之一,在大训练样本条件下,大范围遍历搜索极为耗时.将均匀设计(UD)分别与自调用支持向量回归(SVR)、偏最小二乘回归(PLR)结合,提出了两种将大样本搜索转化为小样本搜索的策略UD-SVR和LID-PLR:在默认搜索范围内由均匀设计产生部分参数组合,每组合对训练集经交叉测试得评价指标(对分类为准确率,对回归为均方误差);以评价指标为目标函数,对部分参数组合形成的小样本,UD-SVR自调用支持向量回归以留一法进行大范围搜索建模,UD-PLR以PLR直接建模,并预测默认范围内所有参数组合;取预测评价指标最优的对应参数组合训练大样本,完成独立预测.对8个基准分类教据集、8个回归数据集的独立预测表明,两种新方法在保证预测精度的同时,大幅度缩短了训练建模时间,为大样本支持向量机参数选择提供了新的有效解决方案,UD-SVR比UD-PLR更具鲁棒性.  相似文献   

4.
基于粗糙集和神经网络集成的贷款风险5级分类   总被引:3,自引:0,他引:3  
建立了粗糙集与神经网络集成的贷款风险5级分类评价模型,该模型首先利用自组织映射神经网络离散化财务数据并应用遗传算法约简评价指标;基于最小约简指标提取贷款风险5级分类判别规则以及对BP神经网络进行训练;最后使用粗糙集理论判别与规则库匹配的检验样本风险等级,使用神经网络判别不与规则库任何规则匹配的检验样本风险等级.利用贷款企业数据库698家5级分类样本进行实证研究,结果表明,粗糙集与神经网络集成的判别模型预测准确率达到82.07%,是一种有效的贷款风险5级分类评价工具.  相似文献   

5.
在多标签分类问题中,通过k近邻的分类思想,构造测试样本关于近邻样本类别标签的新数据,通过回归模型建立在新数据下的多标签分类算法。计算测试样本在每个标签上考虑距离的k近邻,构造出每个样本关于标签的新数据集。对新数据集采取线性回归和Logistic回归,给出基于样本k近邻数据的多标签分类算法。为了进一步利用原始数据的信息,考虑每个标签关于原始属性的Markov边界,结合新数据的特征建立新的回归模型,提出考虑Markov边界的多标签分类算法。实验结果表明所给出的方法性能优于常用的多标签学习算法。  相似文献   

6.
文本表示的高维性会增加文本分类时的计算复杂度。针对该问题,构建基于类邻域字典的线性回归分类模型。采用K近邻方法构造各类别的类邻域字典,根据对测试样本的不同表示,分别提出基于级联类邻域字典和基于类邻域字典的线性回归分类算法。此外,为缓解噪声数据对分类性能的影响,通过度量测试样本与各个类别之间的相关度裁剪噪声类数据。实验结果表明,该模型对长文本和短文本均能够得到较高的分类精度和计算效率,同时,噪声类裁剪策略使其对包含较多类别数的文本语料也具有较好的分类性能。  相似文献   

7.
刘春 《福建电脑》2014,(2):101-103
为了提高网络流量预测精度,提出一种误差校正的网络流量组合预测模型。首先对网络流量数据进行预处理构建网络流量学习样本序列,然后采用自回归移动平均建立网络流量预测模型,并采用神经网络对自回归移动平均预测误差进行校正,最后对模型性能进行仿真测试。结果表明,网络流量组合预测模型提高了网络流量的预测精度,预测结果具有一定实用价值。  相似文献   

8.
提出了一种新的多分类器融合算法。对特征的提取以约简为基础,按照一定的策略添加若干个属性重要度和特征贡献率大的特征,构成一个融合的特征子集空间;接着借助于kNN的思想,计算测试样本的k个最邻近点的类别百分比,为了提高分类精度,引入了样本相似度测度测试样本与k个最邻近点的相似性,通过设置合适的类别百分比和样本相似度的阈值,最终确定测试样本的类别归属。6个UCI标准数据集的实验分析表明,算法是有效的、可行的。详细分析了不同的约简和不同的阈值对分类精度的影响。  相似文献   

9.
从知识发现和数据挖掘的角度,利用粗糙集和支持向量回归机的理论和方法,建立了基于粗糙集和支持向量回归机相结合的供应链绩效预测模型。结合一个供应链绩效预测实例,首先对其基于平衡记分卡的指标体系进行了约简,然后将约简的评价指标输入到支持向量回归机中进行训练,构建预测模型,最后把预测的样本输入到模型中进行供应链绩效预测,预测结果与实际结果基本吻合。  相似文献   

10.
提出基于主成份分析和分类回归树方法(CART)的分类判别法。针对皮肤病学中鳞片状红斑疾病区分诊断的难题,首先利用主成份分析对病例属性进行约简,然后通过构造的分类回归树用于识别不同种类的红斑疾病。实验表明该方法能够准确的对病例进行识别,且达到了相当的精度要求。  相似文献   

11.
冯丹    黄洋  石云鹏  王长忠 《智能系统学报》2017,12(3):371-376
属性约简是粗糙集理论在数据处理方面的重要应用,已有的针对连续型数据的属性约简算法主要集中在基于正域的贪心算法,该方法只考虑了一致样本和其他样本的可辨识性,而忽略了边界样本点间可区分性。为了克服基于正域算法的缺点,提出了连续型数据的辨识矩阵属性约简模型,该模型不但考虑了正域样本的一致性,同时考虑了边界样本的可分性。基于该模型,分析了属性约简结构,定义了辨识矩阵来刻画特征子集的分类能力,构造了实值型数据的属性约简启发式算法,并利用UCI标准数据集进行了验证。理论分析和实验结果表明,提出的算法能够有效地处理连续型数据,提高了数据的分类精度。  相似文献   

12.
针对瓦斯灾害危险性预测中预测性能低的问题,对一种基于矿井内瓦斯浓度与环境因素相关性分析的瓦斯灾害选择集成预测方法进行了研究。首先,分析实验数据中样本属性与瓦斯浓度的相关性,并根据相关性分析结果进行属性约简得到新的数据集;其次,训练基学习器并应用优化集成前序选择方法建立选择集成回归学习模型;最后,将模型应用于瓦斯灾害预测。实验结果表明,基于相关性分析的选择集成回归学习模型对瓦斯灾害危险性的识别率比未进行相关性分析的四个基学习器平均提高了24%,比未进行相关性分析的选择集成回归学习模型提高了7.6%。  相似文献   

13.
在训练数据缺乏的情况下,为了提高支持向量回归机(SVR)对滚动轴承可靠度的预测精度,提出了一种基于威布尔线性回归(WLR)组合可靠度模型结合粒子群人工鱼群-支持向量回归机(PSO-AFS-SVR)的预测方法。首先,使用威布尔统计模型与线性回归(LR)的组合模型作为可靠度模型,利用测量滚动轴承振动信号的加速度计频谱,依据峰值频率分布的变化,分割其性能衰退的各个阶段,对每个阶段单独建模,以便最大程度地挖掘小样本信息;其次,采用k-折交叉验证(k-fold)的平均绝对误差(MAE)和平均相对误差(MAPE)之和作为适应度函数,利用PSO-AFS优化SVR参数,提高其泛化能力和预测精度;最后,采用滚动轴承全寿命周期试验数据进行了验证试验。试验结果表明,所提方法可以对滚动轴承的可靠度进行更准确的预测。  相似文献   

14.
采用基于粗糙集属性约简的支持向量机回归预测模型对我国电力供应量进行预测。根据电力供应量及其影响因素的历史数据建立决策表,利用动态层次聚类法对决策表中的连续属性进行了离散化;运用属性约简算法进行约简,提取出主要因素,并将其作为样本的特征,应用支持向量机回归预测模型对电力供应量进行预测。五年预测结果表明:与SVR模型相比,结合了属性约简方法的RS&SVR模型充分利用了更少但是主要的预测因子的信息,预测精度有一定提高,应用效果较好。  相似文献   

15.
《微型机与应用》2019,(5):48-52
近年来以大数据为中心的人工智能技术得到蓬勃发展,自然语言处理成为了人工智能时代最突出的前沿研究领域之一。然而,在自然语言处理领域的短文本分类中,不同的特征提取方法与机器学习算法集成时,处理效果差异明显。针对短文本分类精度较低的问题,基于组合的方式和预设的评价指标,通过将不同特征提取方法与不同机器学习算法进行组合,探究其在超短文本分类中的效果以寻求最优组合模型进而获得最佳分类效果。实验结果表明,在所选取的四种最优组合方法中,以词频-逆文件频率为特征提取方法、以逻辑回归为算法的组合模型在公开数据集中取得最好的实验效果,精度为92. 13%,查全率为90. 12%,适合应用于超短文本的分类应用场景。  相似文献   

16.
柯孔林 《控制理论与应用》2009,26(12):1365-1370
建立了粗糙集和支持向量机集成的企业贷款违约判别模型,该模型首先利用自组织映射 (SOM)神经网络对具有连续属性值的财务数据进行离散处理,并应用遗传算法约简评价指标,然后将约简得到的最小条件属性集及相应的原始数据送入支持向量机进行训练,最后对企业短期贷款检验样本进行违约判别.采用贷款企业数据库558家制造业样本企业和522家房地产业样本企业进行交叉验证的实证研究,结果表明,与BP神经网络、多元判别分析、Logistic等违约判别模型相比,粗糙集和支持向量机集成的违约判别模型有更好的预测效果.  相似文献   

17.
基于邻域粗糙集的属性约简算法在进行属性约简时只考虑单一属性对决策属性的影响,未能考虑各属性间的相关性,针对这个问题,提出了一种基于卡方检验的邻域粗糙集属性约简算法(ChiS-NRS)。首先,利用卡方检验计算相关性,在筛选重要属性时考虑相关属性之间的影响,在降低时间复杂度的同时提高了分类准确率;然后,将改进的算法与梯度提升决策树(GBDT)算法组合以建立分类模型,并在UCI数据集上对模型进行验证;最后,将该模型应用于预测肝癌微血管侵犯的发生。实验结果表明,与未约简、邻域粗糙集约简等几种约简算法相比,改进算法在一些UCI数据集上的分类准确率最高;在肝癌微血管侵犯预测中,与卷积神经网络(CNN)、支持向量机(SVM)、随机森林(RF)等预测模型相比,提出的模型在测试集上的预测准确率达到了88.13%,其灵敏度、特异度和受试者操作曲线(ROC)的曲线下面积(AUC)分别为87.10%、89.29%和0.90,各指标都达到了最好。因此,所提模型能更好地预测肝癌微血管侵犯的发生,能辅助医生进行更精确的诊断。  相似文献   

18.
针对支持向量机对时变的样本集采用单一模型建模困难的问题,提出了一种新的学习策略.首先,使用自组织映射(SOM)神经网络和k-means聚类算法对初始样本集合进行聚类.然后,针对每个聚类数据集合,通过最优加权组合不同核函数的支持向量回归模型建立最终的模型.实验表明,采用这种学习策略的建模精度要优于单一支持向量回归建模方法.  相似文献   

19.
针对回归测试过程中测试需求不断变更造成的测试用例数量大、测试效率低等问题,提出一种基于关联模式的回归测试用例约简模型。该模型对模块、测试需求及测试用例三者间的关联性进行纵向分析,对测试需求间的关联关系进行横向分析并约简测试需求,进而生成并约简测试用例,实现对修改后的软件进行有效的回归测试。  相似文献   

20.
基于随机森林算法的用电负荷预测研究   总被引:3,自引:0,他引:3  
为了解决当下用电负荷预测精度不高,难以很好模拟实际用电负荷的分布情况而不能对未来的负荷数据进行合理预测的问题,实现了基于随机森林的分类模型、回归模型以及结合Weka的时间序列模型,对某省份的负荷数据进行预测,通过对不同模型的大量的实验及评估,发现这三个模型皆能合理地预测未来的用电负荷数据。此外,在同一评估指标下随机森林算法结合WEKA中的时间序列模型的方法能够较好地预测未来时刻的负荷数据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号