首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 609 毫秒
1.
常见的近红外光谱分析技术,一般将欧式距离作为相似性判据,但是在很多情况下并不能真实体现样本间的相似性;同时,线性回归模型无法克服校正样本集光谱数据中非线性以及样本差异大而导致的精度降低问题。针对上述问题,本文首次将光谱信息散度引入到局部建模算法中,以未知样本光谱与校正样本光谱间的光谱信息散度作为样本相似性判据,选取一定数量与待测样本最相似的校正样本组成局部校正子集,建立局部偏最小二乘模型。为了验证算法的有效性,将现有的全局建模算法、基于样本光谱间欧式距离的局部建模算法与本文提出的基于光谱信息散度的局部建模算法应用于猪肉近红外光谱标准数据集。实验结果表明:本文新方法的预测均方根误差(RMSEP)分别比现有的两种算法降低了22.8%与48.7%,克服猪肉近红外光谱的非线性和差异性,在近红外光谱定量分析领域具有良好的应用前景。  相似文献   

2.
采用1种基于Boosting理论的回归建模算法Boosting-偏最小二乘法(BPLS),建立了奶粉中蛋白质含量的近红外模型.先用Kemard-Stone法构建样本训练集和预测集,继对所有样本的近红外光谱进行中心化处理,用BPLS算法进行建模,并对收缩因子v与迭代次数m这2个重要参数进行了优化,当收缩因子为0.9,迭代次数为882时,所建模型的预测结果最好,预测均方根误差(RMSEP)为0.3159,明显优于偏最小二乘法.结果表明:BPLS算法具有提高模型的预测精度的显著优势,可实现奶粉中蛋白质含量的快速、无损测定.  相似文献   

3.
建立了一种基于独立成分分析的局部建模新方法,该方法首先将独立成分分析(ICA)用于近红外光谱的特征提取,然后,根据所提取的独立成分选择校正集中与预测样本相邻近的样本构成校正子集,建立局部偏最小二乘(PLS)回归模型并对预测样本进行预测。将所提出的方法应用于烟草样品中尼古丁含量的测定,所得结果优于常用的全局建模方法。  相似文献   

4.
随机抽样一致性算法是应用最广泛的鲁棒性基础矩阵估计算法之一.针对随机抽样一致性算法效率低的问题,提出一种基于概率分析的随机抽样一致性算法.该算法减少首次抽样的次数,利用预检验技术确定一个较优的模型子集,通过定义样本属于该较优模型的概率来选择内点概率大的样本子集,并通过多次迭代得到一个只包含内点样本的子集.模拟数据和真实数据的基础矩阵估计实验表明,算法在计算效率和精度上均优于随机抽样一致性算法.  相似文献   

5.
在多标签分类问题中,通过k近邻的分类思想,构造测试样本关于近邻样本类别标签的新数据,通过回归模型建立在新数据下的多标签分类算法。计算测试样本在每个标签上考虑距离的k近邻,构造出每个样本关于标签的新数据集。对新数据集采取线性回归和Logistic回归,给出基于样本k近邻数据的多标签分类算法。为了进一步利用原始数据的信息,考虑每个标签关于原始属性的Markov边界,结合新数据的特征建立新的回归模型,提出考虑Markov边界的多标签分类算法。实验结果表明所给出的方法性能优于常用的多标签学习算法。  相似文献   

6.
针对一些多标签文本分类算法没有考虑文本-术语相关性和准确率不高的问题,提出一种结合旋转森林和AdaBoost分类器的集成多标签文本分类方法。首先,通过旋转森林算法对样本集进行分割,通过特征变换将各样本子集映射到新的特征空间,形成多个具有较大差异性的新样本子集。然后,基于AdaBoost算法,在样本子集中通过多次迭代构建多个AdaBoost基分类器。最后,通过概率平均法融合多个基分类器的决策结果,以此做出最终标签预测。在4个基准数据集上的实验结果表明,该方法在平均精确度、覆盖率、排名损失、汉明损失和1-错误率方面都具有优越的性能。  相似文献   

7.
提出一种基于概率校正和集成学习的机器学习模型,用来预测患者肠癌肝转移的概率。首先将AdaBoost和Class-bal-anced SVM的概率结果进行校正,再将其结果和Logistic回归的预测结果进行集成,获得最终的预测结果。预测模型在复旦大学附属肿瘤医院的肠癌患者数据集上与其他算法如AdaBoost、Class-balanced SVM、Logistic回归算法进行了比较,结果显示该模型具有更好的AUC性能,更适合于医生的临床辅助诊断。模型的AUC性能在UCI数据集上进一步得到了验证。  相似文献   

8.
利用近红外光谱结合化学计量学方法快速检测了药用辅料糊精含量。首先,用近红外光谱仪采集主药与糊精共存样本的近红外光谱数据;然后,采用反向区间偏最小二乘法(Backward Interval Partial Least Squares,Bi PLS)优选光谱特征区间;最后,采用偏最小二乘法(PLS)对优选出来的区间建立药用辅料糊精近红外光谱模型。采用Bi PLS将全光谱均匀划分35个子区间,选择16个子区间[1,7,10,12,18,20,21,23~25,28~33]时,建立的模型预测效果最佳,其交叉验证均方根误差和预测均方根误差分别为1.501和2.437,校正集和验证集相关系数分别为0.9968和0.9958。因此,利用近红外光谱技术快速检测药用辅料糊精含量是可行的。  相似文献   

9.
基于近红外光谱技术,运用偏最小二乘回归(PLSR)方法实现当归中藁本内酯含量的快速、无损检测.采用高效液相色谱(HPLC)法测定当归中藁本内酯含量,一阶导数结合正交信号校正对原始光谱进行预处理,建立当归近红外光谱和藁本内酯含量之间的最小二乘回归定量分析模型.结果表明:模型在校正集上的均方根误差(RMSEE)、交叉验证均方根误差(RMSECV)和决定系数R2分别为0.199 9,0.3489和0.9932,在预测集上的预测均方根误差(RMSEP)和决定系数R2分别为0.23和0.9941.方法具有简单、快速、不破坏样品等特点,可用于当归中藁本内酯含量的快速检测.  相似文献   

10.
赵凯  雷萌 《工矿自动化》2012,38(9):35-38
针对近红外光谱灰分预测模型中样本数据特有的问题,首先采用主成分分析方法剔除建模样本集中的异常样本,并提取出煤炭光谱的特征信息;然后提出一种集成自组织映射神经网络和模糊C均值聚类算法的双层聚类方法,将样本集分为5个子集,并滤除其中的争议点;最后搭建基于GA-BP神经网络的煤炭灰分预测子模型,单独分析各子集的测试集样本。实验结果表明,基于主成分分析和双层聚类方法的煤炭样本优化方法不仅能准确排除异常样本和可疑样本,还能有效地压缩样本数据,使得各子模型的学习精度和运算速度得到显著提高。该方法为近红外光谱煤质分析技术的发展应用提供了一种有效可行的新途径。  相似文献   

11.
Boosting Algorithms for Parallel and Distributed Learning   总被引:1,自引:0,他引:1  
The growing amount of available information and its distributed and heterogeneous nature has a major impact on the field of data mining. In this paper, we propose a framework for parallel and distributed boosting algorithms intended for efficient integrating specialized classifiers learned over very large, distributed and possibly heterogeneous databases that cannot fit into main computer memory. Boosting is a popular technique for constructing highly accurate classifier ensembles, where the classifiers are trained serially, with the weights on the training instances adaptively set according to the performance of previous classifiers. Our parallel boosting algorithm is designed for tightly coupled shared memory systems with a small number of processors, with an objective of achieving the maximal prediction accuracy in fewer iterations than boosting on a single processor. After all processors learn classifiers in parallel at each boosting round, they are combined according to the confidence of their prediction. Our distributed boosting algorithm is proposed primarily for learning from several disjoint data sites when the data cannot be merged together, although it can also be used for parallel learning where a massive data set is partitioned into several disjoint subsets for a more efficient analysis. At each boosting round, the proposed method combines classifiers from all sites and creates a classifier ensemble on each site. The final classifier is constructed as an ensemble of all classifier ensembles built on disjoint data sets. The new proposed methods applied to several data sets have shown that parallel boosting can achieve the same or even better prediction accuracy considerably faster than the standard sequential boosting. Results from the experiments also indicate that distributed boosting has comparable or slightly improved classification accuracy over standard boosting, while requiring much less memory and computational time since it uses smaller data sets.  相似文献   

12.
Schapire and Singer's improved version of AdaBoost for handling weak hypotheses with confidence rated predictions represents an important advance in the theory and practice of boosting. Its success results from a more efficient use of information in weak hypotheses during updating. Instead of simple binary voting a weak hypothesis is allowed to vote for or against a classification with a variable strength or confidence. The Pool Adjacent Violators (PAV) algorithm is a method for converting a score into a probability. We show how PAV may be applied to a weak hypothesis to yield a new weak hypothesis which is in a sense an ideal confidence rated prediction and that this leads to an optimal updating for AdaBoost. The result is a new algorithm which we term PAV-AdaBoost. We give several examples illustrating problems for which this new algorithm provides advantages in performance. Editor: Robert Schapire  相似文献   

13.
基于结构化类比思想,提出针对时间序列的预测算法SAP-TS。通过类比建立条件概率分布,解决了以往概率模型在此时遭遇的精度问题、空间问题或缺值问题,使用综合置信指标在预测的同时评估预测准确性。在预测PTA共沸精馏塔塔顶醋酸含量的工程应用中,SAP-TS的预测精度高于目前实际使用的广义回归神经网络算法。误差分析表明其综合置信指标对预测准确性的评估是有效的。  相似文献   

14.
A local boosting algorithm for solving classification problems   总被引:1,自引:0,他引:1  
Based on the boosting-by-resampling version of Adaboost, a local boosting algorithm for dealing with classification tasks is proposed in this paper. Its main idea is that in each iteration, a local error is calculated for every training instance and a function of this local error is utilized to update the probability that the instance is selected to be part of next classifier's training set. When classifying a novel instance, the similarity information between it and each training instance is taken into account. Meanwhile, a parameter is introduced into the process of updating the probabilities assigned to training instances so that the algorithm can be more accurate than Adaboost. The experimental results on synthetic and several benchmark real-world data sets available from the UCI repository show that the proposed method improves the prediction accuracy and the robustness to classification noise of Adaboost. Furthermore, the diversity-accuracy patterns of the ensemble classifiers are investigated by kappa-error diagrams.  相似文献   

15.
武静雯  江凌云  刘祥军 《计算机应用研究》2021,38(10):3131-3136,3142
针对在网络切片场景下以往的VNF(虚拟网络功能)资源分配策略无法满足动态的资源需求,很容易导致资源分配不足或过度分配的问题,提出了一种基于两阶段算法(two-stage algorithm,TSA)的VNF资源需求预测方法.该方法首先基于数据特征筛选出与预测目标高度相关的候选特征集,然后利用贪婪式前向搜索策略对候选特征集进一步筛选获得最优特征集,最终训练出不同类型的预测模型.仿真结果表明,基于该方法所训练的模型可以获得更好的预测性能,同时该方法的可扩展性较好,训练好的模型可以直接集成到现有的VNF部署算法中应用.  相似文献   

16.
张君昌  樊伟 《计算机工程》2011,37(8):158-160
为提高传统AdaBoost算法的集成性能,降低算法复杂度,提出2种基于分类器相关性的AdaBoost算法。在弱分类器的训练过程中,加入Q统计量进行判定。每个弱分类器的权重更新不仅与当前分类器有关,而且需要考虑到前面的若干分类器,以有效降低弱分类器间的相似性,剔除相似特征。仿真结果表明,该算法具有更好的检测率,同时可降低误检率,改进分类器的整体性能。  相似文献   

17.
基于邻域粗糙集的属性约简算法在进行属性约简时只考虑单一属性对决策属性的影响,未能考虑各属性间的相关性,针对这个问题,提出了一种基于卡方检验的邻域粗糙集属性约简算法(ChiS-NRS)。首先,利用卡方检验计算相关性,在筛选重要属性时考虑相关属性之间的影响,在降低时间复杂度的同时提高了分类准确率;然后,将改进的算法与梯度提升决策树(GBDT)算法组合以建立分类模型,并在UCI数据集上对模型进行验证;最后,将该模型应用于预测肝癌微血管侵犯的发生。实验结果表明,与未约简、邻域粗糙集约简等几种约简算法相比,改进算法在一些UCI数据集上的分类准确率最高;在肝癌微血管侵犯预测中,与卷积神经网络(CNN)、支持向量机(SVM)、随机森林(RF)等预测模型相比,提出的模型在测试集上的预测准确率达到了88.13%,其灵敏度、特异度和受试者操作曲线(ROC)的曲线下面积(AUC)分别为87.10%、89.29%和0.90,各指标都达到了最好。因此,所提模型能更好地预测肝癌微血管侵犯的发生,能辅助医生进行更精确的诊断。  相似文献   

18.
Mannor  Shie  Meir  Ron 《Machine Learning》2002,48(1-3):219-251
We consider the existence of a linear weak learner for boosting algorithms. A weak learner for binary classification problems is required to achieve a weighted empirical error on the training set which is bounded from above by 1/2 – , > 0, for any distribution on the data set. Moreover, in order that the weak learner be useful in terms of generalization, must be sufficiently far from zero. While the existence of weak learners is essential to the success of boosting algorithms, a proof of their existence based on a geometric point of view has been hitherto lacking. In this work we show that under certain natural conditions on the data set, a linear classifier is indeed a weak learner. Our results can be directly applied to generalization error bounds for boosting, leading to closed-form bounds. We also provide a procedure for dynamically determining the number of boosting iterations required to achieve low generalization error. The bounds established in this work are based on the theory of geometric discrepancy.  相似文献   

19.
机器学习方法可很好地与软件测试相结合, 增强测试效果, 但少有学者将其运用于测试数据生成方面. 为进一步提高测试数据生成效率, 提出一种结合SVM (support vector machine)和XGBoost (extreme gradient boosting)的链式模型, 并基于此模型借助遗传算法实现多路径测试数据生成. 首先, 利用一定样本训练若干个用于预测路径节点状态的子模型(SVM和XGBoost), 通过子模型的预测精度值筛选最优子模型, 并根据路径节点顺序将其依次链接, 形成一个链式模型C-SVMXGBoost (chained SVM and XGBoost). 在利用遗传算法生成测试用例时, 使用训练好的链式模型代替插桩法获取测试数据覆盖路径(预测路径), 寻找预测路径与目标路径相似的路径集, 对存在相似路径集的预测路径进行插桩验证, 获取精确路径, 计算适应度值. 在交叉变异过程中引入样本集中路径层级深度较大的优秀测试用例进行重用, 生成覆盖目标路径的测试数据. 最后, 保留进化生成中产生的适应度较高的个体, 更新链式模型C-SVMXGBoost, 进一步提高测试效率. 实验表明, C-SVMXGBoost较其他各对比链式模型更适合解决路径预测问题, 可提高测试效率. 并且通过与已有经典方法相比, 所提方法在覆盖率上提高可达15%, 平均进化代数也有所降低, 在较大规模程序上其降低百分比可达65%.  相似文献   

20.
翟俊海  张素芳  王聪  沈矗  刘晓萌 《计算机应用》2018,38(10):2759-2763
针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法。首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布。然后,将无类别标签的大数据集划分为l个子集,并部署到l个云计算节点上。在每一个节点,用训练出的分类器并行地计算各个子集中样例的信息熵,并选择信息熵大的前q个样例进行类别标注,将标注类别的l×q个样例添加到有类别标签的训练集中。重复以上步骤直到满足预定义的停止条件。在Artificial、Skin、Statlog和Poker 4个数据集上与基于ELM的主动学习算法进行了比较,结果显示,所提算法在4个数据集上均能完成主动样例选择,而基于ELM的主动学习算法只在规模最小的数据集上能完成主动样例选择。实验结果表明,所提算法优于基于极限学习机的主动学习算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号