首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
基于统计相关性的变量选择用于麻痹性贝毒素的QSAR研究   总被引:1,自引:1,他引:0  
使用27种麻痹性贝毒素中的1751种分子结构描述符和其半数致死浓度建QSAR模型,采用基于统计相关性的变量选择(Correlation-based Feature Selection,CFS)法选择变量,并使用交叉验证法检验变量子集,最后从1751种分子结构描述符中,筛选出43种与目标值关系极密但内部关系较低的变量.用主成分分析法压缩变量集的维度,提取10种主成分作为新的变量建QSAR模型.模型的相关系数R2为0.891,交叉验证系数q2为0.809,表明模型拟合效果和预测能力良好.用"Jackknife法"检验模型的稳定性,有88.9%的相关系数R落在0.94和0.95之间,说明模型稳健性和可靠性较强.结果,基于统计相关性的变量选择法非常适合从成百上千种变量中筛选,它在消除无关变量的同时也能消除重复变量,有利于数据的处理,在QSAR建模中应用前景广阔.  相似文献   

2.
具有多非线性和多未建模动态系统的鲁棒绝对稳定性   总被引:1,自引:0,他引:1  
研究了同时具有多个扇形非线性环节和多个未建模动态的多变量系统的鲁棒绝对 稳定性.用带有Popov乘子的线性分式变换模型对线性和非线性不确定性进行了统一处理. 得到了系统的鲁棒绝对稳定性判据,并将这一判据的计算化为凸优化问题,最后给出了计 算示例.  相似文献   

3.
工业过程数据中缺失值处理方法的研究   总被引:1,自引:0,他引:1  
针对工业生产中过程数据的缺失问题,首次提出了运用多重填补方法处理工业过程的缺失数据.阐述了常用的缺失数据处理方法,指出各方法的优缺点.在此基础上,通过建立回归模型,针对多变量工业数据中缺失值较少和较多时的两种情况,分别用删除含缺失值的个案,简单填补和多重填补(MI)3种方法对数据进行处理,利用处理后的新数据集进行数据挖掘,预测目标变量的值,并对预测结果进行分析比较.实验结果表明,多重填补方法的处理效果最好,为工业数据的缺失值处理提供了有用的策略.  相似文献   

4.
数据组合处理方法(GMDH)是20世纪70年代发展起来的一种启发式自组织建立模型的方法;它能充分地、合理地利用数据,自动进行变量组合,筛选以及判断从而得到合适的模型;简单介绍了该方法建模的基本原理和算法实现,给出了仿真算例,并与用相同资料建立的PPR预测模型的预测结果进行了比较;仿真结果表明,用GMDH方法建立非线性系统模型,具有预测精度高、计算稳定性好等优点。  相似文献   

5.
提出了一种可以解决SVM分类算法中的多重共线性问题的因子分析方法。因子分析的核心是用较少的互相独立的因子反映原有变量的绝大部分信息,它既能大大减少参与数据建模的变量个数,简化支持向量机结构,减少支持向量机分类过程中的复杂度和运算量,同时不会改变样本的分布特性,保持样本的分类信息。实验结果表明,通过因子分析对样本数据的处理,使用3个因子代替7个原始变量,原始变量间的多重共线性问题得到了很好的解决。  相似文献   

6.
针对蒸发器离线建模方法对变量运行工况范围要求较大的问题,利用K-means算法对辨识模型的观测数据进行聚类筛选处理,提出一种基于数据的蒸发器在线建模方法。首先利用DB准则和PSO算法提出K-means算法中最优分类数K*和最优初始聚类中心的确定方法,提高算法的收敛速度,并使用改进的K-means算法获得各簇聚类中心来代替辨识模型的观测数据,减少模型辨识的数据量。然后利用已有的蒸发器模型结构以及模型辨识方法,对模型进行辨识。实验结果表明:利用聚类筛选前、后的观测数据所辨识的模型精度基本相当,分别在±3%和±3.5%以内。最后利用在线观测数据到各聚类中心欧氏距离的分析判断,提出蒸发器的在线建模方法。该方法可以先采用小工况范围的少量离线数据辨识模型,再利用在线数据修正模型参数,扩大模型的适用范围。  相似文献   

7.
小波变换-偏最小二乘法用于柴油近红外光谱分析   总被引:1,自引:4,他引:1  
为了提高近红外光谱分析精度和速度,需要分别对近红外光谱扣除背景、降低噪音和优选变量等预处理,其过程稍嫌烦琐,本文提出用小波变换-偏最小二乘法(PLS)。该方法利用小波变换提取光谱变量,利用PLS将光谱变量和柴油性质进行关联,建立模型。利用该方法能够分析柴油的诸多性质,分析精度与传统处理方法(微分-PLS)基本一致。该方法具有预处理简单、优选参数少、建模变量少等特点,能够大大简化建模过程、提高建模和分析速度。  相似文献   

8.
维数约简作为机器学习的经典问题之一,主要用于处理维数灾问题、帮助加速算法的计算效率和提高可解释性以及数据可视化.传统的维数约简算法如主成分分析(Principal component analysis,PCA)和线性判别分析等只能处理无标签数据或者分类数据.然而,当预测变量为一元或多元连续型实值变量时,这些处理无标签数据或分类数据的维数约简方法则不能形成有效的预测性能.近20年来,有一系列工作从多个角度对这一问题展开了研究,并取得了系统性的研究成果.在此背景下,本文将综述这些面向回归问题的降维算法,即实值多变量维数约简.本文将介绍与实值多变量维数约简密切相关的基本概念、算法、理论,并探讨一些潜在的研究方向.  相似文献   

9.
有混合数据输入的自适应模糊神经推理系统   总被引:1,自引:0,他引:1  
现有数据建模方法大多依赖于定量的数值信息,而对于数值与分类混合输入的数据建模问题往往根据分类变量组合建立多个子模型,当有多个分类变量输入时易出现子模型数据分布不均匀、训练耗时长等问题.针对上述问题,提出一种具有混合数据输入的自适应模糊神经推理系统模型,在自适应模糊推理系统的基础上,引入激励强度转移矩阵和结论影响矩阵,采用基于高氏距离的减法聚类辨识模型结构,通过混合学习算法训练模型参数,使数值与分类混合数据对模糊规则的前后件参数同时产生作用,共同影响模型输出.仿真实验分析了分类数据对模型规则后件的作用以及结构辨识算法对模糊规则数的影响,与其他几种混合数据建模方法对比表明本文所提出的模型具有较高的预测精度和计算效率.  相似文献   

10.
针对多元线性回归分析法预测双语教学态度误差较大的问题,通过引入变量的平方项及交叉乘积项建立拟线性回归方程,利用交互式逐步回归分析法对变量进行筛选,并以筛选后的变量建模。将调查数据分为建模样本数据和测试样本数据,测试结果表明经过变量扩维及筛选所建立的预测模型精确度有较大提高,为语言学研究提供了一种新方法,值得推扩和借鉴。  相似文献   

11.
宋贺达  周平  王宏  柴天佑 《自动化学报》2016,42(11):1664-1679
高炉炼铁是一个物理化学反应复杂、多相多场耦合的大滞后、非线性动态系统,其关键工艺指标——铁水质量参数的检测、建模和控制一直是冶金工程和自动控制领域的难题.本文提出一种面向控制的数据驱动高炉炼铁多元铁水质量非线性子空间建模方法.首先,为了提高建模效率和降低计算复杂度,采用数据驱动典型相关性分析与相关性分析相结合的方法提取与铁水质量相关性最强的关键可控变量作为建模的输入变量;同时,为了更好地反映高炉非线性动态特性,将相关输入输出变量的时序和时滞关系在建模过程进行考虑;最后,采用基于最小二乘支持向量机(Least square support vector machine,LS-SVM)的非线性Hammerstein系统子空间辨识方法建立数据驱动的多元铁水质量非线性状态空间模型.同时,将核函数表示的模型非线性特性用多项式函数拟合,在仅损失很小模型精度的前提下大大降低模型的计算复杂度.基于实际数据的工业试验验证了所提建模方法的准确性、有效性和先进性.  相似文献   

12.
一种适合用于处理中药指纹图谱数据的偏最小二乘法   总被引:6,自引:3,他引:3  
中药指纹图谱数据具有变量数很大而样本数较小的特点,本文中采用拉格朗日求极值的方法导出一种新的适合用于处理这类数据的偏最小二乘算法。结果表明:所得到新的算法,在处理中药指纹图谱数据时,与传统的偏最小二乘算法比较,节省存储单元,计算量小,计算速度快,因而计算效率高。  相似文献   

13.
气温的预测要考虑多重气象因子,然而各气象因子间的多重相关性导致普通的多元回归模型失真,预测精度降低。为了解决以上问题,本研究采用偏最小二乘回归(Partial Least Squares Regression,简称PLS)建模,根据实际建模需要对算法进行改进。为了验证该模型,本研究以成都市10月份气温场为预报场,并结合成都市13个自动站气温数据,提取预报所需主要因子,进行PLS回归建模。实验表明该模型有较好的预测能力。  相似文献   

14.
Data-driven soft sensors have been widely used in both academic research and industrial applications for predicting hard-to-measure variables or replacing physical sensors to reduce cost. It has been shown that the performance of these data-driven soft sensors could be greatly improved by selecting only the vital variables that strongly affect the primary variables, rather than using all the available process variables. In this work, a comprehensive evaluation of different variable selection methods for PLS-based soft sensor development is presented, and a new metric is proposed to assess the performance of different variable selection methods. The following seven variable selection methods are compared: stepwise regression (SR), partial least squares with regression coefficients (PLS-BETA), PLS with variable importance in projection (PLS-VIP), uninformative variable elimination with PLS (UVE-PLS), genetic algorithm with PLS (GA-PLS), least absolute shrinkage and selection operator (Lasso), and competitive adaptive reweighted sampling with PLS (CARS-PLS). Their strengths and limitations for soft sensor development are demonstrated by a simulated case study and an industrial case study.  相似文献   

15.
A new approach for eliminating the redundant variables in the multivariable data matrix encountered in QSAR studies, minor latent variable perturbation (MLVP)-PLS method has been proposed. In the latent variable (LV) space, the minor latent variables (LVs) with small covariances are mainly formulated by linear combinations of the redundant variables including information-deficient and highly correlative ones, while the major LVs with large covariances are mainly contributed by the informative variables. Deleting a minor LV, which is equivalent to a perturbation for LV space, could make the redundant variables not well be represented in LV subspace, leading to strong variation of their PLS regression coefficients. The informative variables could still be normally represented in LV subspace with the PLS regression coefficients remaining relatively stable. MLVP-PLS utilizes this fact to discriminate the informative and redundant variables. It gradually identifies and eliminates the redundant variables according to the relative variation of PLS regression coefficients after perturbations are given. The elimination process is terminated according to some proposed criteria. Applying the method to the quantitative structure-activity relationship (QSAR) studies on TIBO derivatives as potential anti-HIV drugs has demonstrated the feasibility and robustness of the proposed approach. A deeper insight into the effect of different structural parameters on the bio-activity of TIBO derivatives has been reached.  相似文献   

16.
A new approach for the estimation and the validation of a structural equation model with a formative-reflective scheme is presented. The basis of the paper is a proposal for overcoming a potential deficiency of PLS path modeling. In the PLS approach the reflective scheme assumed for the endogenous latent variables (LVs) is inverted; moreover, the model errors are not explicitly taken into account for the estimation of the endogenous LVs. The proposed approach utilizes all the relevant information in the formative manifest variables (MVs) providing solutions which respect the causal structure of the model. The estimation procedure is based on the optimization of the redundancy criterion. The new approach, entitled redundancy analysis approach to path modeling (RA-PM) is compared with both traditional PLS Path Modeling and LISREL methodology, on the basis of real and simulated data.  相似文献   

17.
系统的状态检测过程中,各影响因子之闻往往存在着多重相关性,给回归建模分析带来许多负面影响,采用偏最小二乘(PLS)回归建模分析可以很好地解决这个问题.在简述PLS原理的基础上,结合系统状态检测仿真数据,建立系统的状态检测的PLS模型,分别验证PLS回归预测模型用于多个自变量对单个因变量和多个自变量对多个因变量的回归模型...  相似文献   

18.
偏最小二乘(Partial least square,PLS)是一种基于数据驱动可以处理多个因变量对多个自变量的回归建模方法,因其具有提取质量相关信息的特性,在质量相关复杂工业过程监控中得到广泛的应用,成为近几十年复杂工业过程故障检测和诊断领域的研究热点.对此,介绍线性、非线性、动态PLS模型及其故障检测技术.首先,介绍标准PLS模型,在此基础上对传统PLS模型进行细化分并指出其优缺点,针对标准PLS存在的两个问题以及工业过程数据的两种极端情况,从数据预处理类、多空间类和分块类三方面梳理线性PLS模型的发展和改进历程;其次,将非线性PLS模型扩展方法分为两类,重点介绍核函数非线性PLS模型的研究现状;再次,指出动态扩展方法的两种基本思路,对PLS动态模型进行分类,阐明动态特性的成因,从本质上揭示两种动态扩展方法的原理,按照分类综述动态PLS模型的发展现状;最后,指出该领域亟需解决的问题和未来研究方向.  相似文献   

19.
间歇制浆蒸煮过程是一个复杂的物理化学过程,蒸煮过程的各变量之间的关系是本质非线性的。文章应用蒸煮过程各变量的定性知识对过程数据进行变换,经过变换后的数据之间的关系的非线性程度得到降低,因而线性PLS建模方法也能较好地应用,避免了因采用非线性PLS算法而引起的复杂计算和稳定性分析。PLS方法不仅能见到主导变量和辅助变量之间的外部关系,还能看到因子之间的内部关系。对实际蒸煮过程数据的应用表明,该软测量方法是有效的。  相似文献   

20.
以一个流程产品结构为实例,用统计方法对其进行建模研究。基于经验数据分别运用逐步回归和偏最小二乘回归方法建立了两个产品结构模型,通过分析模型对变量的解释能力,讨论了所建模型的质量。指出对数据量不充足和有噪声的流程产品结构,采用偏最小二乘法进行回归分析建模,能够最大限度地反映变量的有用信息,去除噪声,并且对变量有较好的适应性,可以得到更能够反映对象真实特性和符合实际规律的数学模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号