首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 953 毫秒
1.
应用ChemOffice 8.0中的MOPAC-PM3算法计算得到多溴联苯醚(PBDEs)的6个量子化学参数,采用基于多项式核,径向基核及Sigmoid核的支持向量机(SVM)方法建立了23种PBDEs蒸汽压的QSPR模型.三类核函数对训练集拟合的相关系数R2分别为0.994,0.996,0.994.,均方误差MSE分别为0.0102,0.0081,0.0095;留一法交叉验证(LOO)的相关系数分别为0.992,0.991,0.991.对测试集进行同归的相关系数分别为0.994,0.986,0.991,均方误差MSE分别为0.0225,0.0458,0.0247.结果表明SVM回归算法在PBDEs蒸汽压的QSPR建模上表现出色,核函数的选择对SVM模犁性能影响不显著.文章还从模型拟合效果、预测能力及稳定性三方面比较了三类核函数的整体性能,并比较了支持向量数目对核函数预测能力的影响.结果表明多项式核与Sigmoid核性能相当,优于径向基核.  相似文献   

2.
以2D-autocorrelation描述符为结构参数,采用PSO和逐步回归的方法进行变量筛选,再结合SVM等机器学习算法对28种苯丙烯盐类化合物对EBV-EA病毒的抑制性活性进行定量构效关系(QSAR)研究.研究结果表明,PSO-v-SVM模型具有最优的模型稳健性和预测效果.由PSO选入的构成该模型的5个2D-autocorrelation描述符为ATS5v,ATS6e,ATS8e,ATS3p,GATS5p;该模型对训练集的拟合和留一法交叉验证结果的相关系数R~2和q_(cv)~2分别为0.986和0.930,对测试集预测结果的相关系数R~2_(ext)达0.955.对5个变量的理化意义的分析表明,极化率、Van der Waals体积和电负性对苯丙烯盐类化合物的抑制性活性影响分别约占57.13%、15.90%和26.97%.  相似文献   

3.
针对采用传统算法建立煤矿突水预测模型存在训练速度慢、泛化能力差、测试精度不高等问题,提出了一种将PCA与ELM相结合的煤矿突水预测方法,并利用该方法建立了煤矿突水预测模型。该方法以煤矿突水历史数据为样本,利用PCA得到煤矿突水主控因素,将仅包含主控因素的样本数据划分为训练集、验证集和测试集;然后把训练样本作为ELM的输入,对模型进行训练;最后利用样本数据验证模型。实验结果表明,相较于传统算法,该方法输入变量少,建模和运算时间短,模型的运行速度和预测精度较高。  相似文献   

4.
基于遗传算法的支持向量机预测含能材料密度的研究   总被引:4,自引:2,他引:2  
基于遗传算法(genetic algorithm,GA)的变量筛选和支持向量机(support vector machine,SVM),提出了一种改进的定量结构-性质相关(quantitative structure detonation relationship,QSPR)建模方法——遗传-支持向量机(GA-SVM),并用其建立含能材料的定量结构-爆轰性能关系(QSDR)模型,此外还应用标准SVM方法建立了QSDR模型,并用这2种模型进行呋咱系含能化合物密度的预测,随机选取85%化合物作为训练集,用来建立模型,其余化合物作为测试集来测试模型的预测能力。预测结果的交互检验的相关系数平方分别为0.9887和0.9885,平均相对误差分别为1.16%和2.12%,表明了2种建模方法的有效性。通过对2种模型的预测能力进行比较,GA-SVM方法建立的QSDR模型能更好地预测呋咱系含能化合物的密度,更利于实际应用。  相似文献   

5.
有效预测La_xM_(1-x-z)R_zMn_yN_(1-y)O_3型新钙钛矿材料的居里温度对于指定居里温度的材料设计至关重要。本工作构建了基于支持向量机的QSPR模型,用以预测La_xM_(1-x-z)R_zMn_yN_(1-y)O_3型钙钛矿材料的居里温度。在13个描述符中筛选出5个描述符来进行建模。建模过程中采用前进法从13个分子描述符中筛选出了5个影响该材料居里温度的主要分子描述符。为了得到优化的建模结果,运用粒子群算法进行了一个参数优化,设置参数ε=0.006,C=6.450,Rbf gamma=1.741。研究结果表明,所建模型的均方根误差RMSE、平均相对误差MRE、计算值与实际值的相关系数R分别为6.82,2.36%和0.991。在留一法交叉验证结果中,均方根误差(RMSE)为20.796,平均相对误差(MRE)为7.35%,计算值与实际值的相关系数(R)为0.92。利用随机抽取的外部测试集样本对所建支持向量回归模型进行检验,得到的居里温度预报的平均相对误差为2.36%。因此,支持向量回归模型能有效预测La_xM_(1-x-z)R_zMn_yN_(1-y)O_3型钙钛矿材料的居里温度,有望在指定居里温度的材料设计研究工作中得到进一步应用。  相似文献   

6.
针对支持向量机SVM分类效率低下的问题,提出一种基于层次K-均值聚类的支持向量机HKSVM(Hierarchical K-means SVM)学习模型。该方法首先对每类样本分别进行K-均值聚类,计算每类中心并训练SVM,得到初始分类器;然后根据超平面与聚类结果的关系,将聚类所得结果划分为活动类集和静止类集,并对超平面附近的活动类集进行深层聚类,以得到更小的类别同时计算类中心来训练新的SVM模型,并校正分类超平面,如此循环往复,直到得到较为精确的分类器为止。采用基于层次K-均值聚类的SVM模型,通过对活动类集进行不断地深层次聚类,从而在分类超平面附近得到较多样本点,而在距离超平面较远处则取少量训练样本,以有效压缩训练集规模,在保持SVM训练精度的同时大幅度提高其学习效率。标准数据集上的实验结果表明,HKSVM方法在大规模数据集上同时得到了较高的分类效率和测试精度。  相似文献   

7.
针对支持向量机分类器的行人检测方法采用欠采样方法,存在正负行人比例不平衡造成的准确率不高问题,结合欠采样和EasyEnsemble方法,提出一种聚合支持向量机(Ensemble SVM)分类器的行人检测方法。随机选择负样本作为初始训练样本,并将其划分为与正样本集均衡的多个子负样本集,构建平衡子训练集,线性组合成EasyEnsemble SVM分类器;利用该分类器对负样本进行分类判断,将误判样本作为难例样本,重新划分构建新的平衡子训练集,训练子分类器,结合EasyEnsemble SVM分类器,得到Ensemble SVM分类器行人检测方法。在INRIA行人数据集上的实验表明,该方法在检测速度和检测率上都优于经典的SVM行人检测算法。  相似文献   

8.
基于SVR算法的环模制粒机输出预测   总被引:1,自引:0,他引:1  
在简化环模制粒机模型的基础上确定了输入输出变量。将实验测得的数据样本分为训练集和测试集,运用SVR算法建立了SVM模型,预测了环模制粒机的输出,并在Matlab中实现。均方根误差MSE和平方相关系数R都在允许的范围内,取得了良好的预测效果。  相似文献   

9.
基于支持向量学习机预测药物透血脑屏障的活性   总被引:1,自引:1,他引:0  
为了预测药物透血脑屏障的活性,计算表征分子组成和拓扑等特征的87个分子描述符,经遗传算法筛选,参与建立基于支持向量学习机(SVM)的药物透血脑屏障活性分类模型.在模型训练中用网格搜索法确定核函数的两个重要参数C和γ,同时用5重交叉验证模型,结果证明模型预测能力较高,交叉验证的预测正确率达85.6%.  相似文献   

10.
正则化路径上三步式SVM贝叶斯组合   总被引:1,自引:0,他引:1  
模型组合旨在整合并利用假设空间中多个模型提高学习系统的稳定性和泛化性.针对支持向量机(support vector machine,SVM)模型组合多采用基于样本采样方法构造候选模型集的现状,研究基于正则化路径的SVM模型组合.首先证明SVM模型组合Lh-风险一致性,给出SVM模型组合基于样本的合理性解释.然后提出正则化路径上的三步式SVM贝叶斯组合方法.利用SVM正则化路径分段线性性质构建初始模型集,并应用平均广义近似交叉验证(generalized approximate cross-validation,GACV)模型集修剪策略获得候选模型集.测试或预测阶段,应用最小近邻法确定输入敏感的最终组合模型集,并实现贝叶斯组合预测.与基于样本采样方法不同,三步式SVM贝叶斯组合方法基于正则化路径在整个样本集上构造模型集,训练过程易于实现,计算效率较高.模型集修剪策略可减小模型集规模,提高计算效率和预测性能.实验结果验证了正则化路径上三步式SVM模型组合的有效性.  相似文献   

11.
选取了258个苯酚类化合物的生物毒性数据,通过软件ADMEWORKS Model Builder的计算,选出7个结构描述符作为样本的结构参数,用稳健诊断方法剔除24个奇异样本,分别采用K最近邻方法和K均值聚类方法对剩余的234个样本数据进行分类,对分好的每一个类分别随机选择外部测试集,并用球型排除算法划分训练集和内部测试集,然后运用多元线性回归(Multiple Linear Regression,MLR)、偏最小二乘(Partial Least Squares,PLS)和人工神经网络(Artificial Neural Networks,ANN)方法进行预测模型的建立,计算结果表明,非线性模型的预测结果优于线性模型,有管理的分类方法(K nearest neighbors method,KNN)的预测结果优于无管理的分类方法(K均值聚类法)。  相似文献   

12.
高光谱散射图像的特征提取是影响模型精度的重要因素。本文对600个'Golden Delicious'苹果样本的高光谱散射图像进行分析,分别采用平均反射法和小波变换提取特征。小波变换以Danbechies小波系的Db1函数作为基函数进行1层和2层小波分解,然后选取小波低频系数的一范数作为特征值。利用Kennard-Stone算法划分样本,450个样本用于建模,150的样本用于预测。不同方法提取的特征值输入结合偏最小二乘(PLS)算法建立苹果内部品质的预测模型。结果表明1层小波变换特征提取方法与平均反射(mgan reflectance,Mean)特征提取方法相比能将硬度的预测集相关系数从0.797提高到0.821,预测集均方根误差保持不变;糖度的预测集相关系数从0.837略微提高到0.842并降低了预测集均方根误差。因此小波变换为高光谱散射图像提供了一种有效的特征提取方法。  相似文献   

13.
目前客户流失预测任务中常用的模型集成方法采用传统机器学习模型作为基学习器。而传统机器学习模型相比于深度学习模型,存在无法对时序数据进行有效建模、特征工程对模型效果影响较大等缺点。针对这些问题,提出基于LSTM的模型集成方法。采用LSTM作为基学习器进行时序数据建模;改进snapshot模型集成方法,增加样本权重调整方法,在训练单个LSTM模型的过程中得到多个具有不同权值的模型;利用得到的多个模型构造新数据集,在新数据集上训练逻辑回归模型。实验结果表明,该方法相比于单模型LSTM,可以在仅花费其1.8倍训练时间的前提下,将查准率和PR-AUC分别提升4.67%和3.74%,显著提高了客户流失预测效果。  相似文献   

14.
本文建立了2个180个含苯基的羧酸类化合物酸碱解离常数(pKa)的定量预测模型。这些化合物分子量在122.12到288.34的范围内,包含H,C,N,O,S,F,Cl,Br及I等元素.使用Cerius~2程序计算236个分子描述符来表述这些化合物,并使用统计学方法从中选择了12个描述符.分别使用多元线性回归分析(MLR)及支持向量机回归(SVM)结合10重交互检验方法来预测pKa数值.多元线性回归模型对pKa的预测结果相关系数为0.90,标准偏差为0.32;支持向量机模型结果较好,相关系数为0.91,标准偏差为0.31.  相似文献   

15.
建立预测类黄酮化合物抑制恶性疟原虫株活性定量的模型,并确定影响类黄酮化合物活性的主要因素。本文选用了38个结构不同的类黄酮化合物作为数据集,采用多元线性同归法及主成分分析法分析每个化合物的220个分子参数,建立最优的预测模型。比较用不同方法建立的模型,结果发现带logP参数的向后筛选法为最优方法,所建模型统计结果良好(训练集相关系数R~2=0.81,标准训练误差SEE=0.27),模型代入检验集数据时结果也令人满意(检验集相关系数R~2=0.83,标准检验误差SEP=0.39),可靠性和预测性较强。脂水分配系数的对数logP为模型重要影响参数。建模和确定影响因素有助于筛选新型类黄酮抗疟疾药物和研发。  相似文献   

16.
本文收集了环烷烃类、环烯烃类、酮类、胺类、醚类、酯类等有机物在固定相角鲨烷和SE-30上的气相色谱保留指数,并采用基于Monte Carlo采样的模型集群分析(Monte Carlo sampling model population analysis,MCS MPA)方法进行了定量结构-色谱保留指数相关关系建模方法的比较研究。对于两种固定相上的有机化合物,分别采用不同的分子描述符予以表征,分子描述符的选择基于统计学与遗传算法。采用的建模方法包括多元线性回归(multivariate linear regression,MLR)、支持向量机回归(support vector machine,SVM)、径向基函数人工神经网络方法(radial basis function artificial neural networks,RBF ANN),通过所建模型预测了独立外部测试样本的气相色谱保留指数。研究结果表明,对于本文所研究的数据,SVM回归方法的建模效果优于MLR与RBF ANN方法。  相似文献   

17.
采用分子电性距离矢量(MEDV)描述子表征多氯代二苯并二(口惡)(口英)(PCDDs),结合基于预测的变量选择和建模方法(VSMP),从MEDV中挑选出1-2个描述子,对不同固定相下PCDDs的气相色谱保留值建立定量线性模型。结果表明MEDV分子描述子对分子结构具有很好的分辨能力。利用VSMP方法挑选的MEDV描述子很好表达了描述子与气相色谱保留值之间的相关关系,所建立的模型相关系数(R)均大于0.98,留一法交互检验的相关系数(q)均大于0.97;并均匀挑选2/3有实验数据的异构体作为训练集,余下的1/3作为检验集,进行了变量挑选、建模,结果表明,挑选的变量与用全部已知样本建模时一致,最后对没有实验值的异构体进行了预测。  相似文献   

18.
采用以MLR为基学习器的Boosting算法模型,对79种硫代氨基甲酸酯类衍生物做抗HIV-1逆转录酶抑制活性的QSAR研究。以E-Dragon软件计算的7组描述符分别为自变量,以化合物的半数效应浓度EC_(50)值为因变量构成7个原始数据集,用PSO算法筛选变量并建立MLR模型。各描述符建立的MLR模型中仅有RDF描述符模型同时通过外部预测和内部验证,故确定以其建立关于硫代氨基甲酸酯类衍生物抗HIV-1逆转录酶抑制活性的Boosting-MLR预测模型。Boosting-MLR模型与MLR模型相比,训练结果的决定系数R~2分别为0.728和0.741,预测结果R~2则分别为0.718和0.667,表明其泛化能力明显增强。对Boosting-MLR模型进一步进行稳定性验证,证明其预测稳定性较高。  相似文献   

19.
基于支持向量机和k-近邻分类器的多特征融合方法   总被引:1,自引:0,他引:1  
陈丽  陈静 《计算机应用》2009,29(3):833-835
针对传统分类方法只采用一种分类器而存在的片面性,分类精度不高,以及支持向量机分类超平面附近点易错分的问题,提出了基于支持向量机(SVM)和k 近邻(KNN)的多特征融合方法。在该算法中,设样本集特征可分为L组,先用SVM算法根据训练集中每组特征数据构造分类超平面,共构造L个;其次用SVM KNN方法对测试集进行测试,得到由L组后验概率构成的决策轮廓矩阵;最后将其进行多特征融合,输出最终的分类结果。用鸢尾属植物数据进行了数值实验,实验结果表明:采用基于SVM KNN的多特征融合方法比单独使用一种SVM或SVM KNN方法的平均预测精度分别提高了28.7%和1.9%。  相似文献   

20.
采用衍生于结构特征和非氢原子连接关系的23维拓扑指数代表链烷烃,并将该指数递交到多元线性回归用于建立临界温度预测模型。为了得到稳定的模型,采用两种方法(M5法与贪心算法)进行变量选择,并采用所得变量子集建立数学模型。所得结果显示:对于最好模型的测试集,相关系数的平方是R~2=0.9924;平均绝对误差是MAE=2.2532K。若将沸点实验值加入链烷烃描述符,则测试集的MAE值显著地降低。基于这些令人满意的结果,我们开展了外延预测研究。将碳原子数n≤9的链烷烃分入训练集,而C_(10)H_(22)(n=10)的同分异构体分入测试集,则所得测试集的MAE=3.6867K。若将八分之一的C_(10)H_(22)的同分异构体加到训练集用于建立模型,并预测余下的C_(10)H_(22)同分异构体,结果显示测试集的MAE值明显下降,即所得到的外推结果令人满意。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号