小程序
微信小程序
人工客服
回顶部

基于支持向量机回归与K_最近邻法的组合预测用于除草剂QSAR建模

刘翔 | -> | 800| 0| 0.232311MB |支持向量机回归,K-最近邻法,组合预测,定量构效关系

刘翔 刘翔 | 文档量 |浏览量8693

摘 要: 为了提高定量构效关系( Q SAR )研究的预测精度, 发展了一种基于支持向量机回归( SVR )与K-最近邻法( KNN )的组合预测方法: 以均方误差(MSE )最小为原则, 基于SVR 实施核函数寻优; 基于M SE 最小原则与最优核函数以SVR 进行描述符筛选并得到保留描述符; 通过/ 多轮末尾强制淘汰法0揭示各保留描述符对预测精度的影响程度; 从保留描述符出发, 以不同KNN 预测值反映样本集异质性并构建子模型, 然后基于SVR以留一法实施组合预测。运用该组合预测方法研究苯乙酰胺类除草剂Q SAR建模, 结果表明: 基于SVR 与KNN 的组合预测方法在参比模型中预测精度最高, 具结构风险最小、非线性、能有效克服过拟合、泛化推广能力优异等优点, 在QSAR 研究中具有广泛的应用前景。
    定量构效关系( Q uan titative structure-activ ityre lationsh ip, Q SAR )是研究化合物分子结构与其生物活性之间规律性关系的重要手段, 已在药物设计中被普遍采用[ 1] 。Q SAR 研究中常用的、基于经验风险最小的数学模型如多元线性回归、逐步线性回归、主成分回归、偏最小二乘回归等对高维、非线性、小样本问题的解析能力有限[ 2] , 人工神经网络( ANN )虽然对非线性问题有良好的解析能力, 但易陷入局部极小, 且收敛速度慢[ 3] 。
    基于统计学习理论( Statist ica l learn ing theo ry,SLT ) 的支持向量机( Suppo rt vecto r m ach ines,SVM )较好地解决了小样本、非线性、高维数、局部极小值等实际问题。SVM 结构风险最小, 包括分类( Support v ector c la ssif ication, SVC ) 和回归( Support v ec tor reg ression, SVR ) , 其中SVR 更适用于QSAR 研究[ 4~ 8] 。由于SVR采用留一法时训练样本的选取是基于全局的, 其预测结果往往并非最优且计算量较大; 而K-最近邻法(K-nea restne ighbo r, KNN )只选取K 个训练样本, 理论上更能反映样本集的异质性并有较优的预测精度与较小的计算开销, 但先验地给出每个待测样本的最优K值相当困难。B ates等证明: 将两种无偏的单项预测进行组合, 能够得到优于每个单项预测的预测结果[ 9] , 即把各子模型的预测结果组合在一个模型中进行预测的方法能提高预测精度。基于以上因素, 笔者构建了一种基于SVR 与KNN 的组合预测新方法, 并在苯乙酰胺类除草剂对莎草科植物萤蔺Scirpus junco ides 的抑制活性的Q SAR 研究中进行了应用, 同时与逐步线性回归( SLR )、基于正交最小二乘法的径向基函数网( OL S-RB FN )、基于二次多项式的循环子空间回归( Q-C SR )、采用遗传算法优化的径向基-循环子空间回归( EGARBF-C SR) 等模型[ 10] 进行了比较, 结果令人满意。
刘翔发布的其他共享资料
    0 色谱币 下载

基于支持向量机回归与K_最近邻法的组合预测用于除草剂QSAR建模

(232.311K)

所需色谱币: 0

您持有: $userGold色谱币,完成任务赚取色谱币

立即下载

友情链接(联系QQ:47140047)
关于我们  经营理念  业务合作  联系我们  法律声明  网站建议  网站导航  帮助中心
Copyright © 色谱世界 版权所有 陇ICP备2024006362号-2