您好,欢迎来到宝玛科技网。
搜索
您的当前位置:首页基于改进支持向量机的快速稳健代理模型研究

基于改进支持向量机的快速稳健代理模型研究

来源:宝玛科技网
Computer Engineering andApplications计算机工程与应用 2015,51(7) 7 基于改进支持向量机的快速稳健代理模型研究 刘玉琳 ,陈文亮 , 鲍益东 ,丁力平 LIU Yulin ,CHEN Wenliang ,BAO Yidong ,Ding Liping 1.安徽工业大学数理学院,安徽马鞍山243032 2.南京航空航天大学机电学院,南京210016 1.School ofMathematics and Physics,Anhui University ofTechnology,Ma’anshan,Anhui 243032,China 2.College of Mechanical Engineering,Nanjing University ofAeronautics and Astronautics,Nanjing 2 1 00 1 6,China LIU Yulin,CHEN Wenliang,BAO Yidong,et a1.Fast and robust surrogate model research based on improved sup- port vector machine.Computer Engineering andApplications,2015,51(7):7-11. Abstract:Surrogate model based on Least Squares Suppo ̄Vector Machine(LS-SVM)has preferable generalization ability and powerful non—linear expression ability,but LS-SVM is very sensitive to outliers which are inevitable in actual projects. Traditional Weighted Least Squares Suppo ̄Vector Machine(WLS-SVM)often has the problem of over fitting,and it does not consider the regression error distribution characteristic.Aiming at these problems,normal distribution probability density function weighted method is presented,and the median value of regression error is selected as criteria for computing weighted value in order to improve the weighted algorithm robustness.Moreover,fast recursive algorithm for iteratively weighted LS-SVM is proposed.Matrix relation is utilized in this fast algorithm for iteratively recursive calculation,which can reduce computation and save modeling time.Lastly,the results of numerica1 regression experiment validate the feasibility and effectiveness of this method. Key words:robust;surrogate model;Weighted Least Squares Suppoa Vector Maehine(WLS—SVM);outliers 摘要:最小二乘支持向量机代理模型具有较好的泛化能力和强大的非线性处理能力,但其对实际工程中不可避免 的异常样本十分敏感,而传统的加权最小二乘支持向量机易产生过度拟合并且未考虑到回归误差分布特性,针对这 一问题提出正态分布概率密度函数加权方法,并且采用回归误差的中值作为计算权值的衡量标准,增强了加权算法 的稳健性;提出了迭代加权最小二乘支持向量机快速递推算法,利用矩阵关系进行迭代递推计算,减少了计算量,节 约了建模时间。通过数值实例验证了该方法的可行性、有效性。 关键词:稳健;代理模型;加权最小二乘支持向量机;异常样本 文献标志码:A 中图分类号:TG302 doi:10.3778 ̄.issn.1002.8331.1409.0147 l 引言 优化算法的技术瓶颈。基于代理模型的优化方法是求 “代理模型”即通过建立输入参数和输出响应的函数 解大规模非线性问题最有希望的方法之一 ,鉴于其高 关系,将未知的物理黑箱问题转化为显示的数学描述。 效性,广泛应用于工程优化领域。如果能够高效建立稳 代理模型技术可以通过少量的计算,构建能够反映系统 健的代理模型,很多大规模工程问题便可以迎刃而解。 物理实质的数学模型,解决了传统的优化算法和启发式 主流的代理模型技术,如多项式响应面、Kringing 基金项目:国家自然科学基金(No.51105200);国家自然科学基金天元基金(No.11326088);校青年科研基金(No.QZ201320);校质 量工程项目(No.003538)。 作者简介:刘玉琳(1981一),女,博士研究生,讲师,主要从事稳健优化方向的研究;陈文亮(1966一),男,博士,教授,主要从事 CAD/CAE方向的研究;鲍益东(1976一),男,博士,副教授,主要从事CAD/CAE方向的研究;丁力平(1980一),男,博 士,讲师,主要从事CAD/CAE方向的研究。E—mail:liuyulin@nuaa.edu.ca 收稿日期:2014-09.15 修回日期:2014—12.05 文章编号:1002.8331(2015)07—0007.05 CNKI网络优先出版:2014.12-11,http://www.cnki.net/kcms/detail/11.2127.TP.20141211.1528.055.html 8 Computer Engineering andApplications计算机工程与应用 插值、神经网络、径向基插值等 ,多数建立在经验风险 最小化准则之上,导致丧失了推广能力,难以反映研究目 望为med{e }的正态分布概率密度函数确定权值方法。 在此基础上,提出了迭代加权最小二乘支持向量机快速 递推算法,利用矩阵关系进行迭代递推计算,减少计算 量,节约迭代最小二乘支持向量机训练时间。 标的实质和特性。支持向量机(Support Vector Machine, SVM)是由Vapnik 提出的一种基于小样本统计学习理 论和结构风险最小化的建模方法,具有坚实的理论基 础,较好的泛化能力及强大的非线性和高维处理能力。 Suykens等 提出最小二乘支持向量机(Least Squares Support Vector Machine,LS—SVM),选择误差平方和作 2改进加权最小二乘支持向量机 2.1加权最小二乘支持向量机 为了增强LS—SVM的稳健性,给定一个由1个样本数 为损失函数,用等式约束代替不等式约束,将求解过程 据组成的训练集{xf,Y },x ∈R ,Yf∈R, 1,2,…,f。 转变成一组等式方程,避免了求解耗时的二次规划 (Quadratic Programming,QP)问题,使求解速度加快。 LS.SVM在工程领域得到了广泛的应用[sqo],但LS—SVM 在简化计算的同时,也丧失了解的稀疏性和稳健性等 优点。 在实际工程中,样本采集是一个容易受环境条件和 人为操作等不确定因素影响的过程。因此,训练样本中 难免会混入少量和大多数正常样本差异显著的异常样 本。LS—SVM对异常样本的存在十分敏感,通常存在一 个或几个异常样本就会很大程度地破坏模型的特性。 为了增强LS.SVM的稳健性,Suykens等人提出了加权 LS—SVM(Weighted Least Squares Suppo ̄Vector Ma— chine,WLS—SVM)算法来减少异常样本对回归机的负 面影响””;包鑫对Suykens等人提出了加权算法进行了 改进 ;Zhang和Guo提出重加权算法,通过对样本进行 重加权,逐步减少异常样本的影响,修正回归机的估计 值” ;赵永平等提出了基于滚动窗思想的最小二乘支持 向量机稳健模型构建方法 ;张淑宁等人提出了鲁棒最 小二乘支持向量回归机算法,通过引入鲁棒学习来获得 鲁棒估计u 1;Shim等人采用模糊聚类来实现最小二乘支 持向量机稳健回归 。上述加权方法仅根据回归误差 确定权值,采用“误差大相应的权值小,误差小相应的权 值大”原则,没有考虑到用于建模的样本的分布不均匀 性。但由于采用自适应的建模方法,建模数据信息会重 复出现在某些局部区域,用于建模的样本具有冗余的特 性。因此,模型会对某些特殊点(如“拐点”等)的表达不 明显,削弱了某些特殊点对回归模型的贡献,回归模型 易产生过拟合现象。并且上述加权方法本质均假设回 归误差e 服从均值为0的正态分布。如果样本点集合 中没有异常样本存在,该假设是正确的。然而,由于异 常样本分布的影响,特别是异常样本点数量较多时,假 设样本误差e 均值为0是不稳健的。 针对WLS.SVM传统加权方法易产生过度拟合及 未考虑到回归误差分布特性问题,本文提出基于数学期 在LS.SVM算法的基础上对误差变量e.进行加权,得到 最优化问题: l arinJ(w, ) 1wT + 1 y vie …s.t.Y = T ( )+b+Pf,i=1,2,…,, (1) 其中W∈R 是权值向量,非线性映射 ( ):R 是 将输入数据映射到高维特征空间的函数,误差变量 e ∈R,偏置值b∈R,y>0为惩罚系数,v,∈R为加权系 数,用于调节各样本点在模型中所起的作用。式(1)的 最优化问题可变换到对偶空间加以解决,得到Lagrange 函数: , L(w,6,P,d)= ( ,P)一∑ ff=1 { ( )+易+P -y }(2) 其中Lagrange乘子6[.∈R。对各变量求偏导,并令它们 等于0。 l =0 = ( 嚣_(】 一 ㈦ 8/;_:0 OCi=Yviei,i:1,2,…,, Uei 杀=0 wV ̄b( f)+ _0,f_l …,, 消去变量w和e,口]得线性方程组:  l圈 ㈩ 其中J,=[ l,Y2,…,Yt] ,1=[1,1,…,1]T为,×1 岣量, a。, 。 , diag{ ̄v1, 1,…, }, Q={Q li, =1,2,…,,},Q = ) ( )=K(x , ),K(x , ) 为核函数。从而可得非线性回归估计函数为: ( )=∑ fX(xf, )+b (5) 其中仅、b为线性方程组(4)的解。 2.2基于正态分布概率密度函数确定权值 根据稳健统计理论,采用基于中位数的统计量比基 刘玉琳,陈文亮,鲍益东,等:基于改进支持向量机的快速稳健代理模型研究 9 于均值的统计量具有更好的稳健性。为了使权值更能 反映样本回归误差的分布特性,增强回归模型的稳健 性,假设回归误差e 服从均值为reed{e }的正态分布, 采用的权函数为: :竺 v : e 2ae,i:1,2,...,z (6) √27c 其中reed代表中位数。 正态分布概率密度函数中盯参数决定了正态曲线 的形状:盯越小,分布越集中,曲线越陡峭; 越大,分布 越分散,曲线越扁平。考虑回归误差的统计特征,应遵 循如下取值规则:如回归误差的分布较分散,则各样本 点应赋予离散程度较大的权值,盯取值应偏小;如回归 误差的分布较紧密,则各样本点应赋予离散程度较小的 权值, 的取值应偏大。 与已有加权方法相比,基于正态分布概率密度函数 的加权方法削弱了样本冗余数据造成的“过度拟合”。 在权值计算方面,两种方法的不同如图1所示。已有方 法是回归误差绝对值越小,其权值越大。本文提出的加 权方法对回归误差位于中间的样本赋予最大的权值,而 误差远离误差中位数的样本赋予小权值。本文提出的 加权法更侧重于自适应建模方法中训练样本的非均匀 分布实际特性,并且采用回归误差的中值作为计算加权 值的衡量标准,增强了算法的稳健性。 / - (a)已有加权方法 (b)正态分布概率密度函数加权法 图1两种加权方法对比示意图 2.3 迭代加权最小二乘支持向量机快速递推算法 迭代加权最小二乘支持向量机的每次迭代过程都 需要重新训练一次,即重新求解线性方程组(4),因此将 耗费较多的运算时间。针对该问题,从数值计算的角度 给出一种迭代加权最小二乘支持向量机的快速递推算 法。为了方便推导,将加权最小二乘支持向量机的对偶 问题改写成如下形式: 圈 (7) 其中, diag{击,袁,…, )。则迭代加权最小二乘 支持向量机第k次迭代求解的线性方程组为: fQ 圈 其中, , diag{ , ,…, }。可以看到, Ⅱ 权最小二乘支持向量机第k次迭代模型和第k一1次迭代 模型非常相似,唯一不同之处就是 l,e=diag{ , ?vk1.2 ,…, Yv—1., },特别的 -diag …, 一k一y y y 因此,可尝试通过第k一1训练结果来快速计算第k次训 练结果。记 = j +1 01]I , = + l1 01]J , ,I, 0可利用 来快速获得 : ,从而避 免重新对矩阵求逆,快速计算出X。为了清晰描述快速 递推算法原理,首先引入Sherman.Morrison—Woodbury 公式。 定义1(Sherman.Morrison.Woodbury公式)给定一 个可逆矩阵A,列向量U 和“ ,假设1+H 一n ≠0,则 有以下公式成立: c + 。“2T)-I=A-I— J!;+ A即 .冬  c9 根据Sherman—Morrison—Woodbury公式,可以采用 迭代更新的方法由 来快速计算获得 ’。 (上一—L)0 …0 y Vki Vk.I.I (10) O 0 0 0 令B0= Bg一 +10 ,—L y V 0 行(,g 11) 0… 0 第g列 则A = 。令 lf =[0,…,0, …,0】 -[ 一'0. 一 ,0,…’0] 的第g个元素是 ' ̄//2,q的第g个元素是 一 , 则Bq= g1+“1UT ,g。因此,根据Sherman-Morrison- woodbury公式,有: ComputerEngineering andApplications计算机工程与应用 - 1=B 一 ,…… 拟自适应建模方法中的建模数据信息会在某些局部区 域具有冗余的特性,假定采样样本点在区间 ∈[0_3,0.6] 由式(12),可知Bo 曰 … 。因为B0= 较密集,而在区间 ∈[0,0.3】和 ∈[0.6,1】较稀疏。 1, At= ,,则 = ,So =A-l_l,因此可由 速计算获得A -l。 来快 仿真实验中,支持向量机核函数取为径向基核函 数。LS.SVM得到的回归结果,基于Suykens加权方法 的传统WLS—SVM得到的回归结果,基于正态分布概率 密度函数加权方法(O-=0.5)的改进WLS—SVM得到的回 归结果分别如图3、图4、图5所示。 基于上述推导,迭代加权最小二乘支持向量机快速 递推算法过程如图2所示。 可看出,在训练样本存在异常样本点干扰的情况下, WLS SVM的确比LS.SVM具有更好的拟合效果;并且在 数据点密集处,基于Suykens]Jlf权方法的传统WLS.SVM 和基于正态分布概率密度函数加权方法的改进WLS.SVM 都取得了较好的拟合效果;而在数据点稀疏区域,本文 提出的改进WLS.SVM则具有更好的拟合效果。 测试样本由不加噪声扰动的函数f(x)产生,并且设 置与训练样本不同的采样间隔,确保测试样本与训练样本 的性。表1为3种方法建模的预测误差分析结果。 表1预测误差统计分析结果 从数值仿真实验结果来看,针对自适应代理模型建 模过程中样本点冗佘、分布不均现象,传统加权方法侧重 密集区域样本点而忽略其他样本时,会产生过度拟合。而 图2 迭代加权最小二乘支持向量机快速递推算法流程图 本文提出的改进加权方法可有效地解决这类问题,进一 步提高代理模型的回归精度,增强代理模型的稳健性。 3数值实例仿真实验 为了验证上述算法的可行性、有效性,采用一维非 为了考察快速递推算法的有效性,根据提出的基于 正态分布概率密度函数加权方法,在Matlab 7.0环境下 编写和运行了未加速的迭代加权最小二乘支持向量机 (13) 线性函数f(x)作为数值例子进行仿真实验。 厂f )=3e-;,《】0 +2e— 一 ‘,0 , ∈[0,1] 算法及其快速递推算法。针对3个训练样本集,样本点 训练样本由两部分组成,一部分是正常样本,由厂(x) 函数附加服从正态分布的随机噪声 Ⅳ(0,0.08)产生, 另一部分是异常样本,由人为添加一些异常样本点构 成,共66个训练样本点,其中异常样本点5个。为了模 总数分别为66、100、132,异常样本点数量分别为5、15、 33,即3个训练样本集中异常样本的比例分别为7.5%、 1 5%、25%,均在Pentium@Dua1.Core CPU 2.80 GHz, 2.00 GB内存电脑配置下进行实验,训练时间的相关结 0 0 0 图3 LS—SVM方法回归结果 图4传统WLS.SVM方法回归结果 图5改进WLS—SVM方法回归结果 刘玉琳,陈文亮,鲍益东,等:基于改进支持向量机的快速稳健代理模型研究 2015.51(7) 11 果如表2所示。 表2仿真样本点集训练时间对比 从训练时间来看,加速迭代加权最小二乘支持向量 机算法远远少于未加速算法,可以节省大量的训练时 间,这使得基于迭代加权的支持向量机稳健模型构建具 备了时问效率上的可行性:不需要增加过多的训练时间 就可以大幅提高代理模型对异常样本点的容忍度,获得 更加稳健的预测结果。 4 结论 (1)正态分布概率密度函数加权法更侧重于自适应 建模方法中训练样本的非均匀分布实际特性,削弱了样 本冗余数据造成的“过度拟合”,并且采用回归误差的中 值作为计算加权值的衡量标准,增强了算法的稳健性。 (2)迭代加权最小二乘支持向量机快速递推算法, 根据Sherman.Morrison—Woodbury公式,利用矩阵关系 进行前后两迭代步的矩阵求逆递推计算,避免了重新求 解线性方程组,减少了计算量,节约了迭代加权最小二 乘支持向量机训练时间。 (3)通过非线性函数数值算例的仿真实验,验证了 本文提出的方法的可行性和有效性,提高了代理模型的 预测精度,增强了代理模型的稳健性,缩短了稳健代理 模型的建模时间。 参考文献: [1】李光耀.板料冲压成形工艺与模具设计制造中的若干前沿 技术[J].机械工程学报,2010,46(10):31.35. [2】Naceur H,Ben—Elechi S.Response surface methodology for the rapid design of aluminum sheet metal forming parameters[J].Materials and Design,2008,29:781-790. [3】Jakumeit J,Herdy M,Nitsche M.Parameter optimization of the sheet metal forming process using an iterative parallel Kringing algorithm[J].Structural and Multidisci- plinary Optimization,2005,29(6):498—507. [4]Zhang Yanqin.Research on method of sheet blank design based on ANN[J].Forming&Stamping Technology,2009, 34(6):62—64. [5】Fang H,Horstemeyer M F.Global response approximation with radial basis functions[J].Journal of Engineering Opti- mization,2006,38(4):407.424. [6】Vapnik V N.Statistical learning theory[M].New York:John Wiley,1998. [7]Suykens J A K,Vandewalle J.Least squares support vector machine classiifers[J].Neural Processing Letters,1999,9(3): 293—300. 【8】Suykens J A K,Vandewalle J.Optimal control by least squares support vector machines[J].Neural Networks,200 1 (14):23—35. [9]陈爱军.最小二乘支持向量机及其在工业过程建模中的应 用[D】.杭州:浙江大学,2006. [1O]王久崇,樊晓光,盛晟,等.改进的蜂群LS—SVM故障预测[J]. 空军工程大学学报:自然科学版,2013,14(1):16-20. [11]Suykens J A K,Brabanter J D,Lukas L,et a1.Weighted least squares support vector machines:robustness and sparse approximation[J].Neurocomputing,2002,48(1): 85—1O5. [12】包鑫,戴连奎.加权最小二乘支持向量机稳健化迭代算法 及其在光谱分析中的应用[J].化学学报,2009,67(10): 1O81-1086. [1 3]Zhang J S,Guo G.Reweighted robust support vector regression method[J].Chinese Journal of Computers,2005, 28(7):1171-1178. [14】赵永平,孙建国.基于滚动窗法最小二乘支持向量机的稳 健预测模型【J].模式识别与人工智能,2008,21(1):1-5 [15】张淑宁基于鲁棒学习的最小二乘支持向量机及其应用[J]. 控制与决策,2010,25(8):1169.1175. [1 6】Shim J,Hwang C,Nau S.Robust LS—SVM regression using fuzzy C—means clustering[J].Advances in Natural Com一 puter Science,2006,42(21):157.166. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baomayou.com 版权所有 赣ICP备2024042794号-6

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务