• 1. 统计回归模型10.1 牙膏的销售量 10.2 软件开发人员的薪金 10.3 酶促反应 10.4 投资额与国民生产总值和 物价指数
    • 2. 回归模型是用统计分析方法建立的最常用的一类模型 数学建模的基本方法机理分析测试分析通过对数据的统计分析,找出与数据拟合最好的模型 不涉及回归分析的数学原理和方法 通过实例讨论如何选择不同类型的模型 对软件得到的结果进行分析,对模型进行改进 由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。
    • 3. 10.1 牙膏的销售量 问题建立牙膏销售量与价格、广告投入之间的模型 预测在不同价格和广告费用下的牙膏销售量 收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价 9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851销售量 (百万支)价格差 (元)广告费用 (百万元)其它厂家价格(元)本公司价格(元)销售周期
    • 4. 基本模型y ~公司牙膏销售量x1~其它厂家与本公司价格差x2~公司广告费用x2yx1yx1, x2~解释变量(回归变量, 自变量) y~被解释变量(因变量) 0, 1 , 2 , 3 ~回归系数 ~随机误差(均值为零的正态分布随机变量)
    • 5. MATLAB 统计工具箱 模型求解[b,bint,r,rint,stats]=regress(y,x,alpha) 输入 x= ~n4数据矩阵, 第1列为全1向量alpha(置信水平,0.05) b~的估计值 bint~b的置信区间 r ~残差向量y-xb rint~r的置信区间 Stats~ 检验统计量 R2,F, p y~n维数据向量输出 由数据 y,x1,x2估计参数 参数估计值 置信区间 17.3244 [5.7282 28.9206] 1.3070 [0.6829 1.9311 ] -3.6956 [-7.4989 0.1077 ] 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p=0.0000 0123
    • 6. 结果分析y的90.54%可由模型确定 参数 参数估计值 置信区间 17.3244 [5.7282 28.9206] 1.3070 [0.6829 1.9311 ] -3.6956 [-7.4989 0.1077 ] 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p=0.0000 0123F远超过F检验的临界值 p远小于=0.05 2的置信区间包含零点(右端点距零点很近) x2对因变量y 的影响不太显著x22项显著 可将x2保留在模型中 模型从整体上看成立
    • 7. 销售量预测 价格差x1=其它厂家价格x3-本公司价格x4估计x3调整x4控制价格差x1=0.2元,投入广告费x2=650万元销售量预测区间为 [7.8230,8.7636](置信度95%)上限用作库存管理的目标值 下限用来把握公司的现金流 若估计x3=3.9,设定x4=3.7,则可以95%的把握知道销售额在 7.83203.7 29(百万元)以上控制x1通过x1, x2预测y(百万支)
    • 8. 模型改进x1和x2对y的影响独立 参数 参数估计值 置信区间 17.3244 [5.7282 28.9206] 1.3070 [0.6829 1.9311 ] -3.6956 [-7.4989 0.1077 ] 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p=0.0000 0123参数 参数估计值 置信区间 29.1133 [13.7013 44.5252] 11.1342 [1.9778 20.2906 ] -7.6080 [-12.6932 -2.5228 ] 0.6712 [0.2538 1.0887 ] -1.4777 [-2.8518 -0.1037 ] R2=0.9209 F=72.7771 p=0.0000 30124x1和x2对y的影响有交互作用
    • 9. 两模型销售量预测比较(百万支)区间 [7.8230,8.7636]区间 [7.8953,8.7592] (百万支)控制价格差x1=0.2元,投入广告费x2=6.5百万元预测区间长度更短 略有增加
    • 10. x2=6.5x1=0.2 x1x1x2x2两模型 与x1,x2关系的比较
    • 11. 交互作用影响的讨论价格差 x1=0.1 价格差 x1=0.3加大广告投入使销售量增加 ( x2大于6百万元)价格差较小时增加的速率更大 x2价格优势会使销售量增加 价格差较小时更需要靠广告来吸引顾客的眼球
    • 12. 完全二次多项式模型 MATLAB中有命令rstool直接求解x1x2从输出 Export 可得
    • 13. 10.2 软件开发人员的薪金资历~ 从事专业工作的年数;管理~ 1=管理人员,0=非管理人员;教育~ 1=中学,2=大学,3=更高程度建立模型研究薪金与资历、管理责任、教育程度的关系分析人事策略的合理性,作为新聘用人员薪金的参考 编号 薪金 资历 管理 教育 01 13876 1 1 1 02 11608 1 0 3 03 18701 1 1 3 04 11283 1 0 2    编号 薪金 资历 管理 教育 42 27837 16 1 2 43 18838 16 0 2 44 17483 16 0 1 45 19207 17 0 2 46 19346 20 0 1 46名软件开发人员的档案资料 
    • 14. 分析与假设 y~ 薪金,x1 ~资历(年)x2 = 1~ 管理人员,x2 = 0~ 非管理人员1=中学2=大学3=更高资历每加一年薪金的增长是常数; 管理、教育、资历之间无交互作用 教育线性回归模型 a0, a1, …, a4是待估计的回归系数,是随机误差 中学:x3=1, x4=0 ;大学:x3=0, x4=1; 更高:x3=0, x4=0
    • 15. 模型求解参数 参数估计值 置信区间 a0 11032 [ 10258 11807 ] a1 546 [ 484 608 ] a2 6883 [ 6248 7517 ] a3 -2994 [ -3826 -2162 ] a4 148 [ -636 931 ] R2=0.957 F=226 p=0.000 R2,F, p 模型整体上可用资历增加1年薪金增长546 管理人员薪金多6883 中学程度薪金比更高的少2994 大学程度薪金比更高的多148 a4置信区间包含零点,解释不可靠!中学:x3=1, x4=0;大学:x3=0, x4=1; 更高:x3=0, x4=0. x2 = 1~ 管理,x2 = 0~ 非管理x1~资历(年)
    • 16. 残差分析方法 结果分析残差e 与资历x1的关系 e与管理—教育组合的关系 残差全为正,或全为负,管理—教育组合处理不当 残差大概分成3个水平, 6种管理—教育组合混在一起,未正确反映 。应在模型中增加管理x2与教育x3, x4的交互项 组合 1 2 3 4 5 6 管理 0 1 0 1 0 1 教育 1 1 2 2 3 3 管理与教育的组合
    • 17. 进一步的模型增加管理x2与教育x3, x4的交互项参数 参数估计值 置信区间 a0 11204 [11044 11363] a1 497 [486 508] a2 7048 [6841 7255] a3 -1727 [-1939 -1514] a4 -348 [-545 –152] a5 -3071 [-3372 -2769] a6 1836 [1571 2101] R2=0.999 F=554 p=0.000 R2,F有改进,所有回归系数置信区间都不含零点,模型完全可用 消除了不正常现象 异常数据(33号)应去掉 e ~ x1 e ~组合
    • 18. 去掉异常数据后的结果参数 参数估计值 置信区间 a0 11200 [11139 11261] a1 498 [494 503] a2 7041 [6962 7120] a3 -1737 [-1818 -1656] a4 -356 [-431 –281] a5 -3056 [-3171 –2942] a6 1997 [1894 2100] R2= 0.9998 F=36701 p=0.0000 e ~ x1 e ~组合R2: 0.957  0.999  0.9998 F: 226  554  36701 置信区间长度更短残差图十分正常最终模型的结果可以应用
    • 19. 模型应用 制订6种管理—教育组合人员的“基础”薪金(资历为0)组合 管理 教育 系数 “基础”薪金 1 0 1 a0+a3 9463 2 1 1 a0+a2+a3+a5 13448 3 0 2 a0+a4 10844 4 1 2 a0+a2+a4+a6 19882 5 0 3 a0 11200 6 1 3 a0+a2 18241 中学:x3=1, x4=0 ;大学:x3=0, x4=1; 更高:x3=0, x4=0 x1= 0; x2 = 1~ 管理,x2 = 0~ 非管理大学程度管理人员比更高程度管理人员的薪金高 大学程度非管理人员比更高程度非管理人员的薪金略低
    • 20. 对定性因素(如管理、教育),可以引入0-1变量处理,0-1变量的个数应比定性因素的水平少1 软件开发人员的薪金残差分析方法可以发现模型的缺陷,引入交互作用项常常能够改善模型 剔除异常数据,有助于得到更好的结果注:可以直接对6种管理—教育组合引入5个0-1变量
    • 21. 10.3 酶促反应 问题研究酶促反应(酶催化反应)中嘌呤霉素对反应速度与底物(反应物)浓度之间关系的影响 建立数学模型,反映该酶促反应的速度与底物浓度以及经嘌呤霉素处理与否之间的关系 设计了两个实验 :酶经过嘌呤霉素处理;酶未经嘌呤霉素处理。实验数据见下表: 方案底物浓度(ppm)0.020.060.110.220.561.10反应速度处理764797107123139159152191201207200未处理6751848698115131124144158160/
    • 22. 基本模型 Michaelis-Menten模型y ~ 酶促反应的速度, x ~底物浓度 1 , 2 ~ 待定系数 底物浓度较小时,反应速度大致与浓度成正比; 底物浓度很大、渐进饱和时,反应速度趋于固定值。酶促反应的基本性质 xy01实验数据经嘌呤霉素处理xy未经嘌呤霉素处理xy
    • 23. 线性化模型 经嘌呤霉素处理后实验数据的估计结果 参数参数估计值(×10-3)置信区间(×10-3)15.107[3.539 6.676]20.247[0.176 0.319]R2=0.8557 F=59.2975 p=0.0000对1 , 2非线性 对1, 2线性
    • 24. 线性化模型结果分析 x较大时,y有较大偏差 1/x较小时有很好的线性趋势,1/x较大时出现很大的起落 参数估计时,x较小(1/x很大)的数据控制了回归参数的确定 1/y1/xxy
    • 25. [beta,R,J] = nlinfit (x,y,’model’,beta0) beta的置信区间MATLAB 统计工具箱 输入 x~自变量数据矩阵 y ~因变量数据向量beta ~参数的估计值R ~残差,J ~估计预测误差的Jacobi矩阵 model ~模型的函数M文件名 beta0 ~给定的参数初值 输出 betaci =nlparci(beta,R,J) 非线性模型参数估计function y=f1(beta, x) y=beta(1)*x./(beta(2)+x);x= ; y= ; beta0=[195.8027 0.04841]; [beta,R,J]=nlinfit(x,y,’f1’,beta0); betaci=nlparci(beta,R,J); beta, betaci beta0~线性化模型估计结果
    • 26. 非线性模型结果分析参数参数估计值置信区间1212.6819[197.2029 228.1609]20.0641[0.0457 0.0826 ]画面左下方的Export 输出其它统计结果。拖动画面的十字线,得 y的预测值和预测区间剩余标准差s= 10.9337最终反应速度为 半速度点(达到最终速度一半时的x值 )为其它输出命令nlintool 给出交互画面o ~原始数据 + ~ 拟合结果
    • 27. 混合反应模型 x1为底物浓度, x2为一示性变量 x2=1表示经过处理,x2=0表示未经处理 β1是未经处理的最终反应速度 γ1是经处理后最终反应速度的增长值 β2是未经处理的反应的半速度点 γ2是经处理后反应的半速度点的增长值 在同一模型中考虑嘌呤霉素处理的影响
    • 28. o ~原始数据 + ~拟合结果 混合模型求解用nlinfit 和 nlintool命令估计结果和预测剩余标准差s= 10.4000 参数参数估计值置信区间1160.2802[145.8466 174.7137]20.0477[0.0304 0.0650 ]152.4035[32.4130 72.3941 ]20.0164[-0.0075 0.0403]2置信区间包含零点,表明2对因变量y的影响不显著参数初值(基于对数据的分析)经嘌呤霉素处理的作用不影响半速度点参数未经处理经处理
    • 29. o ~原始数据 + ~拟合结果 未经处理经处理简化的混合模型 简化的混合模型形式简单,参数置信区间不含零点剩余标准差 s = 10.5851,比一般混合模型略大 估计结果和预测参数参数估计值置信区间1166.6025[154.4886 178.7164]20.0580[0.0456 0.0703 ]142.0252[28.9419 55.1085]
    • 30. 一般混合模型与简化混合模型预测比较实际值一般模型预测值Δ(一般模型)简化模型预测值Δ(简化模型)6747.34439.207842.73585.44465147.34439.207842.73585.44468489.28569.571084.73567.0478……………191190.83299.1484189.05748.8438201190.83299.1484189.05748.8438207200.968811.0447198.183710.1812200200.968811.0447198.183710.1812简化混合模型的预测区间较短,更为实用、有效预测区间为预测值  Δ
    • 31. 注:非线性模型拟合程度的评价无法直接利用线性模型的方法,但R2 与s仍然有效。酶促反应 反应速度与底物浓度的关系非线性关系求解线性模型 求解非线性模型机理分析嘌呤霉素处理对反应速度与底物浓度关系的影响混合模型 发现问题,得参数初值引入0-1变量简化模型 检查参数置信区间是否包含零点
    • 32. 10.4 投资额与国民生产总值和物价指数 问题建立投资额模型,研究某地区实际投资额与国民生产总值 ( GNP ) 及物价指数 ( PI ) 的关系2.06883073.0424.5201.00001185.9195.0101.95142954.7474.9190.96011077.6166.491.78422631.7401.9180.9145 992.7144.281.63422417.8423.0170.8679 944.0149.371.50422163.9386.6160.8254 873.4133.361.40051918.3324.1150.7906 799.0122.851.32341718.0257.9140.7676 756.0125.741.25791549.2206.1130.7436 691.1113.531.15081434.2228.7120.7277 637.797.421.05751326.4 229.8110.7167 596.7 90.91物价 指数国民生产总值投资额年份 序号物价 指数国民生产总值投资额年份序号根据对未来GNP及PI的估计,预测未来投资额 该地区连续20年的统计数据
    • 33. 时间序列中同一变量的顺序观测值之间存在自相关以时间为序的数据,称为时间序列 分析许多经济数据在时间上有一定的滞后性 需要诊断并消除数据的自相关性,建立新的模型若采用普通回归模型直接处理,将会出现不良后果 投资额与国民生产总值和物价指数 ……………………1.32341718.0257.9140.7676 756.0125.741.25791549.2206.1130.7436 691.1113.531.15081434.2228.7120.7277 637.797.421.05751326.4 229.8110.7167 596.7 90.91物价 指数国民生产总值投资额年份 序号物价 指数国民生产总值投资额年份序号
    • 34. 基本回归模型投资额与 GNP及物价指数间均有很强的线性关系t ~年份, yt ~ 投资额,x1t~ GNP, x2t ~ 物价指数0, 1, 2 ~回归系数 x1tytx2tytt ~对t相互独立的零均值正态随机变量
    • 35. 基本回归模型的结果与分析 MATLAB 统计工具箱 参数参数估计值置信区间0322.7250[224.3386 421.1114]10.6185[0.4773 0.7596]2-859.4790[-1121.4757 -597.4823 ]R2= 0.9908 F= 919.8529 p=0.0000剩余标准差 s=12.7164 没有考虑时间序列数据的滞后性影响R2=0.9908,拟合度高模型优点模型缺点可能忽视了随机误差存在自相关;如果存在自相关性,用此模型会有不良后果
    • 36. 自相关性的定性诊断 残差诊断法模型残差作残差 et~et-1 散点图大部分点落在第1, 3象限 t 存在正的自相关 大部分点落在第2, 4象限 自相关性直观判断在MATLAB工作区中输出et为随机误差t 的估计值 et-1ett 存在负的自相关 基本回归模型的随机误差项t 存在正的自相关
    • 37. 自回归性的定量诊断自回归模型ρ~自相关系数 0, 1, 2 ~回归系数 ρ= 0无自相关性ρ> 0ρ< 0如何估计ρ 如何消除自相关性D-W统计量D-W检验 ut ~对t相互独立的零均值正态随机变量存在负自相关性存在正自相关性广义差分法
    • 38. D-W统计量与D-W检验 检验水平,样本容量,回归变量数目D-W分布表n较大DW4-dU44-dLdUdL20正自 相关负自 相关不能确定不能确定无自相关检验临界值dL和dU由DW值的大小确定自相关性
    • 39. 广义差分变换 以*0, 1 , 2 为回归系数的普通回归模型原模型 DW值 D-W检验无自相关 有自相关 广义差分继续此过程原模型 新模型 新模型 步骤 原模型变换不能确定增加数据量;选用其它方法
    • 40. 投资额新模型的建立 DWold < dL 作变换 原模型残差et样本容量n=20,回归变量数目k=3,=0.05 查表临界值dL=1.10, dU=1.54DWold=0.8754原模型有正自相关DW4-dU44-dLdUdL20正自 相关负自 相关不能确定不能确定无自相关
    • 41. 参数参数估计值置信区间*0163.4905[1265.4592 2005.2178]10.6990[0.5751 0.8247]2-1009.0333[-1235.9392 -782.1274]R2= 0.9772 F=342.8988 p=0.0000总体效果良好 剩余标准差 snew= 9.8277 < sold=12.7164投资额新模型的建立
    • 42. 新模型的自相关性检验dU< DWnew < 4-dU 新模型残差et样本容量n=19,回归变量数目k=3,=0.05 查表临界值dL=1.08, dU=1.53DWnew=1.5751新模型无自相关性DW4-dU44-dLdUdL20正自 相关负自 相关不能确定不能确定无自相关新模型还原为 原始变量一阶自回归模型
    • 43. 一阶自回归模型残差et比基本回归模型要小新模型 et~ *,原模型 et~ +残差图比较新模型 ŷt ~ *,新模型 ŷt ~ +拟合图比较模型结果比较基本回归模型一阶自回归模型
    • 44. 投资额预测对未来投资额yt 作预测,需先估计出未来的国民生产总值x1t 和物价指数 x2t设已知 t=21时, x1t =3312,x2t=2.1938一阶自回归模型2.06883073.0424.5201.95142954.7474.9191.78422631.7401.9180.7436 691.1113.530.7277 637.7 97.420.7167 596.7 90.91物价 指数国民生产总值投资额年份 序号物价 指数国民生产总值投资额年份序号一阶自回归模型基本回归模型ŷt 较小是由于yt-1=424.5过小所致