问题二图表解释说明

本文件对应 q2_full_solution.py 生成的 8 张问题二图表,用于论文图注、结果分析与答辩说明。


图1:2000-2024年碳排放及核心驱动因素指数化演化

对应文件output_q2_driver_trends.png

图表内容:以 2000 年为基期(2000=100),展示 CO2 排放、人均 GDP(2000 年不变价)、城镇化率、煤炭占比和单位 GDP 能耗强度的相对变化。纵轴使用对数坐标,便于同时观察快速增长变量和持续下降变量。

读图重点

  • 人均 GDP 上升最明显,按 2000 年不变价口径,2024 年约为 2000 年的 5.8 倍,是碳排放长期上行的核心需求侧驱动。
  • CO2 排放总体上升,但增速明显低于人均 GDP,说明经济增长与排放之间已经出现一定程度的相对脱钩。
  • 城镇化率持续上升,体现居民生活方式、基础设施建设和城市能源需求扩张。
  • 煤炭占比和能耗强度持续下降,分别代表能源结构低碳化和技术效率改善。

结论表述建议
2000-2024 年,我国碳排放增长主要由经济富裕和城镇化推动,但能耗强度下降与煤炭占比下降对排放增长形成持续抑制,说明技术效率提升和能源结构优化已经成为重要减排力量。


图2:STIRPAT对数变量相关系数矩阵

对应文件output_q2_corr_heatmap.png

图表内容:展示 lnC 与 STIRPAT 各解释变量之间,以及解释变量相互之间的 Pearson 相关系数。

读图重点

  • 多数宏观变量之间相关性很高,尤其是人均 GDP、城镇化率、能耗强度等变量均带有强时间趋势。
  • 高相关性说明直接使用 OLS 估计时,系数容易出现不稳定、符号反常或显著性失真。
  • 相关矩阵是后续 VIF 诊断和 Ridge/PLS 模型选择的直观铺垫。

结论表述建议
变量相关矩阵显示,我国宏观经济、人口城镇化和能源效率指标具有显著同步演化特征,传统线性回归面临严重多重共线性风险,因此需要引入正则化或降维方法提升系数稳定性。


图3:多重共线性诊断:方差膨胀因子

对应文件output_q2_vif.png

图表内容:展示 STIRPAT 各解释变量的 VIF。通常 VIF>10 即认为存在严重多重共线性。

关键数值

  • 城镇化率 U:VIF≈2053
  • 人均 GDP A:VIF≈1799
  • 人口规模 P:VIF≈413
  • 能耗强度 T:VIF≈325
  • 煤炭占比 ES:VIF≈164
  • 第二产业 IS:VIF≈54
  • EKC 二次项:VIF≈47

读图重点

  • 所有变量 VIF 均大幅超过 10,说明共线性不是局部问题,而是整个宏观年度面板的系统性问题。
  • OLS 即使拥有很高拟合优度,也不能直接作为主要解释模型。
  • 这张图是“为什么必须使用 Ridge”的核心证据。

结论表述建议
VIF 诊断显示扩展 STIRPAT 模型存在极强多重共线性,其中城镇化率与人均 GDP 的 VIF 超过 1000。为避免 OLS 系数不稳定,本文采用 Ridge 回归作为主解释模型,并保留 OLS、LASSO、PLS 作为对照。


图4:岭迹图:共线性下的系数稳定化路径

对应文件output_q2_ridge_trace.png

图表内容:横轴为 Ridge 正则化参数 alpha,纵轴为还原后的对数弹性系数;虚线表示留一交叉验证选出的最佳 alpha=0.018478

读图重点

  • 在较小 alpha 区间,部分系数波动明显,说明 OLS 附近的估计非常敏感。
  • 随着 alpha 增大,系数逐渐收缩并趋于稳定。
  • LOOCV 选择的 alpha 位于较轻正则化区间,说明模型主要是稳定系数,而不是强行压平变量影响。

结论表述建议
岭迹图表明,正则化能够显著缓解强共线条件下的系数波动。本文基于 LOOCV 选择 alpha=0.018478,在保持较高拟合精度的同时提高弹性系数的稳定性和可解释性。


图5:实际排放与模型拟合 / Ridge对数残差序列

对应文件output_q2_model_fit.png

图表内容

  • 图5a 比较实际 CO2 排放与 OLS、Ridge、PLS 的拟合曲线。
  • 图5b 展示 Ridge 模型的对数残差随时间变化。

读图重点

  • 三类模型均能较好追踪 2000-2024 年 CO2 排放走势,说明 STIRPAT 变量体系具备较强解释力。
  • Ridge 拟合曲线略平滑,符合正则化模型降低方差的特征。
  • 残差围绕 0 波动,没有明显单边系统偏差;但 Durbin-Watson=1.487,处于无法判断区间,不能强称残差完全无自相关。

结论表述建议
拟合结果显示,扩展 STIRPAT 模型能够较好刻画我国碳排放的长期演化趋势。Ridge 模型在牺牲极少拟合精度的情况下获得更稳定的系数,适合作为驱动因素识别的主模型。


图6:Ridge残差分布与QQ图

对应文件output_q2_residual_diagnostics.png

图表内容:左图展示 Ridge 对数残差分布及核密度曲线,右图为残差 QQ 图,用于观察残差是否近似正态。

读图重点

  • 残差总体集中在 0 附近,说明模型没有明显系统性高估或低估。
  • QQ 图中大部分点接近 45 度参考线,残差正态性大体可接受。
  • 宏观年度样本量仅 25,残差检验不宜过度解读,应结合经济解释和交叉验证结果判断。

结论表述建议
Ridge 残差分布较集中,QQ 图未显示严重偏离正态的模式,说明模型拟合误差处于可接受范围。但考虑到样本量较小,本文将残差诊断作为辅助证据,而非唯一判据。


图7:主要模型弹性系数对比

对应文件output_q2_coefficients.png

图表内容:比较 OLS、Ridge、PLS 三类模型对各驱动因素的弹性系数估计。

读图重点

  • 人均 GDP、城镇化率、煤炭占比、第二产业占比和能耗强度在不同模型下方向基本一致。
  • 人口项在多模型中均为负,但这不应解释为“人口增加降低排放”,而应理解为在强共线和人口增速放缓条件下的条件系数。
  • Ridge 系数幅度相对收缩,更适合在共线性条件下进行稳健解释。

结论表述建议
模型系数对比表明,经济富裕、城镇化、煤炭占比和产业结构是推高碳排放的重要因素,能耗强度上升也会增加排放压力。人口项因与长期趋势和其他宏观变量高度纠缠,不宜单独作因果解释,应结合 LMDI 分解进行判断。


图8:LMDI累计贡献与主要因素贡献路径

对应文件output_q2_lmdi.png

图表内容

  • 图8a 展示 2000-2024 年各因素对 CO2 增量的累计贡献。
  • 图8b 展示主要因素累计贡献随时间的演化路径。

关键数值

  • 经济富裕 A:约 +18987 Mt
  • 城镇化 U:约 +4668 Mt
  • 人口规模 P:约 +770 Mt
  • 能耗强度 T:约 -9974 Mt
  • 煤炭结构 ES:约 -2824 Mt
  • 产业结构 IS:约 -2276 Mt
  • 综合剩余项 R:约 -662 Mt

读图重点

  • 经济富裕是最大上行驱动,远高于其他正向因素。
  • 能耗强度下降是最重要的下行约束,体现技术效率提升对减排的贡献。
  • 煤炭占比下降和产业结构优化也形成明显负贡献。
  • 剩余项 R 吸收能源碳排放因子变化、非煤能源内部结构、工业过程排放、单位换算和统计口径差异等因素。

结论表述建议
LMDI 分解进一步验证了回归结论:经济增长和城镇化是排放增长的主要来源,而能效提升、能源结构低碳化和产业结构优化显著抵消了部分排放增长。政策上应继续把降低能耗强度、压降煤炭占比和推进产业结构升级作为减排主线。


总体图表逻辑

这 8 张图构成了问题二的完整证据链:

  1. 图1说明变量长期演化事实。
  2. 图2说明变量之间高度同步变化。
  3. 图3定量证明严重共线性。
  4. 图4说明 Ridge 选择的必要性与稳定化效果。
  5. 图5验证模型拟合能力。
  6. 图6检查残差合理性。
  7. 图7解释各变量弹性方向与稳健性。
  8. 图8用 LMDI 从恒等分解角度交叉验证驱动因素。

论文中建议按“现象识别 → 共线性诊断 → 模型修正 → 拟合检验 → 驱动解释 → LMDI 交叉验证”的顺序呈现,逻辑最顺。