问题一:碳排放空间差异分析与省份分类分级 — 图表分析报告

生成日期:2026-05-23
数据来源:问题1数据集(30省碳排放/常住人口/GDP/能源消费)
方法:熵权法→TOPSIS→Jenks自然断点→Ward+K-Means(k=3)→Kruskal-Wallis


图1 — 指标 Pearson 相关系数矩阵

展示内容:7项碳排放评价指标两两之间的 Pearson 线性相关系数(下三角),红色表示正相关,蓝色表示负相关,颜色越深表示线性关系越强。

关键发现

  • CO2总量与人均CO2呈强正相关(r≈0.68):排放总量大的省份,人均排放也往往偏高,说明排放总量尚未与人口规模脱钩。
  • 碳排放强度与煤炭排放占比呈正相关(r≈0.72):单位GDP碳排放越高的省份,能源结构越依赖煤炭,反映出”高碳锁定”效应——高煤依赖导致高碳强度。
  • 二产排放占比与高耗能行业占比高度共线(r≈0.95):高耗能行业(钢铁、水泥、化工等)是工业碳排放的绝对主体,两者几乎可互相替代。建模中可考虑降维合并。
  • 单位能耗碳排放与总量指标弱相关:该指标反映能源品质(每吨标煤的CO2产出),与产业结构、总量规模关系不大,独立性较强。
  • 人均CO2与碳强度中度正相关(r≈0.67):人均排放高的省份往往也面临较高的碳强度压力,需同时从”人均”和”单位GDP”两个维度施策。

分析意义:相关系数矩阵验证了指标体系的基本覆盖性——7个指标覆盖了规模、效率、结构三个维度。但二产排放占比与高耗能行业占比存在接近 0.95 的高度相关,论文中应将其作为共线性风险说明;若后续做稳健性检验,可尝试删除其一或合成为“工业高耗能结构”指标后复算。


图2 — 7项碳排放评价指标分布特征

展示内容:每项指标的小提琴图(核密度分布)+ 箱线图(四分位数与中位数)+ 散点图(30省实际值),按”排放规模””排放效率””经济关联度”三个维度分类着色。

关键发现

  • CO2总量分布(蓝):呈右偏态,均值380Mt,但山东省接近921Mt,海南省仅45Mt,极差近20倍。大部分省份集中在200-500Mt区间,少数”排放大省”拉高了整体均值。
  • 人均CO2分布(蓝):呈显著右偏,内蒙古(36.6t/人)、宁夏(34.0t/人)远超全国均值(9.8t/人),是典型的高碳资源型经济体。
  • 碳排放强度分布(红):宁夏(4.79t/万元)、内蒙古(3.69t/万元)最高,北京(0.16t/万元)最低,极差近30倍。中位数约0.92t/万元,反映大部分省份仍处于高碳强度阶段。
  • 煤炭排放占比分布(绿):集中分布在60%-85%之间,北京(2.1%)和海南(44.0%)显著偏低,北京已基本完成能源结构转型。
  • 二产排放占比和高耗能占比:绝大多数省份在70%以上,说明工业(尤其是高耗能重工业)是中国碳排放的绝对来源。

分析意义:指标分布的偏态特征提示部分指标需要 log 变换以改善聚类效果(代码中已对偏态度>1的指标做了 log1p 变换)。分布形态也为后续的分级标准提供了参考。


图3 — Ward 系统聚类树状图

展示内容:基于7项标准化碳排放指标的 Ward 最小方差法层次聚类树状图(水平方向),分支颜色对应聚类结果,虚线标注建议的截断距离(k=3)。

关键发现

  • 清晰的三大分支:树状图上可明确识别出三个主要聚类分支,且分支间 Ward 距离较大(合并代价高),说明三类省份的碳排放结构差异显著。
  • 簇3(北京)最早分离:北京在所有省份中最早从主分支中分离出来,与其极低的煤炭排放占比(2.1%)和碳强度(0.16t/万元)高度吻合——北京是唯一完成深度能源转型的省级行政区。
  • 簇1(5省)与簇2(24省)的分离:从图上可以看出,河北、山西、内蒙古、宁夏、新疆5省形成一个独立的高排放子群,其 WARD 距离与簇2的主体省份差距明显。
  • 簇2内部仍有亚结构:24个省份虽归为一类,但从子分支长度可看出,山东、辽宁、江苏等工业大省与云南、四川等低排放省份之间存在系统性差异(这也解释了为何 Jenks 分级将这24省进一步细分为5个等级)。

分析意义:Ward 树状图从整体到局部呈现了30个省份的碳排放结构相似性层次。k=3 的聚类方案(Silhouette=0.439)在类间分离度与类内同质性之间达到了较好平衡。


图4 — PCA 降维空间聚类分布

展示内容:30个省份在 PCA 前两个主成分空间中的分布,颜色代表 K-Means 聚类结果,椭圆为各簇的 1.8σ 置信区域。标签显示每个省份名称。

关键发现

  • PC1(横轴)主导分离:第一主成分(解释方差约58%)主要载荷来自煤炭排放占比、高耗能行业占比和碳排放强度。从左到右,碳排放结构从”多元低碳”过渡到”煤基高碳”。
  • PC2(纵轴)反映规模差异:第二主成分(解释方差约20%)主要载荷来自CO2总量和人均CO2,区分了”总量大但结构优化”与”总量小但结构重碳”的省份。
  • 三簇空间分布清晰且不重叠
    • 簇1(红色,5省)集中在 PC1 正端、PC2 正端——煤依赖高+排放规模大
    • 簇2(蓝色,24省)占据中央大面积空间——主体省份的差异化分布
    • 簇3(绿色,北京)位于 PC1 负端最远处——与所有省份截然不同的低碳结构
  • 簇2内部空间跨度大:24个省份覆盖了 PC1 和 PC2 的大部分中间区域,说明”中等排放水平”的省份在结构上仍然多样,需要分级管理。
  • 海南省位置特殊:虽归入簇2,但在 PC1 上接近北京方向,煤炭依赖较低(44%),有向低碳转型的良好基础。

分析意义:PCA 降维图直观验证了聚类结果的合理性——三个簇在低维空间中自然分离,边界清晰。同时揭示了”碳结构轴”(PC1)是区分省份最关键的单维度因素。


图5 — 聚类多维特征对比雷达图

展示内容:三个聚类簇在7项标准化指标上的均值轮廓对比。各轴为归一化指标值(0~1),不同颜色曲线代表不同聚类簇。

关键发现

  • 簇1(高碳煤基型):在所有指标维度上均处于最高水平,尤其是在煤炭排放占比(0.98)、碳排放强度(0.85)和人均CO2(0.92)维度上接近最大值。呈现”高总量+高人均+高碳强度+高煤依赖”的全高特征。
  • 簇2(中间过渡型):各维度指标居中,雷达图形状较为均衡。值得注意的是,其单位能耗碳排放(0.68)与簇1(0.72)差距不大,说明两个簇在能源品质上差异有限,主要差异在”用能规模”而非”用能类型”。
  • 簇3(低碳结构型,北京):在煤炭排放占比(0.00)和碳排放强度(0.00)维度上几乎触及最小值,而在CO2总量维度也较低(0.14)。以服务业为主的产业结构使其二产排放占比(0.00)同样为全国最低。
  • 三个簇在”单位能耗碳排放”上差异最小:该指标反映每燃烧一吨标煤的CO2产出,三个簇的值都在0.5~0.75之间,说明中国的能源品种结构(煤为主)在各地区间相对一致,真正的差异在于”用多少”而非”烧什么”。

分析意义:雷达图清晰揭示了三种碳排放模式的本质差异——簇1是”高碳煤基经济”,簇3是”低碳服务经济”,簇2是两者之间的广阔中间地带。政策制定需因地制宜。


图6 — 30省份碳排放压力指数排序

展示内容:基于熵权-TOPSIS 方法的30省份碳排放压力指数(0~1)横向排序,条形颜色对应 Jenks 自然断点5级分类。由于7个指标均为成本型/压力型指标,指数越大表示综合碳排放压力越高,而不是“减排能力”越强。

关键发现

  • 前5名均为煤炭资源型省份:内蒙古(0.913)、山西(0.703)、河北(0.697)、新疆(0.675)、宁夏(0.639)的 TOPSIS 压力指数均在0.6以上,说明高煤依赖省份构成主要碳压力源。
  • 自然断点后最高等级只包含内蒙古:修正后的 Jenks 动态规划结果将内蒙古单独划入“高排放水平”,山西、河北、新疆、宁夏与山东、辽宁、江苏共同进入“中高排放水平”。这比原来的分位数切分更能反映内蒙古这个极端高压样本。
  • 北京压力指数仅0.018:与倒数第二的海南(0.224)相差超过10倍。北京已基本实现经济结构服务业化(三产占比>80%),碳排放与经济增长已经脱钩。
  • 东部沿海经济大省与西部省份混排:广东(第15名,0.405)、浙江(第16名,0.374)的碳压力低于部分西部省份(如贵州第17名),说明”经济发达≠高碳排放压力”,产业结构和能源结构更为关键。
  • Jenks 自然断点不再强行等频:修正后5级省份数为 1、9、12、7、1,说明自然断点识别出了北京和内蒙古两个端点型省份,而不是机械地把30省均分为每级6省。

分析意义:TOPSIS 排序将7项压力型指标综合为单一可比较指数,为省份间的横向对标和减排优先级排序提供了量化依据。


图7 — 熵权法指标权重分配

展示内容:左图为指标权重的饼图分布,右图为权重由大到小的横向条形图。颜色对应三个指标维度(排放规模-蓝、排放效率-红、经济关联度-绿)。

关键发现

  • CO2总量权重最高(29.5%):在所有指标中信息熵最低(0.920),说明各省在排放总量上的差异最大,含有的判别信息最丰富,是区分省份的最重要维度。
  • 排放效率维度合计权重36.4%:碳排放强度(23.2%)+ 单位能耗碳排放(13.3%)共同构成第二重要的判别维度,反映”用能效率”的省际差异。
  • 经济关联度维度权重最低(合计15.6%):二产排放占比(4.0%)、高耗能行业占比(7.8%)、煤炭排放占比(3.8%)的权重之和不足16%。但这并不意味着这些指标不重要——而是因为各省在这些维度上的差异相对较小(信息熵均>0.978),各省的产业结构和能源结构趋同。
  • 熵权法的合理性验证:高差异性指标获得高权重,低差异性指标获得低权重,符合信息熵赋权的基本原理。但需要注意,权重低≠政策关注度低——煤炭排放占比虽然只有3.8%的权重,却是碳减排最直接的抓手。

分析意义:权重分配反映了各省碳排放差异的主要来源——“排放多少”(规模)> “排放效率”(效率)> “怎么排放”(结构)。政策制定时应重点关注总量控制和能效提升。


图8 — 30省份×7指标综合热力图

展示内容:30个省份(纵轴,按聚类和TOPSIS得分排序)×7项指标(横轴)的标准化值热力图,深蓝色表示该省份在该指标上取值较高。左侧色条分别标注 K-Means 聚类结果(内)和 Jenks 分级(外)。

关键发现

  • “热力带”分层显著:从上到下可明显观察到从”深蓝”(高排放)向”浅蓝”(低排放)的渐变。簇1(内蒙古-宁夏)在几乎所有指标上呈现深色,簇2呈现中间色阶,簇3(北京)在多个指标上为最浅色。
  • 部分省份在多指标上存在”不均衡”特征
    • 上海在”二产排放占比”和”高耗能行业占比”上偏低(浅色),但在”人均CO2”上偏高——体现了人口密集城市的特殊性。
    • 宁夏在”碳排放强度”列呈现最深的蓝色(4.79t/万元),但CO2总量仅排第25名——“小体量、高碳强度”的典型案例。
    • 山东CO2总量全国第一(921Mt,深蓝),但因经济总量大和人口多,碳强度和人均CO2并不突出(中等偏浅)。
  • “煤炭排放占比”列上下对比强烈:北京(2.1%)几乎为白色(最低值),内蒙古和宁夏(93-94%)为最深色——是全国能源结构差异最大的指标维度。
  • Jenks 分级与聚类高度一致:左侧双色条显示,Jenks 的”低排放水平”(浅色)集中在簇2底部和簇3,而”高排放水平”(深色)全部在簇1。

分析意义:热力图是所有图表中信息密度最高的——同时展示30省×7指标的全貌,适合快速识别异常值、发现结构性模式和验证分类结果。


图9 — 关键指标两两对比散点矩阵

展示内容:选取 CO2总量、碳排放强度和煤炭排放占比三个最具代表性的指标,以3×3矩阵展示两两关系。对角线为各指标的核密度分布(按聚类着色),上三角为散点图,下三角为等高线密度图。

关键发现

  • CO2总量 vs 碳排放强度(左下/右上):存在明显正相关,但簇2内部呈分散态势——高总量不一定高碳强度(如广东、江苏总量大但碳强度低),煤炭资源型省份则”双高”。
  • CO2总量 vs 煤炭排放占比:簇1(红色)独占右上角——高总量+高煤占比,煤炭依赖与排放规模高度耦合。北京(绿色)位于左下角——低总量+极低煤占比。
  • 碳排放强度 vs 煤炭排放占比:散点图呈现最清晰的线性趋势(r≈0.72),验证了”降低碳强度的关键是降低煤炭依赖”这一政策逻辑。
  • 对角线核密度图:簇1的分布峰偏右(高值),簇3的分布峰在最左侧(低值),簇2覆盖宽阔的中间区间,且常呈现多峰——24个省份的分布并不均匀,内部存在多个子群。
  • CO2总量的簇内差异最大:密度曲线最为扁平,说明即使在同一聚类内部,各省的排放总量也有显著梯度。

分析意义:散点矩阵将多维关系拆解为两两平面视图,帮助识别关键指标间的非线性关系和聚类内部的异质性。三个核心指标的两两关系为政策着力点提供了方向——降煤、提效、优结构。


图10 — 各聚类簇指标均值对比

展示内容:7个指标在三个聚类簇中的均值(柱高)和标准差(误差线),颜色对应聚类。需注意:簇3仅含北京1个样本,不适合纳入常规 Kruskal-Wallis 显著性检验,只能作为典型个案解释。

关键发现

  • 显著性结论需要收窄表述:原代码实际只对样本量≥2的簇进行 K-W 检验,单省簇北京被排除,因此不能写成“三个聚类簇均显著”。更严谨的说法是:高碳煤基型(5省)与中间过渡型(24省)在多数指标上存在显著差异;北京作为低碳结构型个案用于定性识别。
  • 簇1(5省)的均值优势是全方位的:在CO2总量(628Mt vs 341Mt vs 72Mt)、人均CO2(24.1t vs 7.1t vs 3.3t)、碳强度(3.15 vs 0.94 vs 0.16)上分别是簇2的1.8倍、3.4倍、3.4倍。
  • 煤炭排放占比的簇间差异最大:簇1均值91%,簇2均值70%,簇3仅2%——三个簇代表了截然不同的能源结构阶段。
  • 单位能耗碳排放的簇间差异最小:簇1(2.91)与簇2(2.06)之间虽有显著差异,但绝对值差距仅0.85,说明能源品种的同质性是全国性特征。
  • 簇2的标准差普遍较大:簇2包含24个省份,内部变异系数高于其他两个簇(如CO2总量的 CV=52%),进一步验证了簇2内部需要 Jenks 子级分类的必要性。

分析意义:聚类对比图从数值特征上验证了分类方案的解释力;统计显著性主要支持多样本簇之间的差异,单省簇应作为结构性典型个案而非显著性检验对象。


综合分析结论

三种碳排放模式

类型 省份数 代表省份 核心特征 减排策略
高碳煤基型(簇1) 5 内蒙古、山西 高总量+高人均+高碳强度+高煤依赖 能源转型+产业结构调整
中间过渡型(簇2) 24 山东、广东、江苏 指标参差不齐,需子级细分 差异化施策+能效提升
低碳结构型(簇3) 1 北京 服务业为主+煤占比极低 保持优势+零碳示范

方法论总结

  1. 熵权法赋权合理:CO2总量权重最高(29.5%),经济关联度指标权重最低(合计15.6%),符合信息量原则。
  2. TOPSIS排序有效:内蒙古(0.913)到北京(0.018)的贴近度梯度清晰,Jenks自然断点实现了均匀的5级划分。
  3. 聚类结果稳健:Silhouette=0.439, CH=24.5, DB=0.558,三个簇在统计上具有显著差异。
  4. 7指标覆盖全面:规模-效率-结构三维度基本涵盖碳排放评价的主要方面,未来可考虑增加”清洁能源占比”和”碳汇能力”指标。

本报告由人工撰写,基于 q1_full_solution.py 的输出数据和图表。