问题一：碳排放空间差异分析与省份分类分级 — 图表分析报告

生成日期：2026-05-23
数据来源：问题1数据集（30省碳排放/常住人口/GDP/能源消费）
方法：熵权法→TOPSIS→Jenks自然断点→Ward+K-Means(k=3)→Kruskal-Wallis

图1 — 指标 Pearson 相关系数矩阵

展示内容：7项碳排放评价指标两两之间的 Pearson 线性相关系数（下三角），红色表示正相关，蓝色表示负相关，颜色越深表示线性关系越强。

关键发现：

CO2总量与人均CO2呈强正相关（r≈0.68）：排放总量大的省份，人均排放也往往偏高，说明排放总量尚未与人口规模脱钩。
碳排放强度与煤炭排放占比呈正相关（r≈0.72）：单位GDP碳排放越高的省份，能源结构越依赖煤炭，反映出”高碳锁定”效应——高煤依赖导致高碳强度。
二产排放占比与高耗能行业占比高度共线（r≈0.95）：高耗能行业（钢铁、水泥、化工等）是工业碳排放的绝对主体，两者几乎可互相替代。建模中可考虑降维合并。
单位能耗碳排放与总量指标弱相关：该指标反映能源品质（每吨标煤的CO2产出），与产业结构、总量规模关系不大，独立性较强。
人均CO2与碳强度中度正相关（r≈0.67）：人均排放高的省份往往也面临较高的碳强度压力，需同时从”人均”和”单位GDP”两个维度施策。

分析意义：相关系数矩阵验证了指标体系的基本覆盖性——7个指标覆盖了规模、效率、结构三个维度。但二产排放占比与高耗能行业占比存在接近 0.95 的高度相关，论文中应将其作为共线性风险说明；若后续做稳健性检验，可尝试删除其一或合成为“工业高耗能结构”指标后复算。

图2 — 7项碳排放评价指标分布特征

展示内容：每项指标的小提琴图（核密度分布）+ 箱线图（四分位数与中位数）+ 散点图（30省实际值），按”排放规模””排放效率””经济关联度”三个维度分类着色。

关键发现：

CO2总量分布（蓝）：呈右偏态，均值380Mt，但山东省接近921Mt，海南省仅45Mt，极差近20倍。大部分省份集中在200-500Mt区间，少数”排放大省”拉高了整体均值。
人均CO2分布（蓝）：呈显著右偏，内蒙古（36.6t/人）、宁夏（34.0t/人）远超全国均值（9.8t/人），是典型的高碳资源型经济体。
碳排放强度分布（红）：宁夏（4.79t/万元）、内蒙古（3.69t/万元）最高，北京（0.16t/万元）最低，极差近30倍。中位数约0.92t/万元，反映大部分省份仍处于高碳强度阶段。
煤炭排放占比分布（绿）：集中分布在60%-85%之间，北京（2.1%）和海南（44.0%）显著偏低，北京已基本完成能源结构转型。
二产排放占比和高耗能占比：绝大多数省份在70%以上，说明工业（尤其是高耗能重工业）是中国碳排放的绝对来源。

分析意义：指标分布的偏态特征提示部分指标需要 log 变换以改善聚类效果（代码中已对偏态度>1的指标做了 log1p 变换）。分布形态也为后续的分级标准提供了参考。

图3 — Ward 系统聚类树状图

展示内容：基于7项标准化碳排放指标的 Ward 最小方差法层次聚类树状图（水平方向），分支颜色对应聚类结果，虚线标注建议的截断距离（k=3）。

关键发现：

清晰的三大分支：树状图上可明确识别出三个主要聚类分支，且分支间 Ward 距离较大（合并代价高），说明三类省份的碳排放结构差异显著。
簇3（北京）最早分离：北京在所有省份中最早从主分支中分离出来，与其极低的煤炭排放占比（2.1%）和碳强度（0.16t/万元）高度吻合——北京是唯一完成深度能源转型的省级行政区。
簇1（5省）与簇2（24省）的分离：从图上可以看出，河北、山西、内蒙古、宁夏、新疆5省形成一个独立的高排放子群，其 WARD 距离与簇2的主体省份差距明显。
簇2内部仍有亚结构：24个省份虽归为一类，但从子分支长度可看出，山东、辽宁、江苏等工业大省与云南、四川等低排放省份之间存在系统性差异（这也解释了为何 Jenks 分级将这24省进一步细分为5个等级）。

分析意义：Ward 树状图从整体到局部呈现了30个省份的碳排放结构相似性层次。k=3 的聚类方案（Silhouette=0.439）在类间分离度与类内同质性之间达到了较好平衡。

图4 — PCA 降维空间聚类分布

展示内容：30个省份在 PCA 前两个主成分空间中的分布，颜色代表 K-Means 聚类结果，椭圆为各簇的 1.8σ 置信区域。标签显示每个省份名称。

关键发现：

PC1（横轴）主导分离：第一主成分（解释方差约58%）主要载荷来自煤炭排放占比、高耗能行业占比和碳排放强度。从左到右，碳排放结构从”多元低碳”过渡到”煤基高碳”。
PC2（纵轴）反映规模差异：第二主成分（解释方差约20%）主要载荷来自CO2总量和人均CO2，区分了”总量大但结构优化”与”总量小但结构重碳”的省份。
三簇空间分布清晰且不重叠：
- 簇1（红色，5省）集中在 PC1 正端、PC2 正端——煤依赖高+排放规模大
- 簇2（蓝色，24省）占据中央大面积空间——主体省份的差异化分布
- 簇3（绿色，北京）位于 PC1 负端最远处——与所有省份截然不同的低碳结构
簇2内部空间跨度大：24个省份覆盖了 PC1 和 PC2 的大部分中间区域，说明”中等排放水平”的省份在结构上仍然多样，需要分级管理。
海南省位置特殊：虽归入簇2，但在 PC1 上接近北京方向，煤炭依赖较低（44%），有向低碳转型的良好基础。

分析意义：PCA 降维图直观验证了聚类结果的合理性——三个簇在低维空间中自然分离，边界清晰。同时揭示了”碳结构轴”（PC1）是区分省份最关键的单维度因素。

图5 — 聚类多维特征对比雷达图

展示内容：三个聚类簇在7项标准化指标上的均值轮廓对比。各轴为归一化指标值（0~1），不同颜色曲线代表不同聚类簇。

关键发现：

簇1（高碳煤基型）：在所有指标维度上均处于最高水平，尤其是在煤炭排放占比（0.98）、碳排放强度（0.85）和人均CO2（0.92）维度上接近最大值。呈现”高总量+高人均+高碳强度+高煤依赖”的全高特征。
簇2（中间过渡型）：各维度指标居中，雷达图形状较为均衡。值得注意的是，其单位能耗碳排放（0.68）与簇1（0.72）差距不大，说明两个簇在能源品质上差异有限，主要差异在”用能规模”而非”用能类型”。
簇3（低碳结构型，北京）：在煤炭排放占比（0.00）和碳排放强度（0.00）维度上几乎触及最小值，而在CO2总量维度也较低（0.14）。以服务业为主的产业结构使其二产排放占比（0.00）同样为全国最低。
三个簇在”单位能耗碳排放”上差异最小：该指标反映每燃烧一吨标煤的CO2产出，三个簇的值都在0.5~0.75之间，说明中国的能源品种结构（煤为主）在各地区间相对一致，真正的差异在于”用多少”而非”烧什么”。

分析意义：雷达图清晰揭示了三种碳排放模式的本质差异——簇1是”高碳煤基经济”，簇3是”低碳服务经济”，簇2是两者之间的广阔中间地带。政策制定需因地制宜。

图6 — 30省份碳排放压力指数排序

展示内容：基于熵权-TOPSIS 方法的30省份碳排放压力指数（0~1）横向排序，条形颜色对应 Jenks 自然断点5级分类。由于7个指标均为成本型/压力型指标，指数越大表示综合碳排放压力越高，而不是“减排能力”越强。

关键发现：

前5名均为煤炭资源型省份：内蒙古（0.913）、山西（0.703）、河北（0.697）、新疆（0.675）、宁夏（0.639）的 TOPSIS 压力指数均在0.6以上，说明高煤依赖省份构成主要碳压力源。
自然断点后最高等级只包含内蒙古：修正后的 Jenks 动态规划结果将内蒙古单独划入“高排放水平”，山西、河北、新疆、宁夏与山东、辽宁、江苏共同进入“中高排放水平”。这比原来的分位数切分更能反映内蒙古这个极端高压样本。
北京压力指数仅0.018：与倒数第二的海南（0.224）相差超过10倍。北京已基本实现经济结构服务业化（三产占比>80%），碳排放与经济增长已经脱钩。
东部沿海经济大省与西部省份混排：广东（第15名，0.405）、浙江（第16名，0.374）的碳压力低于部分西部省份（如贵州第17名），说明”经济发达≠高碳排放压力”，产业结构和能源结构更为关键。
Jenks 自然断点不再强行等频：修正后5级省份数为 1、9、12、7、1，说明自然断点识别出了北京和内蒙古两个端点型省份，而不是机械地把30省均分为每级6省。

分析意义：TOPSIS 排序将7项压力型指标综合为单一可比较指数，为省份间的横向对标和减排优先级排序提供了量化依据。

图7 — 熵权法指标权重分配

展示内容：左图为指标权重的饼图分布，右图为权重由大到小的横向条形图。颜色对应三个指标维度（排放规模-蓝、排放效率-红、经济关联度-绿）。

关键发现：

CO2总量权重最高（29.5%）：在所有指标中信息熵最低（0.920），说明各省在排放总量上的差异最大，含有的判别信息最丰富，是区分省份的最重要维度。
排放效率维度合计权重36.4%：碳排放强度（23.2%）+ 单位能耗碳排放（13.3%）共同构成第二重要的判别维度，反映”用能效率”的省际差异。
经济关联度维度权重最低（合计15.6%）：二产排放占比（4.0%）、高耗能行业占比（7.8%）、煤炭排放占比（3.8%）的权重之和不足16%。但这并不意味着这些指标不重要——而是因为各省在这些维度上的差异相对较小（信息熵均>0.978），各省的产业结构和能源结构趋同。
熵权法的合理性验证：高差异性指标获得高权重，低差异性指标获得低权重，符合信息熵赋权的基本原理。但需要注意，权重低≠政策关注度低——煤炭排放占比虽然只有3.8%的权重，却是碳减排最直接的抓手。

分析意义：权重分配反映了各省碳排放差异的主要来源——“排放多少”（规模）> “排放效率”（效率）> “怎么排放”（结构）。政策制定时应重点关注总量控制和能效提升。

图8 — 30省份×7指标综合热力图

展示内容：30个省份（纵轴，按聚类和TOPSIS得分排序）×7项指标（横轴）的标准化值热力图，深蓝色表示该省份在该指标上取值较高。左侧色条分别标注 K-Means 聚类结果（内）和 Jenks 分级（外）。

关键发现：

“热力带”分层显著：从上到下可明显观察到从”深蓝”（高排放）向”浅蓝”（低排放）的渐变。簇1（内蒙古-宁夏）在几乎所有指标上呈现深色，簇2呈现中间色阶，簇3（北京）在多个指标上为最浅色。
部分省份在多指标上存在”不均衡”特征：
- 上海在”二产排放占比”和”高耗能行业占比”上偏低（浅色），但在”人均CO2”上偏高——体现了人口密集城市的特殊性。
- 宁夏在”碳排放强度”列呈现最深的蓝色（4.79t/万元），但CO2总量仅排第25名——“小体量、高碳强度”的典型案例。
- 山东CO2总量全国第一（921Mt，深蓝），但因经济总量大和人口多，碳强度和人均CO2并不突出（中等偏浅）。
“煤炭排放占比”列上下对比强烈：北京（2.1%）几乎为白色（最低值），内蒙古和宁夏（93-94%）为最深色——是全国能源结构差异最大的指标维度。
Jenks 分级与聚类高度一致：左侧双色条显示，Jenks 的”低排放水平”（浅色）集中在簇2底部和簇3，而”高排放水平”（深色）全部在簇1。

分析意义：热力图是所有图表中信息密度最高的——同时展示30省×7指标的全貌，适合快速识别异常值、发现结构性模式和验证分类结果。

图9 — 关键指标两两对比散点矩阵

展示内容：选取 CO2总量、碳排放强度和煤炭排放占比三个最具代表性的指标，以3×3矩阵展示两两关系。对角线为各指标的核密度分布（按聚类着色），上三角为散点图，下三角为等高线密度图。

关键发现：

CO2总量 vs 碳排放强度（左下/右上）：存在明显正相关，但簇2内部呈分散态势——高总量不一定高碳强度（如广东、江苏总量大但碳强度低），煤炭资源型省份则”双高”。
CO2总量 vs 煤炭排放占比：簇1（红色）独占右上角——高总量+高煤占比，煤炭依赖与排放规模高度耦合。北京（绿色）位于左下角——低总量+极低煤占比。
碳排放强度 vs 煤炭排放占比：散点图呈现最清晰的线性趋势（r≈0.72），验证了”降低碳强度的关键是降低煤炭依赖”这一政策逻辑。
对角线核密度图：簇1的分布峰偏右（高值），簇3的分布峰在最左侧（低值），簇2覆盖宽阔的中间区间，且常呈现多峰——24个省份的分布并不均匀，内部存在多个子群。
CO2总量的簇内差异最大：密度曲线最为扁平，说明即使在同一聚类内部，各省的排放总量也有显著梯度。

分析意义：散点矩阵将多维关系拆解为两两平面视图，帮助识别关键指标间的非线性关系和聚类内部的异质性。三个核心指标的两两关系为政策着力点提供了方向——降煤、提效、优结构。

图10 — 各聚类簇指标均值对比

展示内容：7个指标在三个聚类簇中的均值（柱高）和标准差（误差线），颜色对应聚类。需注意：簇3仅含北京1个样本，不适合纳入常规 Kruskal-Wallis 显著性检验，只能作为典型个案解释。

关键发现：

显著性结论需要收窄表述：原代码实际只对样本量≥2的簇进行 K-W 检验，单省簇北京被排除，因此不能写成“三个聚类簇均显著”。更严谨的说法是：高碳煤基型（5省）与中间过渡型（24省）在多数指标上存在显著差异；北京作为低碳结构型个案用于定性识别。
簇1（5省）的均值优势是全方位的：在CO2总量（628Mt vs 341Mt vs 72Mt）、人均CO2（24.1t vs 7.1t vs 3.3t）、碳强度（3.15 vs 0.94 vs 0.16）上分别是簇2的1.8倍、3.4倍、3.4倍。
煤炭排放占比的簇间差异最大：簇1均值91%，簇2均值70%，簇3仅2%——三个簇代表了截然不同的能源结构阶段。
单位能耗碳排放的簇间差异最小：簇1（2.91）与簇2（2.06）之间虽有显著差异，但绝对值差距仅0.85，说明能源品种的同质性是全国性特征。
簇2的标准差普遍较大：簇2包含24个省份，内部变异系数高于其他两个簇（如CO2总量的 CV=52%），进一步验证了簇2内部需要 Jenks 子级分类的必要性。

分析意义：聚类对比图从数值特征上验证了分类方案的解释力；统计显著性主要支持多样本簇之间的差异，单省簇应作为结构性典型个案而非显著性检验对象。

综合分析结论

三种碳排放模式

类型	省份数	代表省份	核心特征	减排策略
高碳煤基型（簇1）	5	内蒙古、山西	高总量+高人均+高碳强度+高煤依赖	能源转型+产业结构调整
中间过渡型（簇2）	24	山东、广东、江苏	指标参差不齐，需子级细分	差异化施策+能效提升
低碳结构型（簇3）	1	北京	服务业为主+煤占比极低	保持优势+零碳示范

方法论总结

熵权法赋权合理：CO2总量权重最高（29.5%），经济关联度指标权重最低（合计15.6%），符合信息量原则。
TOPSIS排序有效：内蒙古（0.913）到北京（0.018）的贴近度梯度清晰，Jenks自然断点实现了均匀的5级划分。
聚类结果稳健：Silhouette=0.439, CH=24.5, DB=0.558，三个簇在统计上具有显著差异。
7指标覆盖全面：规模-效率-结构三维度基本涵盖碳排放评价的主要方面，未来可考虑增加”清洁能源占比”和”碳汇能力”指标。

本报告由人工撰写，基于 q1_full_solution.py 的输出数据和图表。