榨干CPU性能：PostgreSQL并行查询的奥秘、条件与调优实战

在数据量爆炸式增长的时代，单核CPU的处理能力早已成为数据库性能的瓶颈。PostgreSQL自9.6版本引入并行查询功能以来，经过多个版本的持续增强，已经成为处理大规模数据分析、复杂聚合计算的利器。但你是否遇到过这样的困惑：明明是多核服务器，查询执行时CPU使用率却始终上不去？本文将带你深入PostgreSQL并行查询的内部机制，揭示查询“并行化”的秘密，并提供一套行之有效的调优方案，让你的查询真正飞起来。

一、并行查询的核心原理：Worker进程池模型

PostgreSQL采用主-从（Leader-Worker）进程模型来实现并行查询。当你提交一个可并行的查询时，会发生以下过程：

领导者进程（Leader）：即接收到客户端查询的后端进程。它负责解析SQL、生成并行执行计划、启动工作进程，并最终汇总结果返回给客户端。
工作者进程（Worker）：由领导者进程动态fork出来的子进程。每个工作者进程执行整个查询计划的一部分，例如扫描某个表分区的一部分数据。
动态共享内存（Dynamic Shared Memory）：用于领导者和工作者之间、以及工作者彼此之间交换数据和同步状态。这是并行执行得以进行的基础设施。

一个典型的并行扫描过程如下图所示（想象一个全表扫描）：

领导者进程
    |
    | 启动N个工作进程，分配扫描范围
    |
    v
[Worker 1] 扫描 rows 1~m   ---\
[Worker 2] 扫描 rows m+1~n  ----> 通过共享内存传递数据块给领导者
[Worker 3] 扫描 rows n+1~p  ---/
    ^
    |
    | 领导者进程汇总、排序、聚合...
    |
返回最终结果给客户端

二、查询能否并行的关键条件

不是所有查询都能享受并行加速。PostgreSQL优化器会基于一系列严格的规则和成本估算来决定是否启用并行。以下是核心条件：

1. 配置参数必须允许并行

首先，服务器和会话级别的参数必须打开并行开关：

-- 关键参数
max_worker_processes = 8           -- 系统总worker进程数上限
max_parallel_workers_per_gather = 4 -- 单个Gather节点最多可用的worker数（通常<=max_worker_processes）
parallel_setup_cost = 1000.0       -- 优化器估算的启动worker进程的成本
parallel_tuple_cost = 0.1          -- 优化器估算的进程间传递一个元组的成本
min_parallel_table_scan_size = 8MB -- 触发并行表扫描的最小表大小
min_parallel_index_scan_size = 512kB -- 触发并行索引扫描的最小索引大小

-- 临时在会话中设置
SET max_parallel_workers_per_gather = 4;
SET parallel_tuple_cost = 0.05; -- 降低传递成本，鼓励优化器使用并行

2. 查询类型与操作支持并行

PostgreSQL对以下操作提供了并行支持：

并行顺序扫描（Parallel Seq Scan）
并行索引扫描（Parallel Index Scan）
并行位图堆扫描（Parallel Bitmap Heap Scan）
并行连接（Nested Loop, Hash Join, Merge Join）
并行聚合（Partial Aggregate）：这是性能提升的关键，工作者先做局部聚合，领导者再做最终聚合。
并行排序（Parallel Sort）

不支持并行或会禁用并行的常见情况：

查询包含CTE（公共表表达式）的非物化部分（但WITH ... AS MATERIALIZED可以）。
查询中包含nextval()序列函数调用（除非使用ALTER SEQUENCE ... CACHE增大缓存）。
游标（CURSOR）查询。
事务隔离级别为可序列化（SERIALIZABLE）。
查询中调用了PARALLEL UNSAFE标记的函数。

3. 成本估算必须划算

优化器会对比串行执行计划和并行执行计划的估算成本。只有当并行计划的成本（计算方式：串行部分成本 + 并行启动成本 + 进程间通信成本）显著低于串行计划时，才会选择并行。

你可以通过EXPLAIN (ANALYZE, BUFFERS)来观察优化器的决策：

EXPLAIN (ANALYZE, BUFFERS)
SELECT customer_id, SUM(order_amount)
FROM large_orders
WHERE order_date >= '2023-01-01'
GROUP BY customer_id;

-- 观察输出中是否出现 “Gather” 或 “Gather Merge” 节点
-- 以及其 Workers Planned 和 Workers Launched 数量

一个使用了并行查询的计划可能如下所示：

Finalize GroupAggregate
  ->  Gather Merge
        Workers Planned: 4
        Workers Launched: 4
        ->  Partial GroupAggregate
              ->  Parallel Seq Scan on large_orders
                    Filter: (order_date >= '2023-01-01')

这里，Gather Merge节点表明启动了4个工作进程进行并行扫描和部分聚合。

三、实战调优要点：从配置到查询

1. 系统与参数调优

平衡max_parallel_workers_per_gather：设置过高会消耗过多CPU和内存，可能影响系统整体吞吐量。通常设置为物理核心数的1/2到2/3。例如，8核机器可设置为4或5。
调整成本参数：对于CPU密集型、I/O快的系统（如全内存操作或NVMe SSD），可以降低parallel_tuple_cost（如0.01）和parallel_setup_cost，使优化器更倾向于并行。
确保足够的内存：并行查询会消耗更多内存，因为每个工作进程都可能需要自己的哈希表或排序空间。关注work_mem参数，如果并行哈希连接溢出到磁盘，性能会急剧下降。
表与索引的维护：定期执行VACUUM ANALYZE，为优化器提供准确的统计信息，这对于做出正确的并行决策至关重要。

2. 查询编写与设计优化

避免并行杀手：检查查询中是否包含PARALLEL UNSAFE的函数。可以通过以下命令查看函数并行安全性：

SELECT proname, proparallel FROM pg_proc WHERE proname = 'your_function_name';
-- `u` = UNSAFE, `r` = RESTRICTED, `s` = SAFE

使用物化CTE：如果必须使用CTE，且其结果集很大，考虑使用WITH ... AS MATERIALIZED强制物化，这样主查询可能仍能并行。
分区表是天然盟友：对超大表进行分区，查询时结合WHERE条件实现分区裁剪，每个分区可以更容易地触发并行扫描，甚至实现分区级的并行（需要合理设置enable_partitionwise_aggregate等参数）。
索引设计：即使并行扫描，合适的索引也能让每个工作进程更快地定位到数据。考虑创建支持主要过滤和连接条件的索引。

3. 监控与诊断

查看活动并行进程：

SELECT pid, query, state, backend_type
FROM pg_stat_activity
WHERE backend_type LIKE '%Parallel%';

使用pg_stat_statements分析：启用此扩展，查看哪些查询从并行中受益最多（比较mean_time和stddev_time）。
观察执行计划详情：使用EXPLAIN (ANALYZE, VERBOSE, BUFFERS)，重点关注：
- Workers Launched是否等于Workers Planned？如果小于，可能是资源不足。
- 每个工作进程的执行时间是否均衡？Worker 0花费的时间远多于其他worker可能意味着数据倾斜。
- 是否有-> Parallel Seq Scan字样，确认并行确实发生。

四、一个完整的调优案例

场景：一个10亿行的订单表orders，需要统计最近一年每个月的销售额，查询很慢。

初始查询与计划：

SELECT
    DATE_TRUNC('month', order_time) as month,
    SUM(amount) as total_amount
FROM orders
WHERE order_time >= NOW() - INTERVAL '1 year'
GROUP BY DATE_TRUNC('month', order_time)
ORDER BY month;

EXPLAIN ANALYZE显示这是一个漫长的顺序扫描，没有并行。

调优步骤：
- 步骤1：检查参数。发现max_parallel_workers_per_gather被设置为默认的2，min_parallel_table_scan_size为默认值。表大小约为300GB。
- 步骤2：调整参数（在会话中测试）：
```
SET max_parallel_workers_per_gather = 6;
SET parallel_tuple_cost = 0.05;
```
- 步骤3：再次执行EXPLAIN ANALYZE。现在计划中出现了Gather和Partial HashAggregate，启动了6个worker，但领导者节点的Finalize HashAggregate阶段花费了很长时间，且所有worker的Shared Hit Blocks很高，说明work_mem可能不足。
- 步骤4：增加work_mem：
```
SET work_mem = '64MB';
```
- 步骤5：优化查询。考虑到按month分组，我们可以在order_time上创建一个索引，并尝试利用索引的并行扫描。但更有效的是，如果业务允许，创建一个order_time的月份分区表。对于现有大表，我们可以创建一个包含月份列的物化视图或投影表，并为其建立索引。
- 步骤6：最终方案。由于是定期报表，我们创建了一个按月的汇总表，并配合并行查询进行增量更新，最终查询时间从分钟级降至秒级。

五、总结与最佳实践

让PostgreSQL查询跑满CPU并非简单地调大参数，而是一个系统工程。以下是核心要点：

理解原理：掌握Leader-Worker模型和并行执行流程是调优的基础。
满足条件：确保配置允许、查询支持、并且成本估算划算。
参数精细化：根据硬件（CPU核心数、内存、磁盘I/O）和负载特征，精细调整max_parallel_workers_per_gather、parallel_tuple_cost和work_mem。
设计先行：表分区、合适的索引、函数并行安全性的考量，应在数据库设计阶段就融入。
持续监控：使用EXPLAIN ANALYZE和各类统计视图，持续观察并行效果，识别数据倾斜或资源瓶颈。

并行查询是PostgreSQL应对大数据量分析的强大武器。通过本文的剖析与实战指南，希望你能够系统地掌握这门“武器”的使用方法，在面对性能挑战时，能够游刃有余地调动所有CPU核心，释放数据库的全部潜力。

文档信息

本文作者：JiliangLee
本文链接：https://leejiliang.cn/2025/12/05/%E5%B9%B6%E8%A1%8C%E6%9F%A5%E8%AF%A2%E4%B8%8E%E5%A4%9A%E6%A0%B8%E5%88%A9%E7%94%A8%E5%A6%82%E4%BD%95%E8%AE%A9%E6%9F%A5%E8%AF%A2%E8%B7%91%E6%BB%A1-CPU-%E5%B9%B6%E8%A1%8C%E6%89%A7%E8%A1%8C%E7%9A%84%E6%9D%A1%E4%BB%B6%E4%B8%8E%E8%B0%83%E4%BC%98%E8%A6%81%E7%82%B9/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

CODE

榨干CPU性能：PostgreSQL并行查询的奥秘、条件与调优实战

榨干CPU性能：PostgreSQL并行查询的奥秘、条件与调优实战

一、并行查询的核心原理：Worker进程池模型

二、查询能否并行的关键条件

1. 配置参数必须允许并行

2. 查询类型与操作支持并行

3. 成本估算必须划算

三、实战调优要点：从配置到查询

1. 系统与参数调优

2. 查询编写与设计优化

3. 监控与诊断

四、一个完整的调优案例

五、总结与最佳实践

文档信息

Search

Table of Contents