深入解析PostgreSQL存储引擎：MVCC工作流、死行产生与VACUUM清理机制

PostgreSQL作为一款功能强大的开源关系型数据库，其稳定性和性能表现深受开发者信赖。这一切的背后，离不开其精心设计的存储引擎与并发控制机制。本文将深入探讨PostgreSQL存储引擎的核心——MVCC（多版本并发控制）的工作原理，解析其独特的工作流、死行的产生原因，并详细阐述VACUUM清理机制如何保障数据库的健康运行。

一、PostgreSQL存储引擎基础

在深入MVCC之前，我们先了解PostgreSQL存储引擎的几个基本概念。数据在磁盘上以“堆”（Heap）的形式组织，每个表对应一个或多个堆文件。每一行数据（称为一个元组，Tuple）除了存储用户数据外，还包含几个关键的系统列：

xmin：插入该行版本的事务ID（XID）。
xmax：删除或锁定该行版本的事务ID。初始为0（无效）。
ctid：该行版本在当前表中的物理位置（块号，块内偏移量）。它是行版本的唯一物理标识符。

这些隐藏列是MVCC实现的基础。我们可以通过显式指定来查看它们：

-- 创建一个测试表并插入数据
CREATE TABLE test_mvcc (id SERIAL PRIMARY KEY, name TEXT);
INSERT INTO test_mvcc (name) VALUES ('Alice'), ('Bob');

-- 查看包含系统列的数据
SELECT xmin, xmax, ctid, * FROM test_mvcc;

-- 输出可能类似于：
--  xmin | xmax | ctid  | id | name
-- ------+------+-------+----+-------
--   688 |    0 | (0,1) |  1 | Alice
--   688 |    0 | (0,2) |  2 | Bob

输出说明：xmin=688表示这两个行版本都是由事务ID 688插入的；xmax=0表示它们尚未被删除；ctid指向了它们的物理位置。

二、MVCC（多版本并发控制）工作流详解

MVCC的核心思想是：在修改数据时，不直接覆盖原有数据，而是创建数据的一个新版本（即新元组）。读操作基于一个“快照”（Snapshot）进行，这个快照定义了当前事务能看到哪些版本的数据。这完美地解决了读写冲突，实现了不同隔离级别下的并发控制。

1. 核心组件：事务ID与快照

事务ID (XID)： PostgreSQL为每个事务分配一个唯一的、单调递增的ID（回卷问题有特殊处理，此处不展开）。它是判断行版本可见性的关键依据。
事务快照 (Snapshot)：一个数据结构，记录了在快照生成时刻：
- 哪些事务是活跃的（xip_list）。
- 最老的活动事务ID（xmin）。
- 下一个即将分配的事务ID（xmax）。
- 快照的生成规则决定了事务的隔离级别（如读已提交、可重复读）。

2. MVCC工作流程实例

让我们通过一个并发场景来理解MVCC的工作流。

场景：事务A（XID=700）长时间读取数据，同时事务B（XID=701）更新了同一行数据。

-- 时间点 T1: 事务A开启（隔离级别为默认的“读已提交”或“可重复读”）
BEGIN; -- 事务A，假设其XID为700
SELECT txid_current(); -- 可查看当前事务ID，假设返回700

-- 时间点 T2: 事务A读取id=1的行
SELECT xmin, xmax, ctid, * FROM test_mvcc WHERE id = 1;
-- 输出: (688, 0, (0,1), 1, 'Alice') -- 看到的是旧版本V1

-- 时间点 T3: 事务B开启并更新同一行
BEGIN; -- 事务B，XID=701
UPDATE test_mvcc SET name = 'Alice_New' WHERE id = 1;
COMMIT; -- 提交后，新版本V2对后续事务可见
-- 此时，表中存在两个物理行版本：
-- V1: ctid=(0,1), xmin=688, xmax=701 (因为被701更新/逻辑删除)
-- V2: ctid=(0,3), xmin=701, xmax=0

-- 时间点 T4: 事务A再次读取id=1的行
-- 情况取决于事务A的隔离级别：
-- a) 若为“读已提交”(READ COMMITTED): 事务A会重新获取快照，能看到V2。
--    SELECT xmin, xmax, ctid, * FROM test_mvcc WHERE id = 1;
--    输出: (701, 0, (0,3), 1, 'Alice_New')
-- b) 若为“可重复读”(REPEATABLE READ): 事务A沿用T2时的快照，根据快照规则判断V1可见，V2不可见（因为701在快照中可能是活跃的或在其之后）。
--    SELECT xmin, xmax, ctid, * FROM test_mvcc WHERE id = 1;
--    输出: (688, 701, (0,1), 1, 'Alice') -- 仍然看到旧版本V1

COMMIT; -- 事务A结束

流程总结：

UPDATE操作：并非原地更新。它首先将旧元组（V1）的xmax标记为当前事务ID（701），表示该版本被此事务逻辑删除。然后插入一个全新的元组（V2），其xmin设置为701。
SELECT操作：根据当前事务的快照和行版本的xmin/xmax，应用一套复杂的可见性判断规则来决定哪个版本对当前事务可见。核心逻辑是：一个行版本对当前事务可见，当且仅当创建它的事务（xmin）在当前事务快照中已提交且非活跃，并且删除它的事务（xmax，如果有效）在当前事务快照中未提交或不存在。

3. DELETE与INSERT操作

DELETE：类似于UPDATE的第一步，只是将旧元组的xmax标记为当前事务ID，不插入新元组。
INSERT：直接插入新元组，xmin为当前事务ID，xmax为0。

三、死行的产生与膨胀

从上述流程可以看出，每次UPDATE和DELETE都不会立即物理删除旧数据，而是产生一个“死行”（Dead Tuple）。死行是指那些不再被任何活跃事务（或未来任何事务）可见的行版本。

UPDATE：产生1个死行（旧版本）。
DELETE：产生1个死行（被标记删除的版本）。
HOT UPDATE：如果UPDATE不修改任何索引键值，且新版本能放入同一数据页，PostgreSQL会尝试使用HOT（Heap-Only Tuple）技术。这可以避免创建新的索引条目，减少索引膨胀，但旧版本依然是死行。

死行积累的后果：

表膨胀：表文件物理尺寸不断增大，但有效数据量可能变化不大，浪费磁盘空间。
性能下降：查询需要扫描更多的物理块（包含死行），降低了顺序扫描的效率。索引扫描也需要回表访问可能已“失效”的堆元组，增加IO。
事务ID回卷风险：长期不清理，可能导致用于判断可见性的XID耗尽（32位），引发严重故障。

四、VACUUM清理机制

为了解决死行问题，PostgreSQL引入了VACUUM机制。它的主要任务就是回收死行占用的空间以供复用，并更新用于优化器统计和可见性判断的内部信息。

1. VACUUM的类型

标准VACUUM (Concurrent VACUUM)：
```
VACUUM [VERBOSE] [ANALYZE] table_name;
-- 或清理整个数据库
VACUUM;
```
- 非阻塞：在清理过程中，表可以正常进行读写操作（DML）。
- 主要动作：
  - 扫描表，识别死行。
  - 将死行占用的空间标记为“可复用”，记录在表的空闲空间映射（FSM） 中，但不将空间释放给操作系统。
  - 清理索引（如果指定了FULL则重建，标准VACUUM只清理死索引条目）。
  - 更新表的统计信息（如果使用了ANALYZE选项）。
  - 冻结（Freeze）旧的元组xmin，防止事务ID回卷。
- 适用场景：常规维护，建议配置autovacuum自动执行。
VACUUM FULL：
```
VACUUM FULL [VERBOSE] table_name;
```
- 阻塞：需要对表加排他锁，阻塞所有操作。
- 主要动作：创建一个全新的、不含死行的数据文件，完全重建表和所有索引，并将旧文件删除，将磁盘空间释放给操作系统。
- 适用场景：表严重膨胀，且系统有维护窗口时使用。需谨慎，因其影响业务且可能更慢。

2. 自动清理守护进程：Autovacuum

生产环境中，手动执行VACUUM是不现实的。PostgreSQL提供了autovacuum守护进程，它自动监控表的更新/删除活动，当死行数量超过阈值时自动触发标准VACUUM。

关键配置参数（postgresql.conf）：

autovacuum = on # 默认开启，强烈建议保持开启
track_counts = on # 必须开启，用于收集统计信息

# 触发autovacuum的阈值公式
# 触发条件：死行数 > autovacuum_vacuum_threshold + autovacuum_vacuum_scale_factor * 活行数
autovacuum_vacuum_threshold = 50    # 最小死行数阈值
autovacuum_vacuum_scale_factor = 0.2 # 表大小的缩放系数（20%）

# 例如，一个10000行的表，当死行数 > 50 + 0.2*10000 = 2050 时，会触发autovacuum。

# 为特定大表调整参数（可在表级别ALTER TABLE设置）
# ALTER TABLE large_table SET (autovacuum_vacuum_scale_factor = 0.05, autovacuum_vacuum_threshold = 1000);

3. 监控与优化建议

监控死行与VACUUM活动：

-- 查看表的死行比例和上次清理信息
SELECT schemaname, relname,
       n_live_tup, n_dead_tup,
       round(n_dead_tup::numeric / (n_live_tup + n_dead_tup + 1) * 100, 2) as dead_ratio,
       last_autovacuum, last_autoanalyze
FROM pg_stat_user_tables
ORDER BY n_dead_tup DESC
LIMIT 10;

-- 查看当前正在运行的autovacuum进程
SELECT datname, usename, query, state FROM pg_stat_activity WHERE query LIKE '%autovacuum%' OR query LIKE '%VACUUM%';

优化建议：
1. 保持autovacuum开启并合理调参：对于非常庞大的表，降低scale_factor并提高threshold，避免因微小改动就触发全局扫描。
2. 关注长事务：长事务会阻止其开始前产生的死行被清理，因为那些死行可能对该长事务仍可见。监控pg_stat_activity中的长查询。
3. 分区：对大表进行分区，VACUUM可以更高效地针对单个分区操作，减少每次的工作量。
4. 定期监控：将死行比例和未冻结XID年龄纳入监控告警。
5. 慎用VACUUM FULL：优先尝试通过调整autovacuum参数、在业务低峰期手动执行VACUUM (ANALYZE)或使用pg_repack（在线重组工具）来解决膨胀问题。

总结

PostgreSQL的MVCC机制通过多版本和快照技术，优雅地实现了高并发下的数据一致性。然而，这种“写时复制”的代价就是会产生死行，导致存储膨胀。VACUUM及其自动化身autovacuum是维持数据库健康、稳定、高性能运行的“清道夫”。深入理解MVCC的工作流与VACUUM的清理原理，是进行PostgreSQL性能调优、容量规划和故障排查的基石。合理地配置和维护这套机制，才能让PostgreSQL在重负载的生产环境中持续稳定地提供服务。

文档信息

本文作者：JiliangLee
本文链接：https://leejiliang.cn/2025/12/11/Postgres-%E5%AD%98%E5%82%A8%E5%BC%95%E6%93%8E%E4%B8%8E-MVCC-%E5%8E%9F%E7%90%86%E8%AF%A6%E8%A7%A3-MVCC-%E7%9A%84%E5%B7%A5%E4%BD%9C%E6%B5%81%E6%AD%BB%E8%A1%8C%E4%BA%A7%E7%94%9F%E4%B8%8E%E6%B8%85%E7%90%86%E6%9C%BA%E5%88%B6/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

CODE

深入解析PostgreSQL存储引擎：MVCC工作流、死行产生与VACUUM清理机制

深入解析PostgreSQL存储引擎：MVCC工作流、死行产生与VACUUM清理机制

一、PostgreSQL存储引擎基础

二、MVCC（多版本并发控制）工作流详解

1. 核心组件：事务ID与快照

2. MVCC工作流程实例

3. DELETE与INSERT操作

三、死行的产生与膨胀

四、VACUUM清理机制

1. VACUUM的类型

2. 自动清理守护进程：Autovacuum

3. 监控与优化建议

总结

文档信息

Search

Table of Contents