一次惊心动魄的性能追凶：从“龟速”查询到索引失效的真相

案发现场：突如其来的性能告警

一个平静的周四下午，监控系统突然亮起刺眼的红灯。我们负责的电商核心数据库集群，其平均查询响应时间（P95）在10分钟内从正常的50ms飙升至惊人的2秒以上，应用侧开始出现大量超时错误，客服电话瞬间被打爆。

登录到 Grafana 监控面板，我们迅速锁定了问题数据库节点。pg_stat_activity 视图显示，有数十个会话长时间处于“active”状态，执行着同一个查询模式。初步判断，这是一起典型的慢查询引发的雪崩效应。

第一步：日志寻踪，锁定“元凶”

PostgreSQL 的日志是我们的第一现场。我们已预先配置 log_min_duration_statement = 1000（记录执行超过1秒的语句）。查看最新的日志文件，一个“熟悉”的查询反复出现：

-- 简化后的问题查询
SELECT order_id, user_id, amount, status, created_at
FROM orders
WHERE user_id = $1
  AND status IN ('paid', 'shipped')
  AND created_at >= $2
ORDER BY created_at DESC
LIMIT 20;

这个查询用于用户中心展示最近的订单，平时运行飞快（<10ms），现在却每条都耗时3-5秒。参数 $1（用户ID）和 $2（比如‘7天前’）都是高频且分散的值，排除了热点数据或单个用户数据暴涨的可能。

第二步：深入虎穴，初探执行计划

我们立刻在测试环境（与生产环境数据量、结构一致）中，抓取了一组典型的参数进行手动分析。使用 EXPLAIN (ANALYZE, BUFFERS) 查看其真实的执行计划：

EXPLAIN (ANALYZE, BUFFERS, VERBOSE)
SELECT order_id, user_id, amount, status, created_at
FROM orders
WHERE user_id = 12345
  AND status IN ('paid', 'shipped')
  AND created_at >= CURRENT_DATE - INTERVAL '7 days'
ORDER BY created_at DESC
LIMIT 20;

令人惊讶的结果如下：

Limit  (cost=15874.28..15874.33 rows=20 width=48) (actual time=3200.456..3200.461 rows=20 loops=1)
  Output: order_id, user_id, amount, status, created_at
  Buffers: shared hit=9854 read=15230
  ->  Sort  (cost=15874.28..15912.47 rows=15276 width=48) (actual time=3200.454..3200.457 rows=20 loops=1)
        Output: order_id, user_id, amount, status, created_at
        Sort Key: orders.created_at DESC
        Sort Method: top-N heapsort  Memory: 27kB
        Buffers: shared hit=9854 read=15230
        ->  Seq Scan on public.orders  (cost=0.00..15123.15 rows=15276 width=48) (actual time=15.667..3185.112 rows=15280 loops=1)
              Output: order_id, user_id, amount, status, created_at
              Filter: ((orders.status = ANY ('{paid,shipped}'::text[])) AND (orders.user_id = 12345) AND (orders.created_at >= (CURRENT_DATE - '7 days'::interval)))
              Rows Removed by Filter: 1254670
              Buffers: shared hit=9854 read=15230
Planning Time: 0.195 ms
Execution Time: 3200.500 ms

关键线索浮出水面：

全表扫描（Seq Scan）：优化器没有使用任何索引，而是对超过125万行（Rows Removed by Filter: 1254670）的表进行了全表扫描。
巨大的IO消耗：Buffers: shared hit=9854 read=15230 表示这次查询产生了大量缓冲区和磁盘读取。
排序代价高：虽然因为 LIMIT 20 最终排序在内存中完成很快，但排序的输入源是全表扫描过滤后的1.5万行数据，而获取这1.5万行数据的代价极高。

第三步：疑点调查：索引去哪儿了？

我们清楚地记得，orders 表上建有相关索引：

CREATE INDEX idx_orders_user_id ON orders(user_id);
CREATE INDEX idx_orders_created_at ON orders(created_at);
CREATE INDEX idx_orders_status ON orders(status);
-- 还有一个为这个查询量身定制的复合索引
CREATE INDEX idx_orders_user_status_created ON orders(user_id, status, created_at DESC);

理论上，优化器应该优先选择 idx_orders_user_status_created 这个最匹配的复合索引。为什么它失效了？

我们检查了索引的使用情况，并手动使用 EXPLAIN 查看不同索引条件下的计划：

-- 强制禁用顺序扫描，看优化器会选哪个索引（仅用于诊断，切勿在生产环境使用SET）
SET enable_seqscan = OFF;
EXPLAIN SELECT ...; -- 同上查询
SET enable_seqscan = ON;

强制禁用全表扫描后，优化器果然选择了 idx_orders_user_status_created 索引，且估算成本极低。这说明索引在物理上是可用的，但优化器在默认情况下认为使用它的成本高于全表扫描。

第四步：真相大白：陈旧的统计信息

优化器的选择基于成本估算，而估算的准确性极度依赖 pg_statistic 系统目录中的统计信息。当表数据分布发生重大变化（如大规模导入、删除、字段值分布倾斜）后，如果统计信息没有及时更新，优化器就会“误判”。

我们检查了该表的统计信息：

SELECT schemaname, tablename, last_analyze, last_autoanalyze, n_mod_since_analyze
FROM pg_stat_user_tables
WHERE tablename = 'orders';

发现 last_autoanalyze 是24小时前，而 n_mod_since_analyze（自上次分析后的修改行数）高达数十万！原来，在凌晨进行了一场大型营销活动，产生了海量订单，彻底改变了 user_id 和 created_at 字段的数据分布。autovacuum 虽然触发了，但可能因为系统负载或阈值设置，autoanalyze 未能及时跟上，导致统计信息严重过期。

对于 WHERE user_id = $1 这样的条件，优化器依赖 user_id 列的 n_distinct（唯一值数量）等统计信息来估算返回行数。过时的信息使其严重低估了符合条件的行数（可能误估为几千行），从而认为全表扫描+过滤比走索引回表更划算。

第五步：紧急修复与验证

立即解决方案： 手动更新统计信息。

ANALYZE VERBOSE orders;

VERBOSE 输出显示，系统重新统计了所有字段的分布情况。

再次执行 EXPLAIN ANALYZE：

Limit  (cost=8.61..8.66 rows=20 width=48) (actual time=0.048..0.050 rows=20 loops=1)
  ->  Index Scan Backward using idx_orders_user_status_created on public.orders  (cost=0.43..8.61 rows=20 width=48) (actual time=0.046..0.048 rows=20 loops=1)
        Index Cond: ((orders.user_id = 12345) AND (orders.status = ANY ('{paid,shipped}'::text[])) AND (orders.created_at >= (CURRENT_DATE - '7 days'::interval)))
Planning Time: 0.191 ms
Execution Time: 0.072 ms

完美！ 执行计划变为了预期的反向索引扫描（因为索引按 created_at DESC 创建，ORDER BY created_at DESC 可以直接利用索引顺序），成本从 15000+ 骤降到 8.61，实际执行时间从 3200ms 降到 0.07ms！监控图表上的响应时间曲线应声回落。

复盘总结与长效机制

这次故障的根本原因是 “统计信息过时导致优化器错误地放弃了高效索引，选择了全表扫描”。

我们建立的长期防护机制：

监控强化：在监控系统中增加对 pg_stat_user_tables.n_mod_since_analyze 的监控，对核心表设置阈值告警（如修改行数超过总行数10%即告警）。

参数调优：适当调低 autovacuum_analyze_scale_factor 和 autovacuum_analyze_threshold，让 autoanalyze 对数据变化更敏感。

# postgresql.conf 或表级设置
autovacuum_analyze_scale_factor = 0.01  # 默认0.1，改为1%
autovacuum_analyze_threshold = 500      # 默认50，适当提高基础阈值

查询审查：对于核心查询，定期（如每周）使用 EXPLAIN 检查其执行计划是否稳定，特别是在发布新功能或数据迁移后。
预案准备：将 ANALYZE <table_name> 写入高频变更表的运维手册，作为数据批量操作后的规定动作。

排查流程思维导图：

性能告警
    ↓
检查活跃会话 (`pg_stat_activity`)
    ↓
查看慢查询日志 (`log_min_duration_statement`)
    ↓
定位问题SQL语句
    ↓
使用 `EXPLAIN (ANALYZE, BUFFERS)` 分析执行计划
    ↓
检查是否使用了预期索引
    ↓
    ├─ 是 → 分析索引效率、参数绑定等问题
    ↓
    └─ 否 → 怀疑优化器误判
            ↓
            检查统计信息时效性 (`pg_stat_user_tables`)
            ↓
            手动更新统计信息 (`ANALYZE`)
            ↓
            验证执行计划是否改善
            ↓
            调整 autovacuum 相关参数或建立监控

通过这次实战，我们深刻体会到，数据库性能优化不仅是创建正确的索引，更需要一个持续观察、分析和维护的闭环。EXPLAIN 是我们的手术刀，而准确的统计信息则是确保手术刀划对位置的X光片。

文档信息

本文作者：JiliangLee
本文链接：https://leejiliang.cn/2025/12/21/%E6%80%A7%E8%83%BD%E6%95%85%E9%9A%9C%E7%9C%9F%E5%AE%9E%E6%A1%88%E4%BE%8B%E5%A4%8D%E7%9B%98%E4%BB%8E%E6%85%A2%E6%9F%A5%E8%AF%A2%E5%88%B0%E6%A0%B9%E5%9B%A0%E5%AE%9A%E4%BD%8D-%E4%BB%8E%E6%97%A5%E5%BF%97%E5%88%B0-EXPLAIN-%E7%9A%84%E5%AE%8C%E6%95%B4%E6%8E%92%E6%9F%A5%E6%B5%81%E7%A8%8B/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

CODE

一次惊心动魄的性能追凶：从“龟速”查询到索引失效的真相

一次惊心动魄的性能追凶：从“龟速”查询到索引失效的真相

案发现场：突如其来的性能告警

第一步：日志寻踪，锁定“元凶”

第二步：深入虎穴，初探执行计划

第三步：疑点调查：索引去哪儿了？

第四步：真相大白：陈旧的统计信息

第五步：紧急修复与验证

复盘总结与长效机制

文档信息

Search

Table of Contents