如何使用 strace 跟踪 Linux 进程系统调用延迟？

使用 strace 跟踪 Linux 进程系统调用延迟的核心参数是 `-T`，它会在每个系统调用结束后打印耗时。适用场景为定位单个进程卡顿或异常延迟，风险边界在于 strace 会显著增加被跟踪进程的系统开销，不建议在高负载生产环境直接长期使用。

先说结论：strace 配合 -T 参数可直接显示系统调用耗时，适合调试单进程延迟问题，但需警惕性能损耗。

命令速用版

strace -T -p <PID>

strace -T -o output.log -p <PID>

strace 通过 ptrace 机制拦截进程与内核的交互，-T 参数指示其计算并打印每次调用的 wall-clock 时间。

因为每次系统调用都需要陷入内核态并被 strace 捕获记录，这会引入额外的上下文切换和日志写入开销，导致被跟踪进程运行变慢。

1. 获取目标进程 ID：使用 pidof 命令或 ps aux 查找进程 PID。

2. 执行跟踪命令：在终端运行 strace -T -p <PID>，若有权限问题需加 sudo。

3. 筛选系统调用：若输出过多，使用 -e 参数指定特定调用，例如 strace -T -e open,read -p <PID>。

4. 保存跟踪结果：添加 -o 文件名参数将输出重定向到文件，避免终端刷屏影响观察。

检查 strace 输出行末尾是否出现 <...> 后跟的数字，该数字单位为秒，代表该系统调用耗时。

例如 read 调用后显示 <... read 返回了 0.005231>，表示耗时约 5 毫秒。

1. 生产环境风险：strace 会导致被跟踪进程性能下降，高并发场景可能引发服务超时或雪崩。

2. 权限不足：普通用户无法跟踪其他用户的进程，需使用 root 权限或具备 CAP_SYS_PTRACE 能力。

3. 输出缓冲：若将输出重定向到文件，默认可能行缓冲，进程崩溃时可能丢失部分日志，建议用 -o 直接写入。

会显著影响。strace 会强制被跟踪进程在每次系统调用时暂停并等待记录，增加延迟。

使用 -e 参数指定，例如 strace -e network -p <PID> 仅跟踪网络相关调用。

不需要。strace -p 可以直接附加到正在运行的进程 ID 上进行跟踪。

1. strace man page, "strace - trace system calls and signals", https://man7.org/linux/man-pages/man1/strace.1.html