怎么优化 Rust 循环中的边界检查提升性能？

在 Rust 中优化循环边界检查的核心是让编译器证明索引不会越界，最推荐优先使用迭代器替代索引访问。仅在性能瓶颈明确且边界可控时使用 unsafe 的 get_unchecked，适用场景为高频循环内的数组访问，风险边界在于 unsafe 代码可能导致内存安全未定义行为。

先说结论：消除边界检查依赖编译器优化能力，优先改用迭代器，unsafe 方法仅作为最后手段。

先定位：使用 cargo flamegraph 或 perf 确认边界检查是热点
先做：优先将索引循环改为迭代器 .iter() 形式
再验证：在 release 模式下对比基准测试耗时

命令速用版

以下是三种常见的循环写法对比，直接替换现有索引访问代码：

// 原始写法（可能有边界检查）
for i in 0..vec.len() {
    sum += vec[i];
}

// 推荐写法（迭代器，通常无检查）
for item in vec.iter() {
    sum += item;
}

// 极端优化（unsafe，需确保不越界）
for i in 0..vec.len() {
    sum += *vec.get_unchecked(i);
}

为什么会这样

Rust 默认在每次数组或切片索引访问时插入运行时边界检查以防止内存不安全。LLVM 编译器后端会在 release 模式下尝试消除这些检查（Bounds Check Elimination），前提是它能静态证明索引值始终在有效范围内。迭代器模式通常比原始索引更容易被编译器优化，因为迭代器的内部状态明确表达了遍历范围。

分步处理

按以下顺序执行优化，每一步完成后需确认功能正常：

确认编译模式：确保使用 cargo build `--release` 或 cargo bench 测试，debug 模式下编译器默认不开启激进优化。
重构为迭代器：将 for i in 0..len() { arr[i] } 替换为 for item in arr.iter() { item }，这通常能直接消除检查。
检查循环依赖：确保循环内部没有动态改变切片长度的操作，否则编译器无法证明边界安全。
谨慎使用 unsafe：若迭代器无法满足需求，使用 get_unchecked 包裹在 unsafe 块中，必须人工保证索引不越界。

怎么验证是否生效

使用基准测试工具对比耗时，或查看生成的汇编代码确认检查指令是否消失。

# 运行基准测试
cargo bench

# 查看汇编（需要 rustup component add llvm-tools）
cargo asm `--release` your_function_name

若汇编中不再出现 cmp 和 ja/jb 等分支跳转指令紧随索引计算之后，说明边界检查已被消除。

常见坑

Debug 模式误导：debug 构建包含大量调试开销和未优化的边界检查，性能数据不代表生产环境。
unsafe 声度：使用 get_unchecked 后，若逻辑变更导致索引越界，程序会出现未定义行为而非 panic。
切片长度变化：若在循环中修改了被遍历集合的长度，编译器无法消除检查，甚至会导致逻辑错误。

常见问题

Debug 模式下边界检查会消除吗？

默认不会。Debug 模式旨在快速编译和调试，保留边界检查以确保安全，性能测试必须在 release 模式下进行。

使用 get_unchecked 一定比迭代器快吗？

不一定。如果迭代器已被编译器完全优化，两者性能相近，get_unchecked 仅在被编译器卡住无法优化时才有优势。

如何确认编译器是否消除了检查？

通过 cargo asm 查看汇编代码，确认索引访问前是否存在条件跳转指令，或使用 llvm-mca 进行指令周期分析。

参考来源

The Rust Programming Language - Iterators, https://doc.rust-lang.org/book/ch13-02-iterators.html
Rust Standard Library - slice::get_unchecked, https://doc.rust-lang.org/std/primitive.slice.html#method.get_unchecked