LinkedHashSet 与 HashSet 在内存占用和迭代顺序上有什么区别？

如果业务逻辑依赖元素添加的先后顺序，比如配置项生效顺序或日志去重保留原始序列，请直接选用 LinkedHashSet；若仅用于去重校验且对顺序无要求，HashSet 更轻量。

先说结论：两者去重能力相同，核心差异在于 LinkedHashSet 通过双向链表维护插入顺序，但会带来额外的内存开销。

适合：需要遍历时保持添加顺序的场景，如缓存淘汰策略、顺序敏感的配置集合。
重点看：内存敏感度，LinkedHashSet 每个节点需额外存储前后指针，大数据量下占用更高。
别忽略：两者均依赖 hashCode 和 equals 判重，自定义对象若未正确重写会导致去重失效。

代码选型与替换

直接在实例化时根据需求选择类即可，无需复杂配置。

// 不需要顺序，追求轻量
Set<String> set = new HashSet<>();

// 需要保持插入顺序，接受略高内存
Set<String> linkedSet = new LinkedHashSet<>();

若现有代码误用了 HashSet 导致顺序混乱，直接将 new HashSet<>() 替换为 new LinkedHashSet<>() 通常即可修复，无需改动后续业务逻辑。

底层原理与内存开销

两者底层都基于哈希表实现，查找和插入的平均时间复杂度均为 O(1)，但维护顺序的机制不同。

LinkedHashSet 与 HashSet 在内存占用和迭代顺序上有什么区别？

HashSet 内部直接使用 HashMap 存储元素，遍历时扫描哈希表数组及桶内节点，顺序受哈希值、容量和扩容时机影响，不可预测。LinkedHashSet 继承自 HashSet，但内部使用 LinkedHashMap 实现，在哈希表基础上额外维护了一个双向链表，记录元素的插入时序。

关于内存占用，LinkedHashSet 的每个 Entry 节点需要额外存储 before 和 after 指针，因此比 HashSet 占用更多内存。每个 Entry 节点需额外存储 before 和 after 两个引用，在 64 位 JVM 上约增加 16-32 字节开销。

选型决策与对象规范

1. 确认业务需求：检查代码后续是否有遍历操作，且业务逻辑是否依赖遍历顺序。若只是 contains 检查或转数组后排序，HashSet 足够。

2. 评估数据规模：若集合元素数量极大（如百万级）且内存紧张，优先 HashSet；若数量可控且顺序重要，选 LinkedHashSet。

3. 检查自定义类：若存储自定义对象，确认该类已正确重写 hashCode() 和 equals() 方法，否则两者都无法正确去重。

// 正确示范：重写 hashCode 和 equals
public class User {
    private String id;
    // 构造函数省略

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        User user = (User) o;
        return id != null ? id.equals(user.id) : user.id == null;
    }

    @Override
    public int hashCode() {
        return id != null ? id.hashCode() : 0;
    }
}

// 使用示例
Set<User> set = new HashSet<>();
set.add(new User("id1"));
set.add(new User("id1")); // 大小仍为 1，去重生效

验证方法

编写简单的单元测试或 main 方法，按特定顺序添加元素后遍历打印，观察输出是否符合预期。

Set<String> set = new LinkedHashSet<>();
set.add("A");
set.add("B");
set.add("C");
for (String s : set) {
    System.out.print(s + " "); // 预期输出：A B C
}

若更换为 HashSet，输出顺序可能为 A C B 或其他排列，且不同次运行结果可能不一致。

常见坑

1. 序列化陷阱：LinkedHashSet 序列化后，若反序列化为 HashSet 类型，顺序信息会丢失。必须确保反序列化目标类型也是 LinkedHashSet。

2. 性能误区：不要认为 LinkedHashSet 遍历一定慢。虽然它要多维护链表指针，但在元素较多且频繁遍历时，由于链表线性访问 CPU 缓存命中率可能更高，性能表现反而更平稳。

3. Null 值处理：两者都允许存放一个 null 元素，判重逻辑一致，不要指望 LinkedHashSet 能靠顺序绕过重复检查。