Hadoop使用效率低？可能是配置不当，科普大数据处理优化技巧

Hadoop运行慢，多半是配置没调好，通过调整MapReduce任务数量、优化数据本地性和合理设置内存参数，就能显著提升处理速度。

找出瓶颈在哪里

效率低不能瞎调，得先知道卡在哪儿。打开Hadoop的Web界面，看看任务运行情况。如果Map阶段很久不动，可能是数据分块太大或太小；如果Reduce阶段等待漫长，可能是中间数据传输出了问题。简单说，先看仪表盘，找到最慢的那个环节。

调整Map和Reduce任务数量

任务数量不是越多越好。Map任务数通常由输入数据的分块大小决定，默认128MB一块，如果文件都是小文件，就会产生大量小任务，开销很大。建议合并小文件或用SequenceFile存储。Reduce任务数要根据数据量和集群能力来设，一般设为节点数的0.5到2倍，比如10个节点，设5到20个Reduce任务试试。

让数据离计算更近

Hadoop的设计是“数据不动，计算动”，但有时数据会被分配到很远的地方。确保数据在HDFS上的副本数足够（默认3份），并且分布在不同机架上。还可以启用数据本地化优化，让任务尽量在存有数据的节点上运行，减少网络传输。

合理分配内存

内存不足会导致频繁的垃圾回收甚至任务失败。在yarn-site.xml中调整每个容器（Container）的内存分配，比如设置yarn.nodemanager.resource.memory-mb为节点总内存的80%，yarn.scheduler.maximum-allocation-mb调大一些以允许大任务。同时，在mapred-site.xml中设定Map和Reduce任务的内存上限（mapreduce.map.memory.mb和mapreduce.reduce.memory.mb），别太小气。

优化Shuffle过程

Shuffle是Map和Reduce之间的数据混洗，很容易成为瓶颈。可以调整mapreduce.task.io.sort.mb（排序内存大小）和mapreduce.reduce.shuffle.input.buffer.percent（Reduce端缓存比例），比如增加排序内存到200MB，让中间数据更快处理。

使用压缩减少数据量

大数据传输很耗网络，用压缩可以减负。在Map输出时启用压缩（设置mapreduce.map.output.compress为true），并选择快速的压缩算法如Snappy。这样中间数据变小，Shuffle和存储都会快不少。

定期清理和监控

集群用久了会产生很多临时文件和日志，定期清理HDFS上的无用数据。同时，持续监控集群资源使用情况，用工具如Ganglia或Ambari看CPU、内存、磁盘IO是否正常，及时调整配置。

FAQ

问：Hadoop任务总是失败，报内存错误怎么办？
答：先检查yarn-site.xml中的内存设置，确保yarn.nodemanager.resource.memory-mb不过大（别超过物理内存），并增加mapreduce.map.memory.mb和mapreduce.reduce.memory.mb的值，比如从默认1GB调到2GB试试。

问：小文件多导致效率低，有什么简单办法？
答：可以用Hadoop Archive（HAR）把小文件打包成大文件，或者写个预处理脚本，在数据上传前先合并成少量大文件，减少Map任务数。

问：如何快速测试配置优化是否有效？
答：跑一个标准化的基准测试，比如TeraSort，记录优化前后的时间对比。先从调整MapReduce任务数和内存开始，每次只改一两项，观察变化。

参考来源：基于Apache Hadoop官方文档中对MapReduce性能调优的说明（如资源管理、Shuffle调整部分），并结合常见运维实践经验总结。