Hang's 码场

hadoop的优化

对应用程序进行调优 由于mapreduce是迭代逐行解析数据文件的, 怎样在迭代的情况下, 编写高效率的应用程序, 是一种优化思路。 避免输入大量小文件。 大量的小文件(不足一个block大小)作为输入数据会产生很多的Map任务(默认一个分片对应一个Map任务), 而每个Map任务实际工作量又非常小, 系统要花更多的时间来将这些Map任务的输出进行整合。 如果将大量的小文件进行预处理合...