初识MapReduce的应用场景

资讯 5年前

1.39K

Hadoop作为Apache旗下的一个以Java语言实现的分布式计算开源框架，其由两个部分组成，一个是分布式的文件系统HDFS，另一个是批处理计算框架MapReduce。

从这篇文章开始，我会开始系统性地输出在大数据踩坑过程中的积累，后面会涉及到实战项目的具体操作，目前的规划是按照系列来更新，力争做到一个系列在5篇文章之内总结出最核心的干货，如果是涉及到理论方面的文章，会以画图的方式来讲解，如果是涉及到操作方面，会以实际的代码来演示。

这篇是MapReduce系列的第一篇，初识MapReduce的应用场景，在文章后面会有关于代码的演示。

Hadoop作为Apache旗下的一个以Java语言实现的分布式计算开源框架，其由两个部分组成，一个是分布式的文件系统HDFS，另一个是批处理计算框架MapReduce。这篇文章作为MapReduce系列的第一篇文章，会从MapReduce的产生背景、框架的计算流程、应用场景和演示Demo来讲解，主要是让大家对MapReduce的这个批计算框架有个初步的了解及简单的部署和使用。

MapReduce的产生背景

MapReduce的计算流程

MapReduce的框架架构

MapReduce的生命周期

应用场景

演示Demo

MapReduce的产生背景

Google 在2004年的时候在 MapReduce： Simplified Data Processing on Large Clusters 这篇论文中提出了MapReduce 的功能特性和设计理念，设计MapReduce 的出发点就是为了解决如何把大问题分解成独立的小问题，再并行解决。例如，MapReduce的经典使用场景之一就是对一篇长文进行词频统计，统计过程就是先把文章分为一句一句，然后进行分割，最后进行词的数量统计。

MapReduce的架构图

MapReduce的架构图

这里的Client和TaskTracker我都使用一个来简化了，在实际中是会有很个Client和TaskTracker的。

我们来讲解下不同的组件作用

Client

Client的含义是指用户使用MapReduce程序通过Client来提交任务到Job Tracker上，同时用户也可以使用Client来查看一些作业的运行状态。

Job Tracker

这个负责的是资源监控和作业调度。JobTracker会监控着TaskTracker和作业的健康状况，会把失败的任务转移到其他节点上，同时也监控着任务的执行进度、资源使用量等情况，会把这些消息通知任务调度器，而调度器会在资源空闲的时候选择合适的任务来使用这些资源。

任务调度器是一个可插拔的模块，用户可以根据自己的需要来设计相对应的调度器。

TaskTracker

TaskTracker会周期性地通过Hearbeat来向Job Tracker汇报自己的资源使用情况和任务的运行进度。会接受来自于JobTaskcker的指令来执行操作（例如启动新任务、杀死任务之类的）。

在TaskTracker中通过的是slot来进行等量划分一个节点上资源量，只用Task获得slot的时候才有机会去运行。调度器的作用就是进行将空闲的slot分配给Task使用，可以配置slot的数量来进行限定Task上的并发度。

Task

Task分为Map Task和Reduce Task，在MapReduce中的 split 就是一个 Map Task，split 的大小可以设置的，由 mapred．max．spilt．size 参数来设置，默认是 Hadoop中的block的大小，在Hadoop 2．x中默认是128M，在Hadoop 1．x中默认是64M。

在Task中的设置可以这么设置，一般来讲，会把一个文件设置为一个split，如果是小文件，那么就会存在很多的Map Task，这是特别浪费资源的，如果split切割的数据块的量大，那么会导致跨节点去获取数据，这样也是消耗很多的系统资源的。

MapReduce的生命周期

MapReduce的生命周期