睿诚科技协会

mapreduce 网络技术

MapReduce 的网络技术贯穿了整个作业的生命周期,从任务分发、中间数据传输,到最终结果汇总,每一步都离不开网络,我们可以将其分解为以下几个关键部分:

mapreduce 网络技术-图1
(图片来源网络,侵删)

客户端与 JobTracker (ResourceManager) 之间的通信

这是作业提交和监控的通道。

  • 通信协议: 通常使用 HTTP,客户端通过 HTTP POST 请求将作业的 JAR 包、配置文件和输入数据路径等信息提交给 JobTracker。
  • 网络技术:
    • RPC (Remote Procedure Call): 虽然提交是 HTTP,但后续的作业状态查询、进度监控等交互则依赖于框架内部的 RPC 机制,这是一种同步的请求-响应模式,客户端调用服务器端的方法并等待结果。
    • Socket 底层: RPC 通常基于 Socket 实现,负责建立和管理网络连接,进行数据的序列化和反序列化。
  • 目的: 启动作业、获取作业状态(如进度、计数器)、处理作业失败等。

JobTracker (ResourceManager) 与 TaskTracker (NodeManager) 之间的通信

这是任务分发和心跳监控的核心。

  • 通信协议: RPC,这是 Hadoop 早期版本中最核心、最频繁的通信。
  • 网络技术:
    • 心跳机制: TaskTracker 会定期(每几秒)通过 RPC 调用向 JobTracker 发送“心跳”包,心跳包中包含了 TaskTracker 的状态(如资源可用情况、正在运行的任务列表)。
    • 任务分发: JobTracker 在心跳响应中,可以向 TaskTracker 分配新的任务(Map Task 或 Reduce Task)。
    • 任务状态更新: TaskTracker 在完成任务后,会通过 RPC 向 JobTracker 汇报任务的状态(成功、失败)。
  • 目的: 负责任务的调度、监控集群状态、处理任务失败和重试。

Map 阶段:数据本地化

这是 MapReduce 最重要的网络优化思想。

  • 核心思想: “将计算移动到数据”,JobTracker 在调度 Map 任务时,会优先选择那些存储着输入数据分块的 DataNode(即 TaskTracker 所在的机器)。
  • 网络技术:
    • HDFS (Hadoop Distributed File System) 内部通信: Map 任务直接从本地 DataNode 的磁盘上读取数据块,这避免了通过网络从远程 DataNode 读取数据,极大地减少了网络 I/O,是 MapReduce 性能的关键。
    • 本地文件系统访问: 如果数据不在 HDFS 上(在本地文件系统),Map 任务会直接读取本地文件,不涉及网络。
  • 目的: 最大限度地减少数据在网络中的传输,实现“零拷贝”式的数据读取。

Shuffle 阶段:网络传输的“心脏”

Shuffle 是连接 Map 和 Reduce 的桥梁,也是整个 MapReduce 作业中网络流量最大、最复杂的阶段。

mapreduce 网络技术-图2
(图片来源网络,侵删)

1 Map Task -> Reduce Task (数据拷贝)

这是网络传输的主体。

  • 通信协议: HTTP,Map Task 在完成计算后,会启动一个 HTTP Server,等待 Reduce Task 来拉取数据。
  • 网络技术:
    • TCP/IP: HTTP 协议运行在 TCP/IP 之上,数据被分割成一个个小的数据块(64KB 或 128KB),通过 TCP 连议进行传输。
    • 数据压缩: 为了减少网络传输量,Map Task 输出的数据(<key, value> 对)在发送前通常会被压缩(如使用 Snappy、Gzip 等),Reduce Task 在接收后会进行解压。
    • 直接拷贝: Reduce Task 会直接连接到 Map Task 所在的 DataNode/TaskTracker 的 HTTP Server,拉取属于自己的那部分数据,这个过程是点对点的。
  • 目的: 将 Map 阶段的输出结果高效、可靠地传输到 Reduce Task 所在的节点。

2 Reduce Task 获取 Map 输出位置

在开始拉取数据之前,Reduce Task 需要知道从哪里拉取。

  • 通信协议: RPC
  • 网络技术:
    • Reduce Task 会通过 RPC 询问 JobTracker:“我需要处理某个 key,哪些 Map Task 产生了这些 key?”
    • JobTracker 会查询一个名为 MapOutputLocation 的内部数据结构,然后告诉 Reduce Task 所有相关的 Map Task 的主机地址和 HTTP Server 端口。
  • 目的: 为后续的点对点数据拷贝提供“导航图”。

3 Reduce Task 拉取数据

这是 Shuffle 阶段最核心的子过程。

  • 通信模式: 拉取,Reduce Task 主动发起连接,从 Map Task 的 HTTP Server 获取数据。
  • 网络技术:
    • TCP 连接: Reduce Task 为每个需要拉取数据的 Map Task 建立一个或多个 TCP 连接。
    • 并发拷贝: 为了提高效率,Reduce Task 会并发地从多个 Map Task 拉取数据(fetcher threads)。
    • 内存缓冲区: 拉取到的数据首先被存放在 Reduce Task 节点的内存缓冲区中,当缓冲区达到一定阈值时,数据会被溢写到磁盘上的临时文件中。
  • 目的: 高效地收集所有相关的 Map 输出。

4 Reduce Task 归并与排序

这个阶段也涉及网络和磁盘 I/O。

mapreduce 网络技术-图3
(图片来源网络,侵删)
  • 通信技术: 内存与磁盘 I/O
  • 过程:
    1. 内存归并: Reduce Task 会将来自不同 Map Task 的内存缓冲区中的数据进行归并排序。
    2. 磁盘归并: 当内存缓冲区多次溢写后,磁盘上会产生多个临时文件,在 Reduce 阶段开始前,这些磁盘文件会被再次读取、归并成一个大的排好序的文件。
  • 目的: 为最终的 Reduce 准备一个全局有序的输入数据流。

Reduce 阶段:结果输出

  • 通信协议: HDFS 写入
  • 网络技术:
    • 流水线写入: Reduce Task 的输出结果不是直接写入一个文件,而是通过 HDFS 的客户端 API 写入,HDFS 客户端会将数据块切分,然后以流水线的方式,依次写入到多个 DataNode 上,DataNode1 接收数据后,立即转发给 DataNode2,再转发给 DataNode3。
    • ACK 确认: 每个 DataNode 在成功写入数据后,会向前一个节点发送确认,只有当所有副本都写入成功,这个数据块才算写入完成。
  • 目的: 将最终结果可靠、冗余地存储在 HDFS 分布式文件系统中。

网络技术在 MapReduce 中的角色

阶段 主要网络通信 核心网络技术 目的
作业提交 Client -> JobTracker HTTP, RPC 启动和管理作业
任务调度 JobTracker <-> TaskTracker RPC (心跳) 监控集群、分发任务
Map 阶段 TaskTracker -> 本地磁盘 数据本地化 (无网络) 最大化性能,减少网络 I/O
Shuffle (拷贝) Map Task -> Reduce Task HTTP over TCP/IP 高效传输中间数据
Shuffle (定位) Reduce Task -> JobTracker RPC 获取数据源位置信息
Shuffle (归并) 内存 <-> 磁盘 内存与磁盘 I/O 整理和排序数据
Reduce 阶段 Reduce Task -> HDFS HDFS 流水线写入 可靠地存储最终结果

现代视角:MapReduce 与其他计算框架的网络技术对比

  • Spark: Spark 的核心是基于内存的计算,它的 Shuffle 过程比 MapReduce 更复杂,需要考虑 RDD 的持久化(内存、磁盘、序列化),Spark 的 Shuffle 可以使用基于TCP 的 BlockManager,也可以使用Tungsten的堆外内存和二进制协议来优化网络和序列化性能。
  • Flink: Flink 的网络模型非常灵活,支持基于Netty的流式数据传输,它的 Shuffle 可以根据算子需求选择不同的模式(如 Pipeline Shuffle、Rebalance Shuffle),以最小化数据延迟和背压影响。

网络技术是 MapReduce 得以实现的基石,从最初的 RPC 任务调度,到 HTTP 的 Shuffle 数据传输,再到 HDFS 的流水线写入,每一步都精心设计以在当时的硬件和网络条件下实现最大化的数据吞吐和处理效率,理解这些网络交互,是深入掌握 MapReduce 及其后续分布式计算框架的关键。

分享:
扫描分享到社交APP
上一篇
下一篇