【Spark源码解读】Executor上的执行

2023-03-18

字数统计: 4.6k字 | 阅读时长: 18分

阅读量

上一篇，我们主要分析了一次作业的提交过程，严格说是在driver端的过程，作业提交之后经过DAGScheduler根据shuffle依赖关系划分成多个stage，依次提交每个stage，将每个stage创建于分区数相同数量的Task，并包装成一个任务集，交给TaskSchedulerImpl进行分配。

TaskSchedulerImpl则会根据SchedulerBackEnd提供的计算资源（executor），并考虑任务本地性，黑名单，调度池的调度顺序等因素对任务按照round-robin的方式进行分配，并将Task与executor的分配关系包装成TaskDescription返回给SchedulerBackEnd。

然后SchedulerBackEnd就会根据收到的TaskDescription将任务再次序列化之后发送到对应的executor上执行。

本篇，我们就来分析一下Task在executor上的执行过程。

CoarseGrainedExecutorBackend
- 任务执行入口Executor.launchTask
Executor概述
ResultTask.runTask
ShuffleMapTask.runTask
- SortShuffleWriter.write
总结

太长不看系列：

首先executor端的rpc服务端点（比如CoarseGrainedExecutorBackend）收到LaunchTask的消息，并对传过来的任务数据 data 进行反序列化成TaskDescription.
将任务交给Executor对象运行
Executor根据传过来的TaskDescription对象创建一个TaskRunner对象，并放到线程池中运行。这里的线程池用的是Executors.newCachedThreadPool，空闲是不会有线程在跑
TaskRunner对任务进一步反序列化，调用Task.run方法执行任务运行逻辑
- ShuffleMapTask类型的任务会将rdd计算结果数据经过排序合并之后写到一个文件中，并写一个索引文件
- ResultTask类型任务会根据func执行计算。
任务运行完成后会更新一些任务统计量和度量系统中的一些统计量
最后会根据结果序列化后的大小选择不同的方式将结果传回driver。

CoarseGrainedExecutorBackend

SchedulerBackend特质有两个实现子类CoarseGrainedExecutorBackend和LocalSchedulerBackend。在local部署模式下使用LocalSchedulerBackend模式，在其他模式下使用CoarseGrainedExecutorBackend。这两个子类也继承了ExecutorBackend特质。

我们将主要分析后者。

CoarseGrainedExecutorBackend是Driver和Executor通信的后端接口。

任务执行入口Executor.launchTask

首先，我们知道CoarseGrainedExecutorBackend是yarn模式下的executor的实现类，这时一个rpc服务端，所以我们根据rpc客户端也就是CoarseGrainedSchedulerBackEnd发送的消息，然后在服务端找到处理对应消息的方法，顺藤摸瓜就能找到Task执行的入口。

通过上一篇的分析知道发送任务时，CoarseGrainedSchedulerBackEnd发送的是一个LaunchTask类型的消息，我们看一下CoarseGrainedExecutorBackend.receive方法，其中对于LaunchTask消息的处理如下：

case LaunchTask(data) =>
  if (executor == null) {
    exitExecutor(1, "Received LaunchTask command but executor was null")
  } else {
    val taskDesc = TaskDescription.decode(data.value)
    logInfo("Got assigned task " + taskDesc.taskId)
    executor.launchTask(this, taskDesc)
  }

可以看到，实际上任务交给内部的Executor对象来处理，实际上Executor对象承担了executor端的绝大部分逻辑，可以认为CoarseGrainedExecutorBackend仅仅是充当在executor机器上的rpc消息中转的角色，充当spark的rpc框架中端点的角色，而实际的任务执行的逻辑则是由Executor对象来完成的。

Executor概述

我们先来看一下Executor类的说明：Spark 执行器，由线程池支持以运行任务。

/**
 * Spark executor, backed by a threadpool to run tasks.
 *
 * This can be used with Mesos, YARN, and the standalone scheduler.
 * An internal RPC interface is used for communication with the driver,
 * except in the case of Mesos fine-grained mode.
 */

Executor内部有一个线程池用来运行任务，Mesos, YARN, 和 standalone模式都是用这个类作为任务运行的逻辑。此外Executor对象持有SparkEnv的引用，以此来使用spark的一些基础设施，包括rpc引用。

我们还是以任务运行为线索分析这个类的代码。

Executor.launchTask

def launchTask(context: ExecutorBackend, taskDescription: TaskDescription): Unit = {
  val tr = new TaskRunner(context, taskDescription)
  runningTasks.put(taskDescription.taskId, tr)
  threadPool.execute(tr)
}

executor收到TaskDescription以后封装成为了一个TaskRunner，然后放到线程池去执行。从这个地方也能看出来，在executor端，一个task对应一个线程。

TaskRunner这个类实现Runnable接口，包括了一个run方法，可以让线程池去执行任务。所以接下来我们就看一下TaskRunner这个类。

TaskRunner.run

其中有一些统计量我就不说了，比如任务运行时间统计，cpu耗时统计，gc耗时统计等等，这里有一点可以积累的地方是MXBean，cpu，gc耗时都是通过获取jvm内置的相关的MXBean获取到的，入口类是ManagementFactory，具体的可以细看，这里不再展开。

override def run(): Unit = {
    // 省略获取threadId，设置TreadName的代码

    // 内存管理器
    val taskMemoryManager = new TaskMemoryManager(env.memoryManager, taskId)
    
    // 省略代码，记录反序列化的耗时/CPU耗时，

    Thread.currentThread.setContextClassLoader(replClassLoader)
    val ser = env.closureSerializer.newInstance()
    logInfo(s"Running $taskName (TID $taskId)")
    // TODO 通过executor后端向driver发送一个任务状态更新的消息
    execBackend.statusUpdate(taskId, TaskState.RUNNING, EMPTY_BYTE_BUFFER) // 更新Task状态
    var taskStart: Long = 0
    var taskStartCpu: Long = 0
    // 依然是通过MXBean获取gc总时长
    startGCTime = computeTotalGcTime()

    try {
    // TODO 更新依赖的文件和jar包，从driver端拉取到本地，并缓存下来
    updateDependencies(taskDescription.addedFiles, taskDescription.addedJars)
    // 对任务进行反序列化，这里却并没有进行耗时统计
    task = ser.deserialize[Task[Any]](
        taskDescription.serializedTask, Thread.currentThread.getContextClassLoader)
    // 属性集合也是从driver端跟随taskDescription一起发送过来的
    task.localProperties = taskDescription.properties
    // 设置内存管理器
    task.setTaskMemoryManager(taskMemoryManager)

    if (!isLocal) {
        logDebug("Task " + taskId + "'s epoch is " + task.epoch)
        // 更新epoch值和map输出状态
        env.mapOutputTracker.asInstanceOf[MapOutputTrackerWorker].updateEpoch(task.epoch)
    }

    // 运行任务并统计运行时间
    taskStart = System.currentTimeMillis()
    // 统计当前线程的cpu耗时
    taskStartCpu = if (threadMXBean.isCurrentThreadCpuTimeSupported) {
        threadMXBean.getCurrentThreadCpuTime
    } else 0L
    var threwException = true

    val value = try {
        // 调用task.run方法运行任务
        val res = task.run(
        // 任务id
        taskAttemptId = taskId,
        // 任务的尝试次数
        attemptNumber = taskDescription.attemptNumber,
        // 度量系统
        metricsSystem = env.metricsSystem)
        threwException = false
        res
    } finally {
        // 释放关于该任务的所有锁, 该任务相关的block的读写锁
        val releasedLocks = env.blockManager.releaseAllLocksForTask(taskId)
        // 清除所有分配给该任务的内存空间
        val freedMemory = taskMemoryManager.cleanUpAllAllocatedMemory()

        // 如果threwException为false，说明任务正常运行完成
        // 在任务正常运行完的前提下如果还能够释放出内存，
        // 说明在任务正常执行的过程中没有正确地释放使用的内存，也就是发生了内存泄漏
        if (freedMemory > 0 && !threwException) {
            val errMsg = s"Managed memory leak detected; size = $freedMemory bytes, TID = $taskId"
            if (conf.getBoolean("spark.unsafe.exceptionOnMemoryLeak", false)) {
                throw new SparkException(errMsg)
            } else {
                logWarning(errMsg)
            }
        }

        // 这里对于锁资源的检测和内存资源的检测是相同的逻辑
        // spark作者认为，具体的任务应该自己负责将申请的资源（包括内存和锁资源）在使用完后释放掉，
        // 不能依赖于靠后面的补救措施
        // 如果没有正常释放，就发生了资源泄漏
        // 这里则是对锁锁资源泄漏的检查
        if (releasedLocks.nonEmpty && !threwException) {
            val errMsg =
                s"${releasedLocks.size} block locks were not released by TID = $taskId:\n" +
                releasedLocks.mkString("[", ", ", "]")
            if (conf.getBoolean("spark.storage.exceptionOnPinLeak", false)) {
                throw new SparkException(errMsg)
            } else {
                logInfo(errMsg)
            }
        }
    }
    // 省略 打印拉取异常日志

    // 统计任务完成时间
    val taskFinish = System.currentTimeMillis()
    // 统计任务线程占用的cpu时间
    val taskFinishCpu = if (threadMXBean.isCurrentThreadCpuTimeSupported) {
        threadMXBean.getCurrentThreadCpuTime
    } else 0L

    // 任务结果的序列化
    val resultSer = env.serializer.newInstance()
    val beforeSerialization = System.currentTimeMillis()
    val valueBytes = resultSer.serialize(value)
    val afterSerialization = System.currentTimeMillis()
        

    // 省略更新metrics的代码

    val accumUpdates = task.collectAccumulatorUpdates()
    // TODO: do not serialize value twice
    val directResult = new DirectTaskResult(valueBytes, accumUpdates)
    val serializedDirectResult = ser.serialize(directResult)
    val resultSize = serializedDirectResult.limit()

    // 将执行结果发送给Driver
    val serializedResult: ByteBuffer = {
        // 运行结果太大，将结果的大小序列化为serializedResult，不保存结果
        if (maxResultSize > 0 && resultSize > maxResultSize) {
            logWarning(s"Finished $taskName (TID $taskId). Result is larger than maxResultSize " +
                s"(${Utils.bytesToString(resultSize)} > ${Utils.bytesToString(maxResultSize)}), " +
                s"dropping it.")
            ser.serialize(new IndirectTaskResult[Any](TaskResultBlockId(taskId), resultSize))
        } else if (resultSize > maxDirectResultSize) {
            // 运行结果一般，将结果写入本地存储，然后结果大小序列化为serializedResult
            val blockId = TaskResultBlockId(taskId)
            env.blockManager.putBytes(
                blockId,
                new ChunkedByteBuffer(serializedDirectResult.duplicate()),
                StorageLevel.MEMORY_AND_DISK_SER)
            logInfo(
                s"Finished $taskName (TID $taskId). $resultSize bytes result sent via BlockManager")
            ser.serialize(new IndirectTaskResult[Any](blockId, resultSize))
        } else {
            // 结果比较小，直接序列化结果。
            logInfo(s"Finished $taskName (TID $taskId). $resultSize bytes result sent to driver")
            serializedDirectResult
        }
    }

    setTaskFinishedAndClearInterruptStatus()
    execBackend.statusUpdate(taskId, TaskState.FINISHED, serializedResult)

    } catch {
        // 省略异常处理
    } finally {
        runningTasks.remove(taskId)
    }
}

总结一下这个方法的主要步骤：

创建Task需要的TaskMemoryManager。
向driver发送一个更新任务状态的消息，通知driver这个task处于运行的状态。
对任务进行反序列化生成Task对象，根据任务类型可能是ShuffleMapTask或者ResultTask。得到任务需要的taskFiles（文件）, taskJars（任务jar包）, taskProps（任务属性）, taskBytes（任务本身）。
- taskProps放入ThreadLocal
- 从taskFiles, taskJars得到任务依赖。
- 对taskBytes再次反序列得到task实例。
检查任务有没有被杀死，如果被杀死则抛出一个异常；（driver随时都可能发送一个杀死任务的消息）
调用Task.run方法执行任务的运行逻辑
任务运行结束后，清除未正常释放的内存资源和block锁资源，进行资源回收。
更新度量系统中的相关统计量
将任务运行的结果数据序列化。检测序列化后的体积，有两个阈值：maxResultSize和maxDirectResultSize，
- 如果超过maxResultSize直接丢弃结果，就是不往blockmanager里面写数据，这样driver端在试图通过blockmanager远程拉取数据的时候就获取不到数据，这时driver就知道这个任务的结果数据太大，失败了；
- 而对于体积超过maxDirectResultSize的情况，会将任务结果数据通过blockmanager写到本地内存和磁盘，然后将block信息发送给driver, driver会根据这些信息来这个节点拉取数据；
- 如果体积小于maxDirectResultSize，则直接通过rpc接口将结果数据发送给driver。

最后还会有对任务失败的各种总异常的处理。

Task.run

final def run(
  taskAttemptId: Long,
  attemptNumber: Int,
  metricsSystem: MetricsSystem): T = {
    // 调用BlockManager的registerTask，注册信息。
    SparkEnv.get.blockManager.registerTask(taskAttemptId)
    // 创建任务上下文
    context = new TaskContextImpl(
        stageId,
        stageAttemptId, // stageAttemptId and stageAttemptNumber are semantically equal
        partitionId,
        taskAttemptId,
        attemptNumber,
        taskMemoryManager,
        localProperties,
        // 度量系统就是SparkEnv的度量对象
        metricsSystem,
        metrics)
    // 将任务尝试的上下文保存到ThreadLocal中
    TaskContext.setTaskContext(context)
    // 获取运行任务尝试的线程
    taskThread = Thread.currentThread()

    // 如果被kill，将任务和上下文标记为kill
    if (_reasonIfKilled != null) {
        kill(interruptThread = false, _reasonIfKilled)
    }

    new CallerContext(
        "TASK",
        SparkEnv.get.conf.get(APP_CALLER_CONTEXT),
        appId,
        appAttemptId,
        jobId,
        Option(stageId),
        Option(stageAttemptId),
        Option(taskAttemptId),
        Option(attemptNumber))
    .setCurrentContext()


    try {
        runTask(context) // 调用子类实现的runTask方法尝试任务。
    } catch {
        case e: Throwable =>
                // Catch all errors; run task failure callbacks, and rethrow the exception.
            try {
                context.markTaskFailed(e)
            } catch {
                case t: Throwable =>
                    e.addSuppressed(t)
                }
            throw e
    } finally {
        context.markTaskCompleted()
        try {
            Utils.tryLogNonFatalError {
                // 释放内存快管理器中该任务使用的内存，最终是通过内存管理器来释放的
                // 实际上就是更新内存管理器内部的一些用于记录内存使用情况的簿记量
                // 真正的内存回收肯定还是有gc来完成的
                SparkEnv.get.blockManager.memoryStore.releaseUnrollMemoryForThisTask(MemoryMode.ON_HEAP)
                SparkEnv.get.blockManager.memoryStore.releaseUnrollMemoryForThisTask(MemoryMode.OFF_HEAP)

                val memoryManager = SparkEnv.get.memoryManager
                // 内存释放之后，需要通知其他在等待内存资源的 线程
                memoryManager.synchronized { memoryManager.notifyAll() }
            }
        } finally {
            // 移除ThreadLocal中保存的当前任务尝试线程的上下文
            TaskContext.unset()
        }
    }
}

代码总结：

调用BlockManager的registerTask，注册信息。
创建任务尝试的上下文TaskContextImpl，并设置到一个ThreadLocal变量中
检查任务是否被杀死
创建调用者上下文CallerContext
调用子类实现的runTask方法执行实际的任务逻辑
无论task是否成功，都会在finally调用TaskContextImpl的markTaskComplete方法。
最后会释放在shuffle过程中申请的用于数据unroll的内存资源，释放堆内和堆外内存，唤醒其他任务。移除ThreadLocal中保存的当前Task线程的TaskContextImpl

所以，接下来我们要分析的肯定就是runTask方法，而这个方法是个抽象方法，在ResultTask和ShuffleMapTask有不同的实现。

ResultTask.runTask

override def runTask(context: TaskContext): U = {
  // Deserialize the RDD and the func using the broadcast variables.
  val threadMXBean = ManagementFactory.getThreadMXBean
  val deserializeStartTimeNs = System.nanoTime()
  val deserializeStartCpuTime = if (threadMXBean.isCurrentThreadCpuTimeSupported) {
    threadMXBean.getCurrentThreadCpuTime
  } else 0L
  val ser = SparkEnv.get.closureSerializer.newInstance()
  // 反序列化task，得到RDD和需要执行的func
  val (rdd, func) = ser.deserialize[(RDD[T], (TaskContext, Iterator[T]) => U)](
    ByteBuffer.wrap(taskBinary.value), Thread.currentThread.getContextClassLoader)
  _executorDeserializeTimeNs = System.nanoTime() - deserializeStartTimeNs
  _executorDeserializeCpuTime = if (threadMXBean.isCurrentThreadCpuTimeSupported) {
    threadMXBean.getCurrentThreadCpuTime - deserializeStartCpuTime
  } else 0L
  // 调用RDD的iterator方法进行迭代计算和最终处理。
  func(context, rdd.iterator(partition, context))
}

总结：

反序列化task，得到RDD和需要执行的func

调用RDD的iterator方法进行迭代计算和最终处理。

ShuffleMapTask.runTask

override def runTask(context: TaskContext): MapStatus = {

    val threadMXBean = ManagementFactory.getThreadMXBean
    val deserializeStartTime = System.currentTimeMillis()
    val deserializeStartCpuTime = if (threadMXBean.isCurrentThreadCpuTimeSupported) {
        threadMXBean.getCurrentThreadCpuTime
    } else 0L

    val ser = SparkEnv.get.closureSerializer.newInstance()

    // 反序列化RDD和shuffle, 关键的步骤
    val (rdd, dep) = ser.deserialize[(RDD[_], ShuffleDependency[_, _, _])](
        ByteBuffer.wrap(taskBinary.value), Thread.currentThread.getContextClassLoader)
    _executorDeserializeTime = System.currentTimeMillis() - deserializeStartTime
    _executorDeserializeCpuTime = if (threadMXBean.isCurrentThreadCpuTimeSupported) {
        threadMXBean.getCurrentThreadCpuTime - deserializeStartCpuTime
    } else 0L

    var writer: ShuffleWriter[Any, Any] = null
    try {
        // shuffle管理器
        val manager = SparkEnv.get.shuffleManager
        // 获取一个shuffle写入器
        writer = manager.getWriter[Any, Any](dep.shuffleHandle, partitionId, context)
        writer.write(rdd.iterator(partition, context).asInstanceOf[Iterator[_ <: Product2[Any, Any]]])
        // 主要是删除中间过程的溢写文件，向内存管理器释放申请的内存
        writer.stop(success = true).get
    } catch {
        case e: Exception =>
            try {
                if (writer != null) {
                    writer.stop(success = false)
                }
            } catch {
                case e: Exception => log.debug("Could not stop writer", e)
            }
            throw e
    }
}

这个方法还是大概逻辑还是很简单的。

对任务反序列化，得到RDD和shuffleDependency。
调用sortShuffleManager的getWriter方法，获得对执行分区的数据进行磁盘写的sortShuffleWriter。
通过rdd的iterator方法获取当前task对应的分区的计算结果（结果一一个迭代器的形式返回）
利用shuffleManager通过blockManager写入到文件block中，然后将block信息传回driver上报给BlockManagerMaster。

这里可以看到rdd计算的核心方法就是iterator方法SortShuffleWriter的write方法可以分为几个步骤：

将上游rdd计算出的数据(通过调用rdd.iterator方法)写入内存缓冲区，
在写的过程中如果超过内存阈值就会溢写磁盘文件，可能会写多个文件
最后将溢写的文件和内存中剩余的数据一起进行归并排序后写入到磁盘中形成一个大的数据文件
这个排序是先按分区排序，在按key排序
在最后归并排序后写的过程中，没写一个分区就会手动刷写一遍，并记录下这个分区数据在文件中的位移。所以实际上最后写完一个task的数据后，磁盘上会有两个文件：数据文件和记录每个reduce端partition数据位移的索引文件

所以实际上重要的步骤有两个：通过RDD的计算链获取计算结果；将计算结果经过排序和分区写到文件中。这里我先分析第二个步骤。

SortShuffleWriter.write

spark在2.0之后shuffle管理器改成了排序shuffle管理器，即SortShuffleManager，所以这里通过SortShuffleManager管理器获取到的在一般情况下都是SortShuffleWriter，当然在满足bypass条件（map端不需要combine，并且分区数小于200）的情况下会使用BypassMergeSortShuffleWriter。

override def write(records: Iterator[Product2[K, V]]): Unit = {
    sorter = if (dep.mapSideCombine) {
        // map端进行合并的情况，此时用户应该提供聚合器和顺序
        require(dep.aggregator.isDefined, "Map-side combine without Aggregator specified!")
        // 创建ExternalSorter
        new ExternalSorter[K, V, C](
            context, dep.aggregator, Some(dep.partitioner), dep.keyOrdering, dep.serializer)
    } else {
        new ExternalSorter[K, V, V](
            context, aggregator = None, Some(dep.partitioner), ordering = None, dep.serializer)
    }
    // 将map数据全部写入排序器缓存中， 这个过程中可能会生成多个溢写文件
    sorter.insertAll(records)

    // mapId就是shuffleMap端RDD的partitionId
    // 获取这个map分区的shuffle输出文件
    val output = shuffleBlockResolver.getDataFile(dep.shuffleId, mapId)
    // 加一个uuid后缀
    val tmp = Utils.tempFileWith(output)
    try { // 将map端缓存的数据写到磁盘，并生成Block文件对应的索引文件
        val blockId = ShuffleBlockId(dep.shuffleId, mapId, IndexShuffleBlockResolver.NOOP_REDUCE_ID)
        // 这一步将溢写到的磁盘的文件和内存中的数据进行归并排序，并溢写到一个文件中，这一步写的文件是临时文件名
        val partitionLengths = sorter.writePartitionedFile(blockId, tmp)
        // 这一步主要是写入索引文件，使用move方法原子的将临时索引和临时数据文件重命名为正常的文件名
        shuffleBlockResolver.writeIndexFileAndCommit(dep.shuffleId, mapId, partitionLengths, tmp)
        // 返回一个状态对象，包含shuffle服务Id和各个分区数据在文件中的位移
        mapStatus = MapStatus(blockManager.shuffleServerId, partitionLengths)
    } finally {
        if (tmp.exists() && !tmp.delete()) {
            logError(s"Error while deleting temp file ${tmp.getAbsolutePath}")
        }
    }
}

总结一下这个方法的主要逻辑：

首先获取一个排序器，并检查是否有map端的合并器
将rdd计算结果数据写入排序器，过程中可能会溢写过个磁盘文件
最后将多个碎小的溢写文件和内存缓冲区的数据进行归并排序，写到一个文件中
将每个分区数据在文件中的偏移量写到一个索引文件中，用于reduce阶段拉取数据时使用
返回一个MapStatus对象，封装了当前executor上的blockManager的id和每个分区在数据文件中的位移量

总结

总结一下任务在executor端的执行流程：

首先executor端的rpc服务端点收到LaunchTask的消息，并对传过来的任务数据进行反序列化成TaskDescription.
将任务交给Executor对象运行
Executor根据传过来的TaskDescription对象创建一个TaskRunner对象，并放到线程池中运行。这里的线程池用的是Executors.newCachedThreadPool，空闲是不会有线程在跑
TaskRunner对任务进一步反序列化，调用Task.run方法执行任务运行逻辑
- ShuffleMapTask类型的任务会将rdd计算结果数据经过排序合并之后写到一个文件中，并写一个索引文件
- ResultTask类型任务会根据func执行计算。
任务运行完成后会更新一些任务统计量和度量系统中的一些统计量
最后会根据结果序列化后的大小选择不同的方式将结果传回driver。