【Spark源码解读】SparkContext

2023-02-20

字数统计: 1.2k字 | 阅读时长: 4分

阅读量

本系列将参考Spark源码设计，尝试解读Spark源码中的几个核心模块，并结合源码分析实现。本章内容是基于spark 2.1.0的SparkContext的启动过程。

SparkContext
启动流程

SparkContext

尽管spark从1.6之后一直以SparkSession作为用户编程的主要api，但是SparkSession实际仅仅是对SparkContext，SQLContext等入口对象的进一步分装，而涉及到spark核心模块的还是SparkContext。

启动流程

启动流程在SparkContext的初始化块中，在scala类中，可以直接在类作用域内执行一些代码块，这些代码块的作用就相当于java中类的实例初始化块，在实例初始化时被调用，因此一般会有一些初始化的逻辑在这里。

代码做了省略，突出精华


  try {
  // 引用克隆，与外部传进来的conf隔离
  _conf = config.clone()
  _conf.validateSettings()

  // 事件总线
  _listenerBus = new LiveListenerBus(_conf)

  // 应用状态存储, 在SparkEnv创建之前将监听器加到事件注册到事件总线中，以能够监听到SparkEnv的事件
  _statusStore = AppStatusStore.createLiveStore(conf)
  listenerBus.addToStatusQueue(_statusStore.listener.get)

  // 创建SparkEnv，是spark的重要的基础设施(cache, map output tracker, etc)
  _env = createSparkEnv(_conf, isLocal, listenerBus)
  SparkEnv.set(_env)
  // 状态跟踪器
  _statusTracker = new SparkStatusTracker(this, _statusStore)

  // 启动spark ui 
  _ui.foreach(_.bind())

  // 添加spark.jars参数指定的文件
  if (jars != null) {
    jars.foreach(addJar)
  }

  // 必须要在创建TaskScheduler之前先注册HeartbeatReceiver，
  // 因为Executor的构造方法参数中需要HeartbeatReceiver
  _heartbeatReceiver = env.rpcEnv.setupEndpoint(
    HeartbeatReceiver.ENDPOINT_NAME, new HeartbeatReceiver(this))

  // 创建并启动调度器，包括调度后端，任务调度器
  val (sched, ts) = SparkContext.createTaskScheduler(this, master, deployMode)
  _schedulerBackend = sched
  _taskScheduler = ts
  // 创建DAG调度器
  _dagScheduler = new DAGScheduler(this)
  // 端点引用，类似于RPC中的stup，调用端
  // 发送一个
  _heartbeatReceiver.ask[Boolean](TaskSchedulerIsSet)

  // 在TaskScheduler设置DAGScheduler引用后，在DAGScheduler的构造函数中启动TaskScheduler
  _taskScheduler.start()
  // 启动blockmanager
  _env.blockManager.initialize(_applicationId)

  // 创建metrics system  这部分省略


  // 事件记录器，监听事件总线上的事件，将事件记录到日志中
  _eventLogger =
    if (isEventLogEnabled) {
      val logger =
        new EventLoggingListener(_applicationId, _applicationAttemptId, _eventLogDir.get,
          _conf, _hadoopConfiguration)
      logger.start()
      listenerBus.addToEventLogQueue(logger)
      Some(logger)
    } else {
      None
    }


  // 动态申请executor (可选)
  _executorAllocationManager.foreach(_.start())

  // 清理器，用于清理RDD,shuffle，广播变量等的状态 （可选）
  _cleaner.foreach(_.start())

  // 添加通过spark.extraListeners参数设置的监听器，然后启动事件总线
  setupAndStartListenerBus()
  // 投递一个环境更新的事件到事件总线中
  postEnvironmentUpdate()
  // 投递一个应用启动的事件到事件总线中
  postApplicationStart()


  // 调用任务调度器的前置方法
  _taskScheduler.postStartHook()

  // 添加对DAG调度器的度量源，主要用于获取任务数，运行的任务数，成功，失败，运行的stage数目
  _env.metricsSystem.registerSource(_dagScheduler.metricsSource)
  // 添加对块管理器的度量源，主要用于统计内存使用量
  _env.metricsSystem.registerSource(new BlockManagerSource(_env.blockManager))
  // 添加对executor申请管理器的度量源，主要用于统计申请的executor的统计信息
  _executorAllocationManager.foreach { e =>
    _env.metricsSystem.registerSource(e.executorAllocationManagerSource)
  }


  // 添加关闭SparkContext的钩子
  _shutdownHookRef = ShutdownHookManager.addShutdownHook(
    ShutdownHookManager.SPARK_CONTEXT_SHUTDOWN_PRIORITY) { () =>
    logInfo("Invoking stop() from shutdown hook")
    stop()
  }
} catch {
  case NonFatal(e) =>
    logError("Error initializing SparkContext.", e)
    try {
      stop()
    } catch {
      case NonFatal(inner) =>
        logError("Error stopping SparkContext after init error.", inner)
    } finally {
      throw e
    }
}

总结一下这段代码的主要逻辑：

处理配置参数
创建事件总线LiveListenerBus，用于发布事件，监听事件
创建程序状态存储器AppStatusStore，是一个KV存储的包装类。并且将与此存储器关联的监听器添加到事件总线的appStatus队列中，监听appStatus类型的事件
创建SparkEnv对象，这个对象是spark的执行环境，是spark中最重要的类之一，内部分装了块管理器，shuffle管理器，map输出跟踪器，广播管理器，内存管理器等重要的基础设施，是spark运行的基石。
创建状态跟踪器，用于跟踪job和stage的执行情况，
创建ui对象，用于提供web页面访问服务
将spark.jars和spark.files添加到NettyStreamManager中以提供文件下载服务，executor会通过rpc下载这些文件
设置executor的一些环境变量，
创建HearbeatReceiver，并创建一个端点引用
创建schedulerBackend和taskScheduler，以常用的yarn cluster模式为例，创建的是YarnClusterScheduler和YarnClusterSchedulerBackend
创建DAGScheduler，dag调度器运行任务是通过向任务调度器提交任务实现的
启动TaskScheduler，内部启动了调度后端
初始化BlockManager，启动度量系统，
创建ExecutorAllocationManager，可选
创建ContextCleaner，用于清理RDD,shuffle，广播变量等的状态
向度量系统注册三个度量源，分别是DAG调度器度量源，块管理器度量源，动态资源申请管理器度量源
最后添加一个程序退出的钩子函数，用于在程序退出时关闭SparkContext