术语
- application
用户构建在 Spark 上的程序。由集群上的一个 driver 程序和多个 executor 组成。 - Driver program
该进程运行应用的 main() 方法并且创建了 SparkContext。 - Worker node
任何在集群中可以运行应用代码的节点。 - Executor
一个为了在 worker 节点上的应用而启动的进程,它运行 task 并且将数据保持在内存中或者硬盘存储。每个应用有它自己的 Executor。 - Task
一个将要被发送到 Executor 中的工作单元。 - Job
一个由多个任务组成的并行计算,并且能从 Spark action 中获取响应(例如 save, collect); 您将在 driver 的日志中看到这个术语。 - Stage
每个 Job 被拆分成更小的被称作 stage(阶段) 的 task(任务) 组,stage 彼此之间是相互依赖的(与 MapReduce 中的 map 和 reduce stage 相似)。您将在 driver 的日志中看到这个术语。
核心组件
Spark 应用在集群上作为独立的进程组来运行,在您的 main 程序中通过 SparkContext 来协调(称之为 driver 程序)。
具体的说,为了运行在集群上,SparkContext 可以连接至几种类型的 Cluster Manager(既可以用 Spark 自己的 Standlone Cluster Manager,或者 Mesos,也可以使用 YARN),它们会分配应用的资源。一旦连接上,Spark 获得集群中节点上的 Executor,这些进程可以运行计算并且为您的应用存储数据。接下来,它将发送您的应用代码(通过 JAR 或者 Python 文件定义传递给 SparkContext)至 Executor。最终,SparkContext 将发送 Task 到 Executor 以运行。
这里有几个关于这个架构需要注意的地方 :
- 每个应用自己的 Executor 进程会保持在整个应用的生命周期中并且在多个线程中运行 Task(任务)。这也意味着若是不把数据写到外部的存储系统中的话,数据就不能够被不同的 Spark 应用(SparkContext 的实例)之间共享。
- Spark 是不关心底层的 Cluster Manager 到底是什么类型的(Mesos / YARN/ local)。
- Driver 程序和 worker 节点网络必须连通。
- 因为 driver 调度了集群上的 task(任务),更好的方式应该是在相同的局域网中靠近 worker 的节点上运行。如果您不喜欢发送请求到远程的集群,倒不如打开一个 RPC 至 driver 并让它就近提交操作而不是从很远的 worker 节点上运行一个 driver(数据本地化)。
RDD cache & Persist
当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。
RDD 可以使用 persist() 方法或 cache() 方法进行持久化。数据将会在第一次 action 操作时进行计算,并缓存在节点的内存中。Spark 的缓存具有容错机制,如果一个缓存的 RDD 的某个分区丢失了,Spark 将按照原来的计算过程,自动重新计算并进行缓存。
另外,每个持久化的 RDD 可以使用不同的 storage level 存储级别进行缓存,详细的存储级别介绍如下:
- MEMORY_ONLY
将 RDD 以反序列化的 Java 对象的形式存储在 JVM 中. 如果内存空间不够,部分数据分区将不再缓存,在每次需要用到这些数据时重新进行计算. 这是默认的级别. - MEMORY_AND_DISK
将 RDD 以反序列化的 Java 对象的形式存储在 JVM 中。如果内存空间不够,将未缓存的数据分区存储到磁盘,在需要使用这些分区时从磁盘读取. - MEMORY_ONLY_SER
将 RDD 以序列化的 Java 对象的形式进行存储(每个分区为一个 byte 数组) - MEMORY_AND_DISK_SER
类似于 MEMORY_ONLY_SER ,但是溢出的分区会存储到磁盘,而不是在用到它们时重新计算. - DISK_ONLY
只在磁盘上缓存 RDD. - MEMORY_ONLY_2, MEMORY_AND_DISK_2, etc.
与上面的级别功能相同,只不过每个分区在集群中两个节点上建立副本.