免费注册
帮助文档(华北一、二)

  • Spark是一个基于内存计算的开源的集群计算系统,相对于MapReduce,Spark使用了更为快速的计算引擎,可以更有效地支持多种类型的计算,如交互式查询和流处理。Spark被设计的高度易访问,并提供了丰富的内建库,可以使用Python、Java、Scala或SQL设计Spark任务。

    1.1 Spark运行模式

    Spark可以有以下几种运行方式:

    ● Local:

    以本地单线程的方式运行Spark,一般适用于本地开发、测试。

    ● Spark Standalone:

    以运行一个主节点Master和多个工作节点Worker的方式运行Spark,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。

    ● Spark on yarn(UHadoop采用的方式)

    基于Hadoop的资源管理系统Yarn,Spark作为提交任务的客户端,所有任务都提交到Yarn上,由Yarn来分配任务执行。Spark on yarn也分为yarn-cluster与yarn-client模式。区别如下:

    yarn-cluster:Driver运行在Appliaction Master(AM)上。AM进程同时负责驱动Application和资源申请等,它运行在Container内,客户端提交完任务可关闭。一般适用于生产环境,但不适合运行交互类任务。

    yarn-client:Driver运行在本地。任务提交后,客户端需要和Container通信进行作业的调度。适用于交互类任务和调试,可更加方便的看到任务的结果。


文档是否已解决您的问题?

  已解决   未解决

如您有其它疑问,您也可以与我们技术专家联系探讨。

联系技术专家