讨论Spark的配置监控和性能优化

作者: 云计算机网 分类: 云计算知识 发布时间: 2016-06-27 01:22


讨论Spark的配置监控和性能优化(某课程笔记)

上完这节课以后,你将能够描述集群的概念
通过修改Spark的属性,环境变量,或者是日志属性来配置Spark
使用Web端界面,以及各种不同的外部工具来监控Spark和应用程序


在Spark集群中有三种主要的组成部分。驱动程序,是放置主程序中SparkContext的地方,要运行一个集群,你需要一个集群管理器
它可以是单机版的集群管理器,也可以是 Mesos 或者 Yarn
而worker节点,就是放置执行器的地方



执行器,是运行计算和储存应用程序数据的地方。SparkContext以JAR或者Python文件
的形式向每个执行器发送应用程序。最终,它向每个执行器发送任务并运行

因为驱动程序在集群上调配任务,它应该在相同的本地网络中

的woker节点运行。如果要向集群发送远端请求


最好使用一个RPC,并且从附近的节点提交操作

我们前面提到三个支持的集群管理器

对于Spark的配置,主要有三个主要的地方


Spark属性,你可以用SparkConf对象或者通过Java系统属性来设置应用程序的参数
环境变量,你可以用它们来设置每一个机器的设定,比如IP地址这是通过配置每一个节点上的conf/spark-env.sh脚本实现的
对于日志属性,它可以通过log4j.propertieis来进行设置
你可以选择修改目前位于SPARK_HOME/conf目录下的默认配置目录设定SPARK_CONF_DIR环境变量并且在这个目录下提供你的配置文件




这里有两种方法来设定Spark属性:
第一种方法是通过SparkConf对象来传递应用程序属性
第二种方法是动态地设置Spark的属性。Spark允许你在创建一个SparkContext的时候传递一个空的SparkConf
然后,在运行时用 “—master” 或者 “—conf” 参数命令行选项来提供设置值


你可以运行spark-submit脚本的时候,通过“—-help”来查看各种选项
另一种设定Spark属性的方法是在spark-defaults.conf文件里设置
spark-submit脚本会从你的文件中读取这些配置
你可以在应用程序的默认端口为4040的Web客户端上查看Spark属性


最后我想提到的一件注意事项,直接SparkConf上设置的属性具有最高的优先级
spark-submit或者spark-shell是第二优先级,最后是spark-default.conf文件里的设置。


监控Spark应用程序有三种方法:第一种方法是使用基于Web的客户端,它的默认端口是4040
在应用程序运行期间,你可以在这个客户端上获得Spark实时监控信息
如果你希望在程序运行完以后查看这些信息,你需要在应用程序开始之前把spark.eventlog.enabled属性设定为true,这样所有运行的信息就会被储存起来
  • 计算机的硬盘容量与操作系统的硬盘容量存在差异,这不是计算机硬盘安装错误,而是计算机领域的一种正常现象,下面爱站技术频道小编就告诉你这些原因。

    计算机的硬盘容量与操作系统的硬盘容量存在差异,这不是计算机硬盘安装错误,而是计算机领域的一种正常现象,下面爱站技术频道小编就告诉你这些原因。

    a. 硬盘制造商和计算机操作系统对硬盘容量的计算标准不同硬盘制造商在标注硬盘容量时采用的是1000进制,即:1G = 1,000MB,1MB =1,000KB,1KB = 1,000byte ;然而,操作系统在识别硬盘容量时采用的是1024 进制,即:1GB = 1,024MB,1MB = 1,024KB,1KB = 1,024byte。您的电脑硬盘的标称容量采用的是硬盘制造商的计算标准,由于硬盘制造商和操作系统在计算硬盘容量时采用的标准不同,导致了硬盘标称容量和硬盘在操作系统中显示的容量出现差异。  例如,硬盘标称是XG,那么,即使在完全没有被使用的情况下,它在操作系统中显示的容量也只是:X×1000×1000×1000/(1024×1024×1024) ≈ X×0.931 G。  如果硬盘的部分空间已被用于特定用途, 那么操作系统中显示的容量还将小于X×0.931G。  b. 硬盘的部分空间被用于特定用途  由于配备了一键恢复功能,硬盘在出厂前已经划分出一块特定分区,用以存放硬盘镜像文件以及一键恢复程序文件,该部分硬盘空间的具体数值因电脑的机型和安装的操作系统和软件的不同而不同。出于安全考虑,这块分区只能在“磁盘管理”中看到,即通常所说的“隐藏分区”或“服务分区”。此外,在硬盘被分区或格式化后,系统会在硬盘上占用一些空间,提供给系统文件使用。 由于这些原因,您在操作系统中看到的可用硬盘空间总是小于计算机硬盘的额定容量,如果还有需要了解的内容,就继续关注爱站技术频道吧!
  • 相关推荐:

  • 硬盘容量的计算方法和说
  • IT和IT行业的介绍
  • 路由的追踪命令
  • AMD推土机处理器的知识
  • 带你了解ape与mp3的区别
  • scroll lock键的作用
  • 辨别笔记本是否为翻新机
  • H77、Z75、Z77主板的区别
  • 巧克力键盘的介绍
  • 串流服务是什么 云电脑
  • 网站内容禁止违规转载,转载授权联系中国云计算网