标签:大数据

Spark

SparkSQL 在有赞的实践

SparkSQL 在有赞的实践
前言 有赞数据平台从2017年上半年开始,逐步使用 SparkSQL 替代 Hive 执行离线任务,目前 SparkSQL 每天的运行作业数量5000个,占离线作业数目的55%,消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验和优化建议,包括以下方面的内容: 有赞数据平台的整体架构。 ……继续阅读 »

Scala

Scala学习笔记(八) 模式匹配

Scala学习笔记(八)   模式匹配
模式匹配是 Scala 的重要特性之一,前面两篇笔记Scala学习笔记(六) Scala的偏函数和偏应用函数、Scala学习笔记(七) Sealed Class 和 Enumeration都是为了这一篇而铺垫准备的。 在jdk1.7之前,Java的 switch 关键字只可以处理原生类型(int 、short 、byte 、char)和枚举类型。在jdk1.……继续阅读 »

Spark

记一次Spark Yarn Shuffle Service升级引发的血案

记一次Spark Yarn Shuffle Service升级引发的血案
Spark YarnShuffleService是作为Hadoop Yarn模块中NodeManager的辅助服务寄生在其进程内部,大家都知道可以通过这个外部服务来削减Executor自身在shuffle过程中的压力,且得益于这个服务的常驻特性,Shuffle Write的文件可以跟着这个服务走,就可以实现动态资源分配等Spark的高级特性。 ……继续阅读 »