标签：大数据

SparkSQL 在有赞的实践

前言有赞数据平台从2017年上半年开始，逐步使用 SparkSQL 替代 Hive 执行离线任务，目前 SparkSQL 每天的运行作业数量5000个，占离线作业数目的55%，消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验和优化建议，包括以下方面的内容：有赞数据平台的整体架构。 ……继续阅读 »

Spark

Sparn On Yarn启动流程源码分析

Sparn On Yarn启动流程源码分析 ……继续阅读 »

Spark

深入理解Spark 2.1 Core （一）：RDD的原理与源码分析

深入理解Spark 2.1 Core （一）：RDD的原理与源码分析 ……继续阅读 »

Scala

Scala学习笔记(一)mac下安装ScalaIDE选择总结

scala的IDE选择，助你提升开发效率，过年前就定(chui)下了目(niu)标(bi)，今年要学习一下Scala和Spark赶一下潮流。谁叫落后就要挨打呢，程序员只能不停的学习。一个语言，学习的第一步必定是搭建环境和熟悉语法。 ……继续阅读 »

Scala

Scala学习笔记(八) 模式匹配

模式匹配是 Scala 的重要特性之一，前面两篇笔记Scala学习笔记(六) Scala的偏函数和偏应用函数、Scala学习笔记(七) Sealed Class 和 Enumeration都是为了这一篇而铺垫准备的。在jdk1.7之前，Java的 switch 关键字只可以处理原生类型(int 、short 、byte 、char)和枚举类型。在jdk1.……继续阅读 »

Scala

Scala学习笔记(二)Scala是什么，能做什么？

scala基础学习，scala,数据结构，类型，函数式编程 ……继续阅读 »

Spark

Spark存储内存在哪些地方用到？

Spark中用到内存的地方有哪些？存储内存主要消耗在哪些地方？执行内存主要消耗在哪些地方 ……继续阅读 »

Spark

记一次Spark Yarn Shuffle Service升级引发的血案

Spark YarnShuffleService是作为Hadoop Yarn模块中NodeManager的辅助服务寄生在其进程内部，大家都知道可以通过这个外部服务来削减Executor自身在shuffle过程中的压力，且得益于这个服务的常驻特性，Shuffle Write的文件可以跟着这个服务走，就可以实现动态资源分配等Spark的高级特性。 ……继续阅读 »

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31