Spark 归档 - 第4页共4页 - 大数据学习,java,hadoop,spark,hive,数据仓库

SparkSQL 在有赞的实践

前言有赞数据平台从2017年上半年开始，逐步使用 SparkSQL 替代 Hive 执行离线任务，目前 SparkSQL 每天的运行作业数量5000个，占离线作业数目的55%，消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验和优化建议，包括以下方面的内容：有赞数据平台的整体架构。 ……继续阅读 »

Spark源码：启动TaskScheduler

总结调用 TaskSchedulerImpl.start 方法启动 TaskScheduler 时会调用 SchedulerBackend.start 方法启动 SchedulerBackend； SchedulerBackend 是 TaskScheduler 的后台线程，用于接收处理一些发给 TaskScheduler 的消息； StandaloneS……继续阅读 »

spark源码阅读之shuffle模块②

在spark源码阅读之shuffle模块①中，介绍了spark版本shuffle的演化史，提到了主要的两个shuffle策略：HashBasedShuffle和SortedBasedShuffle，分别分析了它们的原理以及shuffle write过程，而中间的过程，也就是shuffleMapTask运算结果的处理过程在spark源码阅读之executor模……继续阅读 »

spark streaming源码解读之基于贯通

spark streaming源码解读之基于贯通 ……继续阅读 »

spark-streaming源码之state管理之updatestatebykey和mapwithstate

本讲内容： a. updateStateByKey解密 b. mapWithState解密 ……继续阅读 »

Sparn On Yarn启动流程源码分析

Sparn On Yarn启动流程源码分析 ……继续阅读 »

深入理解Spark 2.1 Core （一）：RDD的原理与源码分析

深入理解Spark 2.1 Core （一）：RDD的原理与源码分析 ……继续阅读 »

Spark存储内存在哪些地方用到？

Spark中用到内存的地方有哪些？存储内存主要消耗在哪些地方？执行内存主要消耗在哪些地方 ……继续阅读 »

记一次Spark Yarn Shuffle Service升级引发的血案

Spark YarnShuffleService是作为Hadoop Yarn模块中NodeManager的辅助服务寄生在其进程内部，大家都知道可以通过这个外部服务来削减Executor自身在shuffle过程中的压力，且得益于这个服务的常驻特性，Shuffle Write的文件可以跟着这个服务走，就可以实现动态资源分配等Spark的高级特性。 ……继续阅读 »

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30