标签:Spark

Spark

sparksql内核剖析免费学习交流下载,朱锋,张韶全,黄明

sparksql内核剖析免费学习交流下载,朱锋,张韶全,黄明
经过多年的发展,大数据处理技术逐步成熟。作为业界大数据计算的事实标准,Apache Spark系统已经广泛应用于各大企业与研究机构,并形成完整的生态系统。Spark系统包含了SQL、GraphX和R等各个子系统以支持不同业务领域的需求。作为传统关系数据库/数据仓库在大数据场景下的解决方案,Spark SQL已经成为了业界的重要选择方案,同时也成为了Spark……继续阅读 »

Spark

Spark源码:启动TaskScheduler

Spark源码:启动TaskScheduler
总结 调用 TaskSchedulerImpl.start 方法启动 TaskScheduler 时会调用 SchedulerBackend.start 方法启动 SchedulerBackend; SchedulerBackend 是 TaskScheduler 的后台线程,用于接收处理一些发给 TaskScheduler 的消息; StandaloneS……继续阅读 »

Java

spark源码阅读之shuffle模块②

spark源码阅读之shuffle模块②
在spark源码阅读之shuffle模块①中,介绍了spark版本shuffle的演化史,提到了主要的两个shuffle策略:HashBasedShuffle和SortedBasedShuffle,分别分析了它们的原理以及shuffle write过程,而中间的过程,也就是shuffleMapTask运算结果的处理过程在spark源码阅读之executor模……继续阅读 »