在Spark 3.0中,AQE框架具有以下三个功能:Dynamically coalescing shuffle partitions (动态整合shuffle partitions 数量)Dynamically switching join strategies ( 动态切换连接策略 )Dynamically optimizing skew joins (……继续阅读 »
Spark踩坑vlog-推测执行spark.speculatio踩坑背景踩坑原因解决原因教训
……继续阅读 »
Kafka+Spark Streaming如何保证exactly once语义
……继续阅读 »
提效 7 倍, %%sitename%% %%title%% %%primary_category%% %%sep%% 在网易的深度实践及改进(转载)本文基于 Apahce Spark 3.1.1 版本,讲述 AQE 自适应查询优化的原理,以及网易数帆在 AQE 实践中遇到的痛点和做出的思考。
……继续阅读 »
经过多年的发展,大数据处理技术逐步成熟。作为业界大数据计算的事实标准,Apache Spark系统已经广泛应用于各大企业与研究机构,并形成完整的生态系统。Spark系统包含了SQL、GraphX和R等各个子系统以支持不同业务领域的需求。作为传统关系数据库/数据仓库在大数据场景下的解决方案,Spark SQL已经成为了业界的重要选择方案,同时也成为了Spark……继续阅读 »
总结
调用 TaskSchedulerImpl.start 方法启动 TaskScheduler 时会调用 SchedulerBackend.start 方法启动 SchedulerBackend;
SchedulerBackend 是 TaskScheduler 的后台线程,用于接收处理一些发给 TaskScheduler 的消息;
StandaloneS……继续阅读 »
在spark源码阅读之shuffle模块①中,介绍了spark版本shuffle的演化史,提到了主要的两个shuffle策略:HashBasedShuffle和SortedBasedShuffle,分别分析了它们的原理以及shuffle write过程,而中间的过程,也就是shuffleMapTask运算结果的处理过程在spark源码阅读之executor模……继续阅读 »
Sparn On Yarn启动流程源码分析
……继续阅读 »
深入理解Spark 2.1 Core (一):RDD的原理与源码分析
……继续阅读 »
Spark中用到内存的地方有哪些?存储内存主要消耗在哪些地方?执行内存主要消耗在哪些地方
……继续阅读 »