Spark 3.0 AQE Adaptive Query Execution详解

Spark 3.0 AQE Adaptive Query Execution详解
在Spark 3.0中,AQE框架具有以下三个功能:Dynamically coalescing shuffle partitions (动态整合shuffle partitions 数量)Dynamically switching join strategies ( 动态切换连接策略 )Dynamically optimizing skew joins (……继续阅读 »

sparksql内核剖析免费学习交流下载,朱锋,张韶全,黄明

sparksql内核剖析免费学习交流下载,朱锋,张韶全,黄明
经过多年的发展,大数据处理技术逐步成熟。作为业界大数据计算的事实标准,Apache Spark系统已经广泛应用于各大企业与研究机构,并形成完整的生态系统。Spark系统包含了SQL、GraphX和R等各个子系统以支持不同业务领域的需求。作为传统关系数据库/数据仓库在大数据场景下的解决方案,Spark SQL已经成为了业界的重要选择方案,同时也成为了Spark……继续阅读 »

SparkSql 的Join 实现

SparkSql 的Join 实现
Spark SQL 之 Join 实现 Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者,我们有必要了解Join在Spark中是如何组织运行的。 SparkSQL总体流程介绍 在阐述Join实现之前,我……继续阅读 »