在Spark 3.0中,AQE框架具有以下三个功能:Dynamically coalescing shuffle partitions (动态整合shuffle partitions 数量)Dynamically switching join strategies ( 动态切换连接策略 )Dynamically optimizing skew joins (……继续阅读 »
Spark踩坑vlog-推测执行spark.speculatio踩坑背景踩坑原因解决原因教训
……继续阅读 »
Kafka+Spark Streaming如何保证exactly once语义
……继续阅读 »
提效 7 倍, %%sitename%% %%title%% %%primary_category%% %%sep%% 在网易的深度实践及改进(转载)本文基于 Apahce Spark 3.1.1 版本,讲述 AQE 自适应查询优化的原理,以及网易数帆在 AQE 实践中遇到的痛点和做出的思考。
……继续阅读 »
spark ui中executor显示的内存量与设置的内存量不符的问题
……继续阅读 »
SparkSQL的执行计划详解
……继续阅读 »
Spark SQL 查询中 Coalesce 和 Repartition 暗示(Hint)
……继续阅读 »
经过多年的发展,大数据处理技术逐步成熟。作为业界大数据计算的事实标准,Apache Spark系统已经广泛应用于各大企业与研究机构,并形成完整的生态系统。Spark系统包含了SQL、GraphX和R等各个子系统以支持不同业务领域的需求。作为传统关系数据库/数据仓库在大数据场景下的解决方案,Spark SQL已经成为了业界的重要选择方案,同时也成为了Spark……继续阅读 »
在实时流式计算中,最重要的是在任何情况下,消息不重复、不丢失,即Exactly-once。本文以Kafka–>Spark Streaming–>Redis为例,一方面说明一下如何做到Exactly-once,另一方面说明一下我是如何计算实时去重指标的。
……继续阅读 »
Spark SQL 之 Join 实现
Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者,我们有必要了解Join在Spark中是如何组织运行的。
SparkSQL总体流程介绍
在阐述Join实现之前,我……继续阅读 »