Spark 归档 - 第3页共4页 - 大数据学习,java,hadoop,spark,hive,数据仓库

Spark 3.0 AQE Adaptive Query Execution详解

在Spark 3.0中，AQE框架具有以下三个功能：Dynamically coalescing shuffle partitions （动态整合shuffle partitions 数量）Dynamically switching join strategies （动态切换连接策略）Dynamically optimizing skew joins （……继续阅读 »

Spark踩坑vlog-推测执行spark.speculatio踩坑背景踩坑原因解决原因教训

Spark踩坑vlog-推测执行spark.speculatio踩坑背景踩坑原因解决原因教训 ……继续阅读 »

Kafka+Spark Streaming如何保证exactly once语义

Kafka+Spark Streaming如何保证exactly once语义 ……继续阅读 »

提效 7 倍，Apache Spark 自适应查询优化在网易的深度实践及改进（转载）

提效 7 倍， %%sitename%% %%title%% %%primary_category%% %%sep%% 在网易的深度实践及改进（转载）本文基于 Apahce Spark 3.1.1 版本，讲述 AQE 自适应查询优化的原理，以及网易数帆在 AQE 实践中遇到的痛点和做出的思考。 ……继续阅读 »

spark ui中executor显示的内存量与设置的内存量不符的问题

spark ui中executor显示的内存量与设置的内存量不符的问题 ……继续阅读 »

SparkSQL的执行计划详解

SparkSQL的执行计划详解 ……继续阅读 »

Spark SQL 查询中 Coalesce 和 Repartition 暗示（Hint）

Spark SQL 查询中 Coalesce 和 Repartition 暗示（Hint） ……继续阅读 »

sparksql内核剖析免费学习交流下载，朱锋，张韶全，黄明

经过多年的发展，大数据处理技术逐步成熟。作为业界大数据计算的事实标准，Apache Spark系统已经广泛应用于各大企业与研究机构，并形成完整的生态系统。Spark系统包含了SQL、GraphX和R等各个子系统以支持不同业务领域的需求。作为传统关系数据库/数据仓库在大数据场景下的解决方案，Spark SQL已经成为了业界的重要选择方案，同时也成为了Spark……继续阅读 »

实时流计算、Spark Streaming、Kafka、Redis、Exactly-once

在实时流式计算中，最重要的是在任何情况下，消息不重复、不丢失，即Exactly-once。本文以Kafka–>Spark Streaming–>Redis为例，一方面说明一下如何做到Exactly-once，另一方面说明一下我是如何计算实时去重指标的。 ……继续阅读 »

SparkSql 的Join 实现

Spark SQL 之 Join 实现 Join作为SQL中一个重要语法特性，几乎所有稍微复杂一点的数据分析场景都离不开Join，如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流，作为开发者，我们有必要了解Join在Spark中是如何组织运行的。 SparkSQL总体流程介绍在阐述Join实现之前，我……继续阅读 »

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30