Ververica Platform-阿里巴巴全新Flink企业版揭秘

Ververica Platform-阿里巴巴全新Flink企业版揭秘
随着人工智能时代的降临,数据量的爆发,在典型的大数据业务场景下数据业务最通用的做法是:选用批处理的技术处理全量数据,采用流式计算处理实时增量数据。2017年基于Flink开发的实时计算产品正式服务于阿里巴巴集团内部,并从搜索和推荐两大场景开始应用。目前阿里巴巴及下属所有子公司,都采用实时计算产品来处理所有的实时业务。本文介绍Ververica Platfor……继续阅读 »

Flink State 有可能代替数据库吗?

Flink State 有可能代替数据库吗?
有状态的计算作为容错以及数据一致性的保证,是当今实时计算必不可少的特性之一,流行的实时计算引擎包括 Google Dataflow、Flink、Spark (Structure) Streaming、Kafka Streams 都分别提供对内置 State 的支持。State 的引入使得实时应用可以不依赖外部数据库来存储元数据及中间数据,部分情况下甚至可以直……继续阅读 »

Flink 源码之内存管理Flink

Flink 源码之内存管理Flink
flink的MemorySegment是Flink管理的内存片段。该类是一个抽象类。它的实现既可以是堆内存,也可以是堆外内存,甚至是两者同时使用。使用MemorySegment这个类型管理内存,无需知道内存片段是堆内、堆外还是混合,一视同仁。 ……继续阅读 »

Apache Flink 进阶入门(二):Time 深度解析

Apache Flink 进阶入门(二):Time 深度解析
Flink 的 API 大体上可以划分为三个层次:处于最底层的 ProcessFunction、中间一层的 DataStream API 和最上层的 SQL/Table API,这三层中的每一层都非常依赖于时间属性。时间属性是流处理中最重要的一个方面,是流处理系统的基石之一,贯穿这三层 API。在 DataStream API 这一层中因为封装方面的原因,我……继续阅读 »

Flink 流批一体的实践与探索

Flink 流批一体的实践与探索
自 Google Dataflow 模型被提出以来,流批一体就成为分布式计算引擎最为主流的发展趋势。流批一体意味着计算引擎同时具备流计算的低延迟和批计算的高吞吐高稳定性,提供统一编程接口开发两种场景的应用并保证它们的底层执行逻辑是一致的。对用户来说流批一体很大程度上减少了开发维护的成本,但同时这对计算引擎来说是一个很大的挑战。   作为 Dataflow ……继续阅读 »