大数据干货丨最全面得的Hive性能优化大数据干货丨最全面得的Hive性能优化1.介绍2.性能低下的根源3.配置角度优化4.程序角度优化5.优化总结6.优化的常用手段
……继续阅读 »
DBeaver Enterprise 7.0 企业版激活方法=>
DBeaver是一款优秀的数据库管理工具,支持管理众多数据库产品,巴拉巴拉
1.DBeaver Enterprise(简称DBeaverEE)支持MongoDB、Redis、Apache Hive等,但是需要付费使用。
软件下载地址https://dbeaver.io/d……继续阅读 »
更新网盘链接-Clickhouse 10月20日深圳Meetup 内容回放和相关PDF下载
……继续阅读 »
数据仓库之数据模型
关于数据仓库的概念,数据仓库建设的7个主要环节
……继续阅读 »
介绍从一百个并发到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段会遇到的相关技术,让大家对架构的演进有一个整体的认知,文章最后汇总了一些架构设计的原则。
……继续阅读 »
前言
有赞数据平台从2017年上半年开始,逐步使用 SparkSQL 替代 Hive 执行离线任务,目前 SparkSQL 每天的运行作业数量5000个,占离线作业数目的55%,消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验和优化建议,包括以下方面的内容:
有赞数据平台的整体架构。
……继续阅读 »
spring-kafka是一个很好的用来操作kafka的库,并且可以和spring进行完美结合。
spring-kafka提供了一些kafka使用上功能的扩展。
相比于使用原生的kafka-client的api的话,使用更加简单,需要编写的码量更少。
最好能够使用最新的kafka(0.10.0)和spring-kafka(1.1.1.RELEASE)的版本
……继续阅读 »
总结
调用 TaskSchedulerImpl.start 方法启动 TaskScheduler 时会调用 SchedulerBackend.start 方法启动 SchedulerBackend;
SchedulerBackend 是 TaskScheduler 的后台线程,用于接收处理一些发给 TaskScheduler 的消息;
StandaloneS……继续阅读 »
使用Flink SQL读取kafka数据并通过JDBC方式写入Clickhouse实时场景的简单实例
……继续阅读 »
Kafka 的消息拉取流程还是比较复杂的,后面会基于上述流程,重点进行拆解,例如消费进度提交,负载队列重平衡等等。
……继续阅读 »