三范式原则(函数依赖,三范式区分)
……继续阅读 »
kudu的设计入门
……继续阅读 »
实时数仓最佳实践-美团 Flink实时数仓治理
……继续阅读 »
使用kettle 定时同步csv文件数据到数据库表
……继续阅读 »
分区表将数据组织成分区,主要可以提高数据的查询速度。
如果把一年或者一个月的日志文件存放在一个表下,那么数据量会非常的大,当查询这个表中某一天的日志文件的时候,查询速度还非常的慢,这时候可以采用分区表的方式,把这个表根据时间点再划分为小表。这样划分后,查询某一个时间点的日志文件就会快很多,因为这是不需要进行全表扫描。
……继续阅读 »
数据仓库设计与实现
……继续阅读 »
数据仓库中的缓慢变化维度(SCD),数仓,缓慢变化维度
……继续阅读 »
本文侧重于以 Doris 引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢迎大家多给我……继续阅读 »
Hive优化目标
在有限的资源下,执行效率更高
常见问题
数据倾斜
map数设置
reduce数设置
其他
……继续阅读 »
sql,hive,大数据,sql,hive,大数据,练习
……继续阅读 »