在数据仓库中如何做分区表

在数据仓库中如何做分区表
分区表将数据组织成分区,主要可以提高数据的查询速度。 如果把一年或者一个月的日志文件存放在一个表下,那么数据量会非常的大,当查询这个表中某一天的日志文件的时候,查询速度还非常的慢,这时候可以采用分区表的方式,把这个表根据时间点再划分为小表。这样划分后,查询某一个时间点的日志文件就会快很多,因为这是不需要进行全表扫描。 ……继续阅读 »

(转载)Apache Doris 在美团外卖数仓中的应用实践

(转载)Apache Doris 在美团外卖数仓中的应用实践
本文侧重于以 Doris 引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢迎大家多给我……继续阅读 »

Hive调优

Hive调优
Hive优化目标 在有限的资源下,执行效率更高 常见问题 数据倾斜 map数设置 reduce数设置 其他 ……继续阅读 »