最新发布第51页

大数据学习,java,hadoop,spark,hive,数据仓库大数据学习,java,hadoop,spark,hive,数据仓库

为什么零拷贝可以提升Kafka性能?

零拷贝技术通过DMA技术将文件内容复制到内核模式下的Read Buffer中。不过没有数据被复制到Socket Buffer，只有包含数据的位置和长度的信息的文件描述符被加到Socket Buffer中。DMA引擎直接将数据从内核模式中传递到网卡设备。这里上下文切换变成了2次,也只经历了2次复制过程就从磁盘中传送出去了。 ……继续阅读 »

Java

spark源码阅读之shuffle模块②

在spark源码阅读之shuffle模块①中，介绍了spark版本shuffle的演化史，提到了主要的两个shuffle策略：HashBasedShuffle和SortedBasedShuffle，分别分析了它们的原理以及shuffle write过程，而中间的过程，也就是shuffleMapTask运算结果的处理过程在spark源码阅读之executor模……继续阅读 »

Kafka

初始 Kafka Consumer 消费者

根据 KafkaConsumer 类上的注释上来看 KafkaConsumer 具有如下特征：在 Kafka 中 KafkaConsumer 是线程不安全的。 2.2.1 版本的KafkaConsumer 兼容 kafka 0.10.0 和 0.11.0 等低版本。消息偏移量与消费偏移量(消息消费进度) Kafka 为分区中的每一条消息维护一个偏移量，即……继续阅读 »

Kafka

初识 Kafka Producer 生产者

根据 KafkaProducer 类上的注释上来看 KafkaProducer 具有如下特征： KafkaProducer 是线程安全的，可以被多个线程交叉使用。 KafkaProducer 内部包含一个缓存池，存放待发送消息，即 ProducerRecord 队列，与此同时会开启一个IO线程将 ProducerRecord 对象发送到 Kafka 集群。 ……继续阅读 »

Kafka

kafka为什么吞吐量高？

读写一个文件之前，得一层层目录找到这个文件，以及做一堆属性、权限之类的检查。写新文件时还要加上寻找磁盘可用空间的耗时。对于小文件，这些时间消耗的占比就非常大了。 ……继续阅读 »

Spark

spark streaming源码解读之基于贯通

spark streaming源码解读之基于贯通 ……继续阅读 »

Spark

spark-streaming源码之state管理之updatestatebykey和mapwithstate

本讲内容： a. updateStateByKey解密 b. mapWithState解密 ……继续阅读 »

Kafka

Kafka SASL/PLAIN认证插件

自定义类编写完成后后，将jar包拷贝到每个broker的CLASSPATH下，比如kafka的libs目录下。在MySQL中插入几条用户信息，然后尝试以这些用户的身份来连接Kafka（为方便起见，测试阶段可以先不要开启ACL），我们会发现，MySQL中的用户可以连接，而写在配置文件中的用户无法连接，说明这个插件达到了预期的效果，增删用户不需要重启了。 ……继续阅读 »

Kafka

Kafka基本原理

Apache Kafka由著名职业社交公司LinkedIn开发，最初是被设计用来解决LinkedIn公司内部海量日志传输等问题。Kafka使用Scala语言编写，于2011年开源并进入Apache孵化器，2012年10月正式毕业，现在为Apache顶级项目。 Kafka是一个分布式数据流平台，可以运行在单台或者多台服务器上部署形成集群。它提供了发布和订阅功能……继续阅读 »

Kafka

如何确定Kafka集群适当的topics/partitions数量

在一个Kafka集群中如何选择topics/partitions的数量，针对kafka 1.1.0以及之后的版本，建议单台broker上partition数量不超过4000, 整个集群partition数量不超过2000,000，主要原因还是上面讲过的controller选举和controller重新选举partition leader的耗时。 ……继续阅读 »

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31