[kafka] 基础知识

Kafka基本原理详解（超详细！）_kafka工作原理-CSDN博客

Kafka

Kafka背景：Linkedin自己开发的，后面丢给apache开源了

关键词：

分布式
分区存储
多服务
消息
消费者模型

为什么需要做Kafka：可以看看链接博客，里面套娃了另外一个博客，说到一个快递员以及一个收件员的故事，蛮有意思的。

关键词三个：解耦，异步，削峰

而这三个关键词最终指向了还是中间这个词，异步。

因为异步，对于快递员来说，是解耦的，不需要具体等待收件人的时间，直接丢了就走，再送下一个快递。

因为异步，对于收件人来说，如果瞬时有大量的快递送达，也不需要一下次全部去拿，只要按照自己的步伐慢慢处理就可以。也就是削峰

而异步也是在通信手段里面老生常谈的通信手段。主要特点有速度快，整体性能高等，但也需要开辟缓冲区以及需要解决信息传递失效问题。

而Kafka感觉只是在背靠大数据的背景下，大量用户产生各种各样的信息需要传递，所以弄了一个分布式架构消息传递的中台总体进行管理。

具体应用场景：

假设说现在需要做一个词频分析，所有用户的搜索状态，做一个热搜，那么首先第一步就是需要获取全部的用户信息。第二部就是需要有一个接收信息并且词分的一个模块进行处理。如果不用Kafka，可能这个词分模块很快就爆了。所以就需要一个中台（可以理解为一个buffer的作用）进行统一的管理，当然这个buffer功能花样更多，因为整体系统可能不止一个这种消息需要大量传递，可能有非常非常多的数据需要交互，所以就需要Kafka作为中控作为一个统一的buffer

常用的通信模式一般就两种：一对一或者广播

消息也是这样，要么就发给一个人要么就发个一群人

然后再套用一下消费者生产者模型基本就出来了，所以本质上Kafka可以认为是消费者生产者模型中间哪一个buffer就好了，只是这个buffer比较复杂而已，而且他还需要解决一群消费者的问题。

既然是buffer为什么需要用分布式，前面说到了整体系统会有非常多乱七八糟的东西，只要需要的东西就可以认为是一个消息，那么东西可能特别多，所以用上了分布式存储以及分布式处理。

分布式也是特别特别复杂的一个东西，这里我还没研究过。

Kafka的分布式当时是直接用了zookeeper去维护的，现在自己有了新的框架KRaft。