哪里有網(wǎng)站建設多少錢百度問一問付費咨詢
Kafka 是一個開源的分布式流式平臺,它可以處理大量的實時數(shù)據(jù),并提供高吞吐量,低延遲,高可靠性和高可擴展性。
Kafka 最初是為分布式系統(tǒng)中海量日志處理而設計的。它可以通過持久化功能將消息保存到磁盤,并讓消費者按照自己的節(jié)奏提取消息。Kafka 不僅僅是一個消息隊列,它還是一個開源的分布式流處理平臺。
Kafka 的應用場景
Kafka 作為一款熱門的消息隊列中間件,具備高效可靠的消息異步傳遞機制,主要用于不同系統(tǒng)間的數(shù)據(jù)交流和傳遞。
下面給大家介紹一下 Kafka 在分布式系統(tǒng)中常用的應用場景:
- 日志處理與分析
- 消息隊列
- 系統(tǒng)監(jiān)控與報警
- CDC(數(shù)據(jù)變更捕獲)
- 數(shù)據(jù)流式處理
日志處理與分析
日志收集是 Kafka 最初的設計目標之一,也是最常見的應用場景之一。
可以用 Kafka 收集各種服務的日志,如 web 服務器、服務器日志、數(shù)據(jù)庫服務器等,通過 Kafka 可以統(tǒng)一接口服務的方式開放給各種消費者,例如 Flink、Hadoop、Hbase、ElasticSearch 等。這樣可以實現(xiàn)分布式系統(tǒng)中海量日志數(shù)據(jù)的處理與分析。
下圖是一張典型的 ELK(Elastic-Logstash-Kibana)分布式日志采集架構(gòu)。
- 服務將日志數(shù)據(jù)寫在 log 文件中。
- Logstash 讀取日志文件發(fā)送到 Kafka 的日志主題中。
- ElasticSearch 訂閱日志主題,建立日志索引,保存日志數(shù)據(jù)。
- 開發(fā)者通過 Kibana 連接到 ElasticSeach 即可查詢其日志索引內(nèi)容。
消息隊列
Kafka 最常見的應用場景就是作為消息隊列。提供了一個可靠且可擴展的消息隊列,可以處理大量數(shù)據(jù)。
Kafka 可以實現(xiàn)不同系統(tǒng)間的解耦和異步通信,如訂單系統(tǒng)、支付系統(tǒng)、庫存系統(tǒng)等。在這個基礎上 Kafka 還可以緩存消息,提高系統(tǒng)的可靠性和可用性,并且可以支持多種消費模式,如點對點或發(fā)布訂閱。
系統(tǒng)監(jiān)控與報警
Kafka 常用于傳輸監(jiān)控指標數(shù)據(jù)。例如,在分布式系統(tǒng)中可能會有數(shù)百臺服務器,通過工具把?CPU 利用率、內(nèi)存使用率、磁盤使用率、流量使用等指標發(fā)布到 Kafka。然后,通過監(jiān)控應用程序可以使用這些指標來進行實時可視化、警報和異常檢測。
常見監(jiān)控報警系統(tǒng)的工作流程。
- 采集器(agent)讀取購物車指標發(fā)送到 Kafka 中。
- Flink 讀取 Kafka 中的指標數(shù)據(jù)進行聚合處理。
- 實時監(jiān)控系統(tǒng)和報警系統(tǒng)讀取聚合數(shù)據(jù)作展示以及報警處理。
CDC
CDC:數(shù)據(jù)變更捕獲。用來將數(shù)據(jù)庫中的發(fā)生的更改以流的形式傳輸?shù)狡渌到y(tǒng)以進行復制或者緩存等。
Kafka 中有一個連接器組件可以支持 CDC 功能,它需要和具體的數(shù)據(jù)源結(jié)合起來使用。數(shù)據(jù)源可以分成兩種:源數(shù)據(jù)源( data source ,也叫作“源系統(tǒng)”)和目標數(shù)據(jù)源( Data Sink ,也叫作“目標系統(tǒng)”)。
Kafka 連接器和源系統(tǒng)一起使用時,它會將源系統(tǒng)的數(shù)據(jù)導入到 Kafka 集群。Kafka 連接器和目標系統(tǒng)一起使用時,它會將 Kafka 集群的數(shù)據(jù)導人到目標系統(tǒng)。
常見 CDC 系統(tǒng)的工作流程。
- 源數(shù)據(jù)源將事務日志發(fā)送到 Kafka。
- Kafka 的連接器將事務日志寫入目標數(shù)據(jù)源。
- 目標數(shù)據(jù)源包含 ElasticSearch、Redis、備份數(shù)據(jù)源等。
數(shù)據(jù)流式處理
流式處理是 Kafka 在大數(shù)據(jù)領域的重要應用場景之一。
可以用 Kafka 作為流式處理平臺的數(shù)據(jù)源或數(shù)據(jù)輸出,與 Spark Streaming、Storm、Flink 等框架進行集成,實現(xiàn)對實時數(shù)據(jù)的處理和分析,如過濾、轉(zhuǎn)換、聚合、窗口、連接等。
比如要實現(xiàn)一個推薦系統(tǒng)的工作流程。
- 將用戶的點擊流數(shù)據(jù)發(fā)送到 Kafka 中。
- Flink 讀取 Kafka 中的流數(shù)據(jù)實時寫入數(shù)據(jù)湖中其進行聚合處理。
- 機器學習使用來自數(shù)據(jù)湖的聚合數(shù)據(jù)進行訓練,算法工程師也會對推薦模型進行調(diào)整。
- 這樣推薦系統(tǒng)就能夠持續(xù)改進對每個用戶的推薦相關(guān)性。