美女张开腿喷水高潮,99久久99久久久精品齐齐

291294878

2018-10-23 閱讀量: 1039

spark streaming 讀取kafka數(shù)據(jù)的兩種方式

這兩種方式分別是：

Receiver-base

使用Kafka的高層次Consumer API來(lái)實(shí)現(xiàn)。receiver從Kafka中獲取的數(shù)據(jù)都存儲(chǔ)在Spark Executor的內(nèi)存中，然后Spark Streaming啟動(dòng)的job會(huì)去處理那些數(shù)據(jù)。然而，在默認(rèn)的配置下，這種方式可能會(huì)因?yàn)榈讓拥氖《鴣G失數(shù)據(jù)。如果要啟用高可靠機(jī)制，讓數(shù)據(jù)零丟失，就必須啟用Spark Streaming的預(yù)寫(xiě)日志機(jī)制（Write Ahead Log，WAL）。該機(jī)制會(huì)同步地將接收到的Kafka數(shù)據(jù)寫(xiě)入分布式文件系統(tǒng)（比如HDFS）上的預(yù)寫(xiě)日志中。所以，即使底層節(jié)點(diǎn)出現(xiàn)了失敗，也可以使用預(yù)寫(xiě)日志中的數(shù)據(jù)進(jìn)行恢復(fù)。

Direct

Spark1.3中引入Direct方式，用來(lái)替代掉使用Receiver接收數(shù)據(jù)，這種方式會(huì)周期性地查詢Kafka，獲得每個(gè)topic+partition的最新的offset，從而定義每個(gè)batch的offset的范圍。當(dāng)處理數(shù)據(jù)的job啟動(dòng)時(shí)，就會(huì)使用Kafka的簡(jiǎn)單consumer api來(lái)獲取Kafka指定offset范圍的數(shù)據(jù)。