99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-10-23 閱讀量: 1039
spark streaming 讀取kafka數(shù)據(jù)的兩種方式

這兩種方式分別是:

Receiver-base

使用Kafka的高層次Consumer API來(lái)實(shí)現(xiàn)。receiver從Kafka中獲取的數(shù)據(jù)都存儲(chǔ)在Spark Executor的內(nèi)存中,然后Spark Streaming啟動(dòng)的job會(huì)去處理那些數(shù)據(jù)。然而,在默認(rèn)的配置下,這種方式可能會(huì)因?yàn)榈讓拥氖《鴣G失數(shù)據(jù)。如果要啟用高可靠機(jī)制,讓數(shù)據(jù)零丟失,就必須啟用Spark Streaming的預(yù)寫(xiě)日志機(jī)制(Write Ahead Log,WAL)。該機(jī)制會(huì)同步地將接收到的Kafka數(shù)據(jù)寫(xiě)入分布式文件系統(tǒng)(比如HDFS)上的預(yù)寫(xiě)日志中。所以,即使底層節(jié)點(diǎn)出現(xiàn)了失敗,也可以使用預(yù)寫(xiě)日志中的數(shù)據(jù)進(jìn)行恢復(fù)。

Direct

Spark1.3中引入Direct方式,用來(lái)替代掉使用Receiver接收數(shù)據(jù),這種方式會(huì)周期性地查詢Kafka,獲得每個(gè)topic+partition的最新的offset,從而定義每個(gè)batch的offset的范圍。當(dāng)處理數(shù)據(jù)的job啟動(dòng)時(shí),就會(huì)使用Kafka的簡(jiǎn)單consumer api來(lái)獲取Kafka指定offset范圍的數(shù)據(jù)。

0.0000
3
關(guān)注作者
收藏
評(píng)論(0)

發(fā)表評(píng)論

暫無(wú)數(shù)據(jù)
推薦帖子