批處理的特點(diǎn)是有界、持久、大量,非常適合需要訪問全套記錄才能完成的計(jì)算工作,一般用于離線統(tǒng)計(jì)。
流處理的特點(diǎn)是無界、實(shí)時(shí), 無需針對整個(gè)數(shù)據(jù)集執(zhí)行操作,而是對通過系統(tǒng)傳輸?shù)拿總€(gè)數(shù)據(jù)項(xiàng)執(zhí)行操作,一般用于實(shí)時(shí)統(tǒng)計(jì)。
在spark的世界觀中,一切都是由批次組成的,離線數(shù)據(jù)是一個(gè)大批次,而實(shí)時(shí)數(shù)據(jù)是由一個(gè)一個(gè)無限的小批次組成的。
而在flink的世界觀中,一切都是由流組成的,離線數(shù)據(jù)是有界限的流,實(shí)時(shí)數(shù)據(jù)是一個(gè)沒有界限的流,這就是所謂的有界流和無界流。
無界數(shù)據(jù)流:無界數(shù)據(jù)流有一個(gè)開始但是沒有結(jié)束,它們不會在生成時(shí)終止并提供數(shù)據(jù),必須連續(xù)處理無界流,也就是說必須在獲取后立即處理event。對于無界數(shù)據(jù)流我們無法等待所有數(shù)據(jù)都到達(dá),因?yàn)檩斎胧菬o界的,并且在任何時(shí)間點(diǎn)都不會完成。處理無界數(shù)據(jù)通常要求以特定順序(例如事件發(fā)生的順序)獲取event,以便能夠推斷結(jié)果完整性。
有界數(shù)據(jù)流:有界數(shù)據(jù)流有明確定義的開始和結(jié)束,可以在執(zhí)行任何計(jì)算之前通過獲取所有數(shù)據(jù)來處理有界流,處理有界流不需要有序獲取,因?yàn)榭梢允冀K對有界數(shù)據(jù)集進(jìn)行排序,有界流的處理也稱為批處理。
這種以流為世界觀的架構(gòu),獲得的最大好處就是具有極低的延遲。








暫無數(shù)據(jù)