隨著數(shù)據(jù)量和復(fù)雜性的增加,提高了整體SLA(即服務(wù)水平協(xié)議)。例如,“Shared Nothing”架構(gòu),并行處理,內(nèi)存密集型處理框架,如Spark和Impala,以及YARN容量調(diào)度程序中的資源搶占。
縮放數(shù)據(jù)倉庫可能會(huì)很昂貴。添加額外的高端硬件容量以及獲取數(shù)據(jù)倉庫工具的許可證可能會(huì)顯著增加成本。基于Hadoop的解決方案不僅在商品硬件節(jié)點(diǎn)和開源工具方面更便宜,而且還可以通過將數(shù)據(jù)轉(zhuǎn)換卸載到Hadoop工具(如Spark和Impala)來補(bǔ)足數(shù)據(jù)倉庫解決方案,從而更高效地并行處理大數(shù)據(jù)。這也將釋放數(shù)據(jù)倉庫資源。
探索新的渠道和線索。Hadoop可以為數(shù)據(jù)科學(xué)家提供探索性的沙盒,以從社交媒體,日志文件,電子郵件等地方發(fā)現(xiàn)潛在的有價(jià)值的數(shù)據(jù),這些數(shù)據(jù)通常在數(shù)據(jù)倉庫中不可得。
更好的靈活性。通常業(yè)務(wù)需求的改變,也需要對(duì)架構(gòu)和報(bào)告進(jìn)行更改。基于Hadoop的解決方案不僅可以靈活地處理不斷發(fā)展的模式,還可以處理來自不同來源,如社交媒體,應(yīng)用程序日志文件,image,PDF和文檔文件的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。








暫無數(shù)據(jù)