
不過這并不一定就是壞事。把 Hadoop 當作廉價有效的存儲正好是 Hadoop 下一階段演進的的完美起點。今年夏天就要亮相的 Hadoop 2.0 將會令數(shù)據(jù)倉庫中的信息以及非結(jié)構(gòu)化數(shù)據(jù)池前所未有地容易訪問。
Hadoop大桶
自成為大數(shù)據(jù)工具以來,Hadoop 就是一個非常棒的數(shù)據(jù)存儲系統(tǒng),但是需要開發(fā) Java 應(yīng)用來訪問數(shù)據(jù)的 MapReduce 學(xué)習(xí)起來卻比較困難。
當然,還有別的辦法可以從 Hadoop 中獲取信息。Hbase數(shù)據(jù)是 Hadoop 的一部分,它可以讓用戶按照數(shù)據(jù)庫范式來處理數(shù)據(jù)。Hive數(shù)據(jù)倉庫則可以讓你用類 SQL 的 HiveSQL 查詢語言來創(chuàng)建查詢并轉(zhuǎn)化為 MapReduce 任務(wù)。不過 Hadoop 仍受限于單線程性。MapReduce 任務(wù)、Hive 查詢、Hbase 操作,等等,這些都要輪流進行。

Hadoop 的開發(fā)社區(qū)也意識到這個問題,隨著 Hadoop 即將迭代到新的版本,上述限制即將在很大程度上被解除。
YARN解決方案

相對于當前 MapReduce 系統(tǒng)能處理的事情,把這些功能分開使得 Hadoop 集群資源的管理更加強大。其主要管理方式類似于操作系統(tǒng)對任務(wù)的處理,也就是說不再有一次一項操作的限制了。
有了 YARN,開發(fā)者就能夠直接在 Hadoop 內(nèi)部來開發(fā)應(yīng)用,而不是像許多第三方工具所做的那樣,在外面把數(shù)據(jù)篩選出來。
Murthy 稱,現(xiàn)在已經(jīng)有供應(yīng)商對在 YARN 框架內(nèi)開發(fā)應(yīng)用表現(xiàn)出興趣。Murthy 估計,Hadoop 2.0 的強力 beta 版有可能會在今年 6 月或 7 月推出,正式版則可能在 8 月發(fā)布。
如果 YARN 的確能履行其承諾的話,開發(fā)者將可以在原生的 Hadoop 平臺里方便地接觸到許多的數(shù)據(jù)大湖大海,令搜尋有用信息的任務(wù)更加流暢和便捷。屆時,大數(shù)據(jù)會變得更加有用、更加大眾化。