
有關Hadoop的六大誤解
迄今為止,Hadoop和大數(shù)據(jù)實際上是同義詞。然而隨著大數(shù)據(jù)的炒作不斷升溫,出現(xiàn)了很多對Hadoop如何應用于大數(shù)據(jù)的誤解。
Hadoop是一種用于存儲和分析大型數(shù)據(jù)集開源軟件框架,可處理分布在多個現(xiàn)有服務器中的數(shù)據(jù)。Hadoop適合處理來自手機、電子郵件、社交媒體、傳感器網(wǎng)絡和其它不同渠道的多樣化、大負荷的數(shù)據(jù),因此通常被認為是一種大數(shù)據(jù)操作系統(tǒng)。而這正是第一個誤解的來源:
1、Hadoop是一個完整的解決方案。
事實并非如此。無論你把它稱為“框架”或“平臺”都可以,只是不能認為Hadoop可以解決大數(shù)據(jù)方面的所有問題。
“市場上沒有標準的Hadoop產(chǎn)品,”《太大而無法忽略:大數(shù)據(jù)的商業(yè)案例》一書的作者菲爾·西蒙說:“這不像別的東西,你可以從IBM或SAP那里,得到一個標準的數(shù)據(jù)庫。”
然而西蒙不認為這是一個長期的問題。首先,由于Hadoop是開源項目,許多其他Hadoop相關的項目,如Cassandra和HBase,都可以滿足特定的需求。HBase提供的分布式數(shù)據(jù)庫,支持大數(shù)據(jù)表的結構化數(shù)據(jù)存儲。
此外,正像紅帽、IBM和其他廠商將Linux打包成各種用戶友好的產(chǎn)品一樣,有很多大數(shù)據(jù)方面的創(chuàng)業(yè)公司,正在對Hadoop做同樣的事情。所以,雖然Hadoop本身不是一個完整的解決方案,大多數(shù)企業(yè)實際上還是會在比較完整的大數(shù)據(jù)解決方案中遇到它。
2、Hadoop是一種數(shù)據(jù)庫。
Hadoop是經(jīng)常被當作數(shù)據(jù)庫,但事實并非如此。Damballa安保公司的一名軟件工程師,Marshall Bockrath-Vandegrift說:“Hadoop核心中沒有任何類似于查詢或索引的核心平臺?!盌amballa公司利用Hadoop來分析實時的安全風險。
“我們使用HBase來幫助我們的風險分析師針對被動DNS數(shù)據(jù)運行實時查詢。HBase和其他實時技術不僅與Hadoop是互補的,而且多數(shù)依賴Hadoop核心的分布式存儲技術(HDFS)來實現(xiàn)高性能的分布式數(shù)據(jù)集的訪問。”他補充說。
Bloom Reach數(shù)據(jù)營銷分析公司的科學家Prateek Gupta也表示:“Hadoop不是為替代數(shù)據(jù)庫系統(tǒng)而生的,但卻可以用來建立數(shù)據(jù)庫系統(tǒng)?!?/span>
3、企業(yè)級Hadoop應用過于冒險。
許多企業(yè)擔心Hadoop太新,未經(jīng)考驗,不適合企業(yè)級應用。沒有什么想法比這更錯誤的了。別忘了,Hadoop是基于谷歌文件系統(tǒng)的分布式存儲平臺和運行于該文件系統(tǒng)上的GoogleMapReduce數(shù)據(jù)分析工具建立的。雅虎在Hadoop上投入了資金和精力,并于2008年推出其第一個大型Hadoop應用,一種搜索“站點地圖”,可對所有已知的網(wǎng)頁和相應的元數(shù)據(jù)進行索引,從而完成對這些頁面的搜索。
現(xiàn)在,Hadoop被包括Netflix、Twitter和eBay等公司所采用,包括微軟、IBM和甲骨文這樣的公司都有Hadoop工具出售。目前,將Hadoop稱為“成熟”的技術還為時尚早,這一點與任何大數(shù)據(jù)平臺的情況類似,然而它確實已經(jīng)得到了大型企業(yè)的采納和驗證。
這不意味著它是一種沒有風險的平臺,安全問題本身就是一個比較棘手的問題。但企業(yè)遠不該就因此被Hadoop平臺的年輕而嚇跑。
4、要使用Hadoop,就得請一堆程序員。
取決于你要做的事情,這個說法或許是對的。如果你計劃開發(fā)優(yōu)秀的下一代Hadoop大數(shù)據(jù)套件,可能需要專業(yè)的Java和MapReduce編程人員。反過來,如果你愿意利用他人的成就,編程就不是一個問題。數(shù)據(jù)集成供應商Syncsort的建議分析師們利用Hadoop兼容的數(shù)據(jù)集成工具來運行高級查詢,這樣做無需任何編碼工作。
大多數(shù)數(shù)據(jù)集成工具都有圖形化界面,可以屏蔽MapReduce編程的復雜性,很多還帶有預置的模板。此外,包括Alpine Data Labs、Continuuity和Hortonworks在內(nèi)的創(chuàng)業(yè)型公司,還提供可以簡化大數(shù)據(jù)和Hadoop應用的工具。
5、Hadoop不適合中小企業(yè)。
許多中小企業(yè)擔心會被“大數(shù)據(jù)”的趨勢拒之門外。IBM、甲骨文等大型廠商自然傾向于兜售大而昂貴的解決方案。這并不意味著市場上沒有適合中小企業(yè)的相關工具。
云計算正在迅速推動一些尖端技術的大眾化應用?!?a href='/map/yunjisuan/' style='color:#000;font-size:inherit;'>云計算正將資本支出轉化為運營成本,”《大數(shù)據(jù)》的作者菲爾·西蒙指出?!澳憧梢院蚇etflix利用相同的云服務。同樣的事情也開始發(fā)生在大數(shù)據(jù)領域,一個只有五個員工的企業(yè),照樣可以使用Kaggle?!?/span>
Kaggle稱自己為“在數(shù)據(jù)問題和數(shù)據(jù)方案間搭建橋梁的市場?!崩?,創(chuàng)業(yè)公司Jetpac以5000美元懸賞一種算法,以找出最有吸引力的度假照片。多數(shù)度假照并不好,而從中篩選是一個繁瑣,耗時的過程。
Jetpac讓人手工評選出了30000張照片,并且尋求一種能夠與人工方式類似,只是通過分析元數(shù)據(jù)(照片大小、標題,描述信息)來進行排序的算法。如果該公司自行開發(fā)這一算法,花的錢絕對不止5000美元。而且他們只能得到一種方案,而不是從各種方案中優(yōu)選。Jetpac的圖像處理工具,最終幫助其獲得了240萬美元的風投資金。
6、Hadoop比較便宜。
這個誤解對任何開放源代碼的軟件都適用。省下最初的采購成本,并不意味著你一定會省錢。例如,云計算的問題之一就是,要在亞馬遜平臺上建立一個科研項目非常容易,以致于很多人都在AWS建立了自己的項目,在持續(xù)付費的同時,卻忘了這些項目本身。
虛擬服務器的盲目擴張,已經(jīng)使物理服務器的增加相形見絀。雖然Hadoop可以幫助你存儲和分析數(shù)據(jù),但你又如何將老的數(shù)據(jù)導入到新的系統(tǒng)中?如何實現(xiàn)數(shù)據(jù)的可視化?如何分享數(shù)據(jù)?對于這些會更多被大家分享的數(shù)據(jù),你又如何去保護它?
Hadoop實際上一種東拼西湊的解決方案。你可以從Cloudera這樣的公司獲得完整的企業(yè)級解決方案,也可以著手建立自己高度定制化的解決方案。無論你選擇的路線如何,都要認真做好預算,因為免費軟件從來都不是真正免費的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03