提取數(shù)據(jù),存儲(chǔ)數(shù)據(jù)(即數(shù)據(jù)建模)和處理數(shù)據(jù)(即數(shù)據(jù)加工,數(shù)據(jù)轉(zhuǎn)換和查詢數(shù)據(jù))。
提取數(shù)據(jù)
從各種來(lái)源提取數(shù)據(jù),例如:
RDBM(Relational Database Management Systems)關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng),如Oracle,MySQL等。
ERPs(Enterprise Resource Planning)企業(yè)資源規(guī)劃(即ERP)系統(tǒng),如SAP。
CRM(Customer Relationships Management)客戶關(guān)系管理系統(tǒng),如Siebel,Salesforce等
社交媒體Feed和日志文件。
平面文件,文檔和圖像。
并將其存儲(chǔ)在基于“Hadoop分布式文件系統(tǒng)”(簡(jiǎn)稱HDFS)的數(shù)據(jù)中心上??梢酝ㄟ^(guò)批處理作業(yè)(例如每15分鐘運(yùn)行一次,每晚一次,等),近實(shí)時(shí)(即100毫秒至2分鐘)流式傳輸和實(shí)時(shí)流式傳輸(即100毫秒以下)去采集數(shù)據(jù)。
Hadoop中使用的一個(gè)常用術(shù)語(yǔ)是“Schema-On-Read”。這意味著未處理(也稱為原始)的數(shù)據(jù)可以被加載到HDFS,其具有基于處理應(yīng)用的需求在處理之時(shí)應(yīng)用的結(jié)構(gòu)。這與“Schema-On-Write”不同,后者用于需要在加載數(shù)據(jù)之前在RDBM中定義模式。
存儲(chǔ)數(shù)據(jù)
數(shù)據(jù)可以存儲(chǔ)在HDFS或NoSQL數(shù)據(jù)庫(kù),如HBase。HDFS針對(duì)順序訪問(wèn)和“一次寫入和多次讀取”的使用模式進(jìn)行了優(yōu)化。HDFS具有很高的讀寫速率,因?yàn)樗梢詫 / O并行到多個(gè)驅(qū)動(dòng)器。HBase在HDFS之上,并以柱狀方式將數(shù)據(jù)存儲(chǔ)為鍵/值對(duì)。列作為列家族在一起。HBase適合隨機(jī)讀/寫訪問(wèn)。在Hadoop中存儲(chǔ)數(shù)據(jù)之前,你需要考慮以下幾點(diǎn):
數(shù)據(jù)存儲(chǔ)格式:有許多可以應(yīng)用的文件格式(例如CSV,JSON,序列,AVRO,Parquet等)和數(shù)據(jù)壓縮算法(例如snappy,LZO,gzip,bzip2等)。每個(gè)都有特殊的優(yōu)勢(shì)。像LZO和bzip2的壓縮算法是可拆分的。
數(shù)據(jù)建模:盡管Hadoop的無(wú)模式性質(zhì),模式設(shè)計(jì)依然是一個(gè)重要的考慮方面。這包括存儲(chǔ)在HBase,Hive和Impala中的對(duì)象的目錄結(jié)構(gòu)和模式。Hadoop通常用作整個(gè)組織的數(shù)據(jù)中心,并且數(shù)據(jù)旨在共享。因此,結(jié)構(gòu)化和有組織的數(shù)據(jù)存儲(chǔ)很重要。
元數(shù)據(jù)管理:與存儲(chǔ)數(shù)據(jù)相關(guān)的元數(shù)據(jù)。
多用戶:更智能的數(shù)據(jù)中心托管多個(gè)用戶、組和應(yīng)用程序。這往往導(dǎo)致與統(tǒng)治、標(biāo)準(zhǔn)化和管理相關(guān)的挑戰(zhàn)。
處理數(shù)據(jù)
Hadoop的處理框架使用HDFS。它使用“Shared Nothing”架構(gòu),在分布式系統(tǒng)中,每個(gè)節(jié)點(diǎn)完全獨(dú)立于系統(tǒng)中的其他節(jié)點(diǎn)。沒(méi)有共享資源,如CPU,內(nèi)存以及會(huì)成為瓶頸的磁盤存儲(chǔ)。Hadoop的處理框架(如Spark,Pig,Hive,Impala等)處理數(shù)據(jù)的不同子集,并且不需要管理對(duì)共享數(shù)據(jù)的訪問(wèn)。 “Shared Nothing”架構(gòu)是非常可擴(kuò)展的,因?yàn)楦嗟墓?jié)點(diǎn)可以被添加而沒(méi)有更進(jìn)一步的爭(zhēng)用和容錯(cuò),因?yàn)槊總€(gè)節(jié)點(diǎn)是獨(dú)立的,并且沒(méi)有單點(diǎn)故障,系統(tǒng)可以從單個(gè)節(jié)點(diǎn)的故障快速恢復(fù)。








暫無(wú)數(shù)據(jù)