99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
2018-10-22 閱讀量: 1283
大數(shù)據(jù)解決方案的關(guān)鍵步驟是什么?

提取數(shù)據(jù),存儲數(shù)據(jù)(即數(shù)據(jù)建模)和處理數(shù)據(jù)(即數(shù)據(jù)加工,數(shù)據(jù)轉(zhuǎn)換和查詢數(shù)據(jù))。

  提取數(shù)據(jù)

 從各種來源提取數(shù)據(jù),例如:

RDBM(Relational Database Management Systems)關(guān)系數(shù)據(jù)庫管理系統(tǒng),如Oracle,MySQL等。

ERPs(Enterprise Resource Planning)企業(yè)資源規(guī)劃(即ERP)系統(tǒng),如SAP。

CRM(Customer Relationships Management)客戶關(guān)系管理系統(tǒng),如Siebel,Salesforce等

社交媒體Feed和日志文件。

平面文件,文檔和圖像。

  并將其存儲在基于“Hadoop分布式文件系統(tǒng)”(簡稱HDFS)的數(shù)據(jù)中心上。可以通過批處理作業(yè)(例如每15分鐘運行一次,每晚一次,等),近實時(即100毫秒至2分鐘)流式傳輸和實時流式傳輸(即100毫秒以下)去采集數(shù)據(jù)。

  Hadoop中使用的一個常用術(shù)語是“Schema-On-Read”。這意味著未處理(也稱為原始)的數(shù)據(jù)可以被加載到HDFS,其具有基于處理應(yīng)用的需求在處理之時應(yīng)用的結(jié)構(gòu)。這與“Schema-On-Write”不同,后者用于需要在加載數(shù)據(jù)之前在RDBM中定義模式。

  存儲數(shù)據(jù)

數(shù)據(jù)可以存儲在HDFS或NoSQL數(shù)據(jù)庫,如HBase。HDFS針對順序訪問和“一次寫入和多次讀取”的使用模式進(jìn)行了優(yōu)化。HDFS具有很高的讀寫速率,因為它可以將I / O并行到多個驅(qū)動器。HBase在HDFS之上,并以柱狀方式將數(shù)據(jù)存儲為鍵/值對。列作為列家族在一起。HBase適合隨機(jī)讀/寫訪問。在Hadoop中存儲數(shù)據(jù)之前,你需要考慮以下幾點:

數(shù)據(jù)存儲格式:有許多可以應(yīng)用的文件格式(例如CSV,JSON,序列,AVRO,Parquet等)和數(shù)據(jù)壓縮算法(例如snappy,LZO,gzip,bzip2等)。每個都有特殊的優(yōu)勢。像LZO和bzip2的壓縮算法是可拆分的。

數(shù)據(jù)建模:盡管Hadoop的無模式性質(zhì),模式設(shè)計依然是一個重要的考慮方面。這包括存儲在HBase,Hive和Impala中的對象的目錄結(jié)構(gòu)和模式。Hadoop通常用作整個組織的數(shù)據(jù)中心,并且數(shù)據(jù)旨在共享。因此,結(jié)構(gòu)化和有組織的數(shù)據(jù)存儲很重要。

元數(shù)據(jù)管理:與存儲數(shù)據(jù)相關(guān)的元數(shù)據(jù)。

多用戶:更智能的數(shù)據(jù)中心托管多個用戶、組和應(yīng)用程序。這往往導(dǎo)致與統(tǒng)治、標(biāo)準(zhǔn)化和管理相關(guān)的挑戰(zhàn)。

  處理數(shù)據(jù)

  Hadoop的處理框架使用HDFS。它使用“Shared Nothing”架構(gòu),在分布式系統(tǒng)中,每個節(jié)點完全獨立于系統(tǒng)中的其他節(jié)點。沒有共享資源,如CPU,內(nèi)存以及會成為瓶頸的磁盤存儲。Hadoop的處理框架(如Spark,Pig,Hive,Impala等)處理數(shù)據(jù)的不同子集,并且不需要管理對共享數(shù)據(jù)的訪問。 “Shared Nothing”架構(gòu)是非??蓴U(kuò)展的,因為更多的節(jié)點可以被添加而沒有更進(jìn)一步的爭用和容錯,因為每個節(jié)點是獨立的,并且沒有單點故障,系統(tǒng)可以從單個節(jié)點的故障快速恢復(fù)。

0.0000
2
關(guān)注作者
收藏
評論(0)

發(fā)表評論

暫無數(shù)據(jù)
推薦帖子