亚洲中文字幕va福利,337p粉嫩大胆色噜噜噜,97香蕉碰碰人妻国产欧美

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

291294878

2018-10-22 閱讀量: 1283

大數(shù)據(jù)解決方案的關(guān)鍵步驟是什么？

提取數(shù)據(jù)，存儲數(shù)據(jù)（即數(shù)據(jù)建模）和處理數(shù)據(jù)（即數(shù)據(jù)加工，數(shù)據(jù)轉(zhuǎn)換和查詢數(shù)據(jù)）。

　　提取數(shù)據(jù)

　從各種來源提取數(shù)據(jù)，例如：

RDBM（Relational Database Management Systems）關(guān)系數(shù)據(jù)庫管理系統(tǒng)，如Oracle，MySQL等。

ERPs（Enterprise Resource Planning）企業(yè)資源規(guī)劃（即ERP）系統(tǒng)，如SAP。

CRM（Customer Relationships Management）客戶關(guān)系管理系統(tǒng)，如Siebel，Salesforce等

社交媒體Feed和日志文件。

平面文件，文檔和圖像。

　　并將其存儲在基于“Hadoop分布式文件系統(tǒng)”（簡稱HDFS）的數(shù)據(jù)中心上。可以通過批處理作業(yè)（例如每15分鐘運行一次，每晚一次，等），近實時（即100毫秒至2分鐘）流式傳輸和實時流式傳輸（即100毫秒以下）去采集數(shù)據(jù)。

　　Hadoop中使用的一個常用術(shù)語是“Schema-On-Read”。這意味著未處理（也稱為原始）的數(shù)據(jù)可以被加載到HDFS，其具有基于處理應(yīng)用的需求在處理之時應(yīng)用的結(jié)構(gòu)。這與“Schema-On-Write”不同，后者用于需要在加載數(shù)據(jù)之前在RDBM中定義模式。

　　存儲數(shù)據(jù)

數(shù)據(jù)可以存儲在HDFS或NoSQL數(shù)據(jù)庫，如HBase。HDFS針對順序訪問和“一次寫入和多次讀取”的使用模式進(jìn)行了優(yōu)化。HDFS具有很高的讀寫速率，因為它可以將I / O并行到多個驅(qū)動器。HBase在HDFS之上，并以柱狀方式將數(shù)據(jù)存儲為鍵/值對。列作為列家族在一起。HBase適合隨機(jī)讀/寫訪問。在Hadoop中存儲數(shù)據(jù)之前，你需要考慮以下幾點：

數(shù)據(jù)存儲格式：有許多可以應(yīng)用的文件格式（例如CSV，JSON，序列，AVRO，Parquet等）和數(shù)據(jù)壓縮算法（例如snappy，LZO，gzip，bzip2等）。每個都有特殊的優(yōu)勢。像LZO和bzip2的壓縮算法是可拆分的。

數(shù)據(jù)建模：盡管Hadoop的無模式性質(zhì)，模式設(shè)計依然是一個重要的考慮方面。這包括存儲在HBase，Hive和Impala中的對象的目錄結(jié)構(gòu)和模式。Hadoop通常用作整個組織的數(shù)據(jù)中心，并且數(shù)據(jù)旨在共享。因此，結(jié)構(gòu)化和有組織的數(shù)據(jù)存儲很重要。

元數(shù)據(jù)管理：與存儲數(shù)據(jù)相關(guān)的元數(shù)據(jù)。

多用戶：更智能的數(shù)據(jù)中心托管多個用戶、組和應(yīng)用程序。這往往導(dǎo)致與統(tǒng)治、標(biāo)準(zhǔn)化和管理相關(guān)的挑戰(zhàn)。

　　處理數(shù)據(jù)

　　Hadoop的處理框架使用HDFS。它使用“Shared Nothing”架構(gòu)，在分布式系統(tǒng)中，每個節(jié)點完全獨立于系統(tǒng)中的其他節(jié)點。沒有共享資源，如CPU，內(nèi)存以及會成為瓶頸的磁盤存儲。Hadoop的處理框架（如Spark，Pig，Hive，Impala等）處理數(shù)據(jù)的不同子集，并且不需要管理對共享數(shù)據(jù)的訪問。 “Shared Nothing”架構(gòu)是非?？蓴U(kuò)展的，因為更多的節(jié)點可以被添加而沒有更進(jìn)一步的爭用和容錯，因為每個節(jié)點是獨立的，并且沒有單點故障，系統(tǒng)可以從單個節(jié)點的故障快速恢復(fù)。