
大數(shù)據(jù)的大承諾:今天你想知道什么
在從未停止的對(duì)于競(jìng)爭(zhēng)優(yōu)勢(shì)的探索中,許多組織傾向于掌握大量企業(yè)本身和外部的數(shù)據(jù),來(lái)揭示企業(yè)未來(lái)的發(fā)展方向,預(yù)測(cè)統(tǒng)計(jì)數(shù)據(jù)和采集其他具有可行性的信息,以便幫助企業(yè)做出下一步行動(dòng)的決策。這些數(shù)據(jù)常常與采集它們的工具、平臺(tái)、分析系統(tǒng)一起被稱為“大數(shù)據(jù)”(Big Data)?!按髷?shù)據(jù)”業(yè)務(wù)已經(jīng)得到大多數(shù)技術(shù)人員和企業(yè)決策者的認(rèn)同。
雖然企業(yè)的決策者已經(jīng)意識(shí)到“大數(shù)據(jù)”中蘊(yùn)含的價(jià)值,但對(duì)于大多數(shù)企業(yè)來(lái)說(shuō),真正實(shí)現(xiàn)其中的價(jià)值還難以做到。這時(shí)候IT就派上了用場(chǎng),它可以幫助決策者在儲(chǔ)存的海量信息中挖掘出需要的信息,并且對(duì)這些信息進(jìn)行分析,從而發(fā)現(xiàn)重要的趨勢(shì)信息。換句話講,IT已經(jīng)成為“大數(shù)據(jù)”發(fā)揮作用的催化劑。
在服務(wù)領(lǐng)域,“大數(shù)據(jù)”的重要性和價(jià)值越發(fā)明顯地得到證明。與美國(guó)海洋和大氣局(NOAA)、美國(guó)宇航局(NASA)這些機(jī)構(gòu)一樣,一些制藥企業(yè)和眾多能源企業(yè)同樣累積了大量的數(shù)據(jù)信息,現(xiàn)在這些企業(yè)想要將這些日常積累下來(lái)的數(shù)據(jù)轉(zhuǎn)化為一種“大數(shù)據(jù)科技”,希望這些數(shù)據(jù)能夠帶來(lái)額外的價(jià)值。
美國(guó)海洋和大氣局嘗試?yán)么髷?shù)據(jù)業(yè)務(wù)協(xié)助進(jìn)行對(duì)氣候、環(huán)境、天氣的研究和商業(yè)性探索,美國(guó)宇航局利用大數(shù)據(jù)業(yè)務(wù)進(jìn)行航天和其他領(lǐng)域的探索。制藥企業(yè)和能源企業(yè)則借助大數(shù)據(jù)業(yè)務(wù)進(jìn)行更多實(shí)實(shí)在在的研發(fā),例如藥品實(shí)驗(yàn)和地球物理分析。《紐約時(shí)報(bào)》將“大數(shù)據(jù)”作為一種工具,進(jìn)行文本分析和網(wǎng)絡(luò)開(kāi)發(fā)。迪斯尼公司利用它對(duì)店面、主題公園和網(wǎng)絡(luò)資產(chǎn)中的數(shù)據(jù)進(jìn)行分析,研究消費(fèi)習(xí)慣的相關(guān)性。
在如今的商業(yè)活動(dòng)中,“大數(shù)據(jù)”扮演著另外一種角色:大企業(yè)越來(lái)越多地面臨對(duì)大量結(jié)構(gòu)數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)進(jìn)行維護(hù)的問(wèn)題,這些數(shù)據(jù)可能來(lái)自資料庫(kù)中員工對(duì)于交易信息的報(bào)告,也可能是供應(yīng)商的日常供貨信息——總之這些都是政府要求企業(yè)在日常運(yùn)營(yíng)中需要保留的數(shù)據(jù)。最近的一些法庭案例更使上述問(wèn)題凸現(xiàn)出來(lái),使企業(yè)不得不保留大量的文件、電子郵件信息和其他電子通訊記錄,例如即時(shí)信息、IP電話記錄等,這些都可以在他們面臨訴訟時(shí)作為進(jìn)行電子信息調(diào)查的依據(jù)。
也許累積大數(shù)據(jù)所面臨的最大的挑戰(zhàn)就是建立一個(gè)可以存儲(chǔ)和得到所有實(shí)時(shí)和未來(lái)信息的數(shù)據(jù)庫(kù),并且讓這些信息可以在線用于成本效率分析的平臺(tái)。那就意味著這個(gè)平臺(tái)應(yīng)該是可升級(jí)的。這個(gè)平臺(tái)應(yīng)該涵蓋計(jì)算機(jī)存儲(chǔ)技術(shù)、語(yǔ)言查詢技術(shù)、分析工具、內(nèi)容分析工具和傳輸設(shè)備,因?yàn)镮T中囊括了太多變化的、需要有效利用和維護(hù)的內(nèi)容。
大數(shù)據(jù)業(yè)務(wù)有很多專有的和開(kāi)放性的資源作為工具,通常情況下,這些資源可以通過(guò)啟動(dòng)一個(gè)程序獲得,也可以通過(guò)與提供云技術(shù)的公司合作獲得,例如亞馬遜和谷歌——實(shí)際上,云技術(shù)不但能夠幫助你解決大數(shù)據(jù)的延展問(wèn)題,還能解決數(shù)據(jù)存儲(chǔ)和計(jì)算能力的問(wèn)題。不管怎么說(shuō),使用大數(shù)據(jù)業(yè)務(wù)不必由你親自“扮演角色”。像IBM和EMC這樣的供貨商可以提供大數(shù)據(jù)項(xiàng)目所需的工具,盡管使用這些公司提供的業(yè)務(wù)成本可能很高,而且難以衡量。
Hadoop:大多數(shù)大數(shù)據(jù)業(yè)務(wù)的重點(diǎn)在開(kāi)放資源領(lǐng)域,這個(gè)領(lǐng)域被稱為Hadoop,是Apache軟件基金會(huì)負(fù)責(zé)的一個(gè)項(xiàng)目,該項(xiàng)目包括谷歌為建立一項(xiàng)強(qiáng)化、聯(lián)合和易于了解的數(shù)據(jù)平臺(tái)而推出的技術(shù)。
從技術(shù)層面講,Hadoop包括兩項(xiàng)關(guān)鍵服務(wù):基于分布式文件系統(tǒng)(HDFS)的可信賴的數(shù)據(jù)存儲(chǔ)服務(wù)和建立在一種名為分布式計(jì)算系統(tǒng)的技術(shù)之上的高傳輸并行數(shù)據(jù)處理服務(wù)。這些服務(wù)旨在提供一個(gè)快速、可信的分析基礎(chǔ)。在這個(gè)基礎(chǔ)上,對(duì)結(jié)構(gòu)化的和復(fù)雜的數(shù)據(jù)進(jìn)行分析將成為現(xiàn)實(shí)。在許多案例中,企業(yè)將Hadoop與他們的IT系統(tǒng)一起使用,這使它們能夠?qū)⑿屡f數(shù)據(jù)整合在一起,并將這些數(shù)據(jù)組合成新的強(qiáng)有力的資源。Hadoop使企業(yè)可以輕易地利用傳統(tǒng)的分析方法對(duì)復(fù)雜的數(shù)據(jù)進(jìn)行分析,這些數(shù)據(jù)包括企業(yè)自身的信息和一些問(wèn)題。
Hadoop以一系列軟件為基礎(chǔ),提供無(wú)共享服務(wù)。你可以根據(jù)需要在一組軟件里增加或者取消Hadoop服務(wù),任何軟件供應(yīng)商所提供的軟件都支持硬件或系統(tǒng)問(wèn)題的系統(tǒng)探測(cè)和補(bǔ)償服務(wù)。換句話講,Hadoop是一個(gè)“自愈”軟件。無(wú)論系統(tǒng)怎樣改變或者出現(xiàn)故障,它都能傳輸數(shù)據(jù)、完成大容量的系統(tǒng)運(yùn)行,還能完成高效率的數(shù)據(jù)處理
雖然 Hadoop為數(shù)據(jù)的存儲(chǔ)和并行運(yùn)行提供了一個(gè)平臺(tái),但是其真正的價(jià)值還在于它的擴(kuò)展功能、跨專業(yè)整合功能和對(duì)于傳統(tǒng)技術(shù)功能的實(shí)現(xiàn)。Hadoop還提供一些子功能,這些功能可以使該軟件功能性更強(qiáng),增加軟件平臺(tái)的容量:
· Hadoop常規(guī)軟件:一般用于支持其他Hadoop子項(xiàng)目。
· Chukwa: 數(shù)據(jù)收集系統(tǒng),用于管理龐大的分支系統(tǒng)。
· HBase:可升級(jí)的、分布式數(shù)據(jù)庫(kù),支持大容量的結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)。
· HDFS:分布式文件系統(tǒng),該系統(tǒng)為應(yīng)用程序數(shù)據(jù)提供高流量服務(wù)。
· Hive: 提供數(shù)據(jù)匯總和隨機(jī)查詢的數(shù)據(jù)庫(kù)基礎(chǔ)結(jié)構(gòu)。
· MapReduce: 用于在計(jì)算集群下分布處理大數(shù)據(jù)的軟件框架。
· Pig: 為實(shí)現(xiàn)并行計(jì)算而設(shè)置的高水平數(shù)據(jù)流語(yǔ)言和執(zhí)行框架。
· ZooKeeper:為分布式應(yīng)用提供的高性能內(nèi)部協(xié)調(diào)服務(wù)。
大多數(shù)Hadoop平臺(tái)的實(shí)現(xiàn)都至少包括如下一些開(kāi)發(fā)大數(shù)據(jù)系統(tǒng)所必需的子項(xiàng)目,例如:多數(shù)組織都會(huì)選擇使用HDFS作為主要的文本發(fā)散系統(tǒng),將HBase作為基礎(chǔ)數(shù)據(jù)庫(kù)來(lái)使用,這可以儲(chǔ)存數(shù)千萬(wàn)組的數(shù)據(jù)。MapReduce也為用戶帶來(lái)很多益處,它為Hadoop平臺(tái)提供了必要的速度和便捷。
有了分布式計(jì)算系統(tǒng)(MapReduce),軟件開(kāi)發(fā)者可以創(chuàng)造能夠通過(guò)分散群機(jī)和獨(dú)立存在的計(jì)算機(jī)并行加工處理海量的非結(jié)構(gòu)型數(shù)據(jù)的程序。分布式計(jì)算系統(tǒng)網(wǎng)絡(luò)可以分解成兩個(gè)功能區(qū):Map和Reduce。其中,Map是將分散群中的不同的節(jié)點(diǎn)打包的函數(shù),Reduce則是對(duì)數(shù)據(jù)進(jìn)行整理、解析數(shù)據(jù)并體現(xiàn)其唯一價(jià)值的函數(shù)。
分布式計(jì)算系統(tǒng)最重要的優(yōu)勢(shì)就是容錯(cuò)性強(qiáng),該優(yōu)勢(shì)靠對(duì)分散群中的每個(gè)節(jié)點(diǎn)進(jìn)行控制來(lái)實(shí)現(xiàn),在這種控制下,每個(gè)節(jié)點(diǎn)都要階段性地將一定范圍的工作狀態(tài)實(shí)時(shí)加以反饋。如果某一節(jié)點(diǎn)反饋相關(guān)信息的時(shí)間超過(guò)預(yù)期時(shí)間,一個(gè)主網(wǎng)點(diǎn)就會(huì)對(duì)這個(gè)節(jié)點(diǎn)的情況進(jìn)行記錄,并將該節(jié)點(diǎn)應(yīng)該進(jìn)行的工作重新指定給另外的節(jié)點(diǎn)去做。
除了許多以開(kāi)放性資源為依托的工具,例如Clojure和Thrift之外,還存在很多以商業(yè)軟件為依托的軟件工具,盡管許多工具是建立在Hadoop這個(gè)平臺(tái)之上的。普華永道會(huì)計(jì)師事務(wù)所技術(shù)與發(fā)明中心公布了一份有關(guān)大數(shù)據(jù)業(yè)務(wù)群塊建立的詳盡指南,介紹了該業(yè)務(wù)如何將IT開(kāi)發(fā)和商業(yè)用途有機(jī)結(jié)合。
Datameer就是一個(gè)例子。該公司提供一個(gè)收集和讀取不同大數(shù)據(jù)存儲(chǔ)情況的平臺(tái),將上述數(shù)據(jù)放進(jìn)Hadoop框架之中,然后提供相應(yīng)的工具對(duì)數(shù)據(jù)進(jìn)行分析。從根本上講,Datameer試圖隱藏Hadoop軟件的復(fù)雜性并且在Hadoop軟件的基礎(chǔ)上提供分析工具。Datameer的優(yōu)勢(shì)就在于擁有超過(guò)10TB的數(shù)據(jù)資源。根據(jù)Datameer的說(shuō)法,這種資源量所處的水平正是公司使用傳統(tǒng)技術(shù)進(jìn)行數(shù)據(jù)分析的瓶頸所在。
包括Appistry、Cloudera、 Drawn to Scale HQ、 Goto Metrics、Karmasphere和 Talend在內(nèi)的其他一些從事商業(yè)運(yùn)作的供應(yīng)商也針對(duì)大數(shù)據(jù)分析業(yè)務(wù)提供類似的服務(wù)。三大主要數(shù)據(jù)庫(kù)供應(yīng)商IBM、微軟和甲骨文公司也都支持Hadoop,只不過(guò)這些公司采取的形式不同。開(kāi)放性資源BI的供應(yīng)商Pentaho也對(duì)Hadoop加以支持。
大數(shù)據(jù)業(yè)務(wù)適用于所有規(guī)模的企業(yè)。大數(shù)據(jù)業(yè)務(wù)并不是只與企業(yè)規(guī)模有關(guān),還關(guān)乎企業(yè)的經(jīng)營(yíng)情況,但其與企業(yè)數(shù)據(jù)的設(shè)置情況無(wú)關(guān)。該業(yè)務(wù)與即時(shí)分析有關(guān),例如在網(wǎng)上估定一個(gè)顧客的習(xí)慣,以便更好地了解該顧客需要怎樣的幫助與支持,了解其所要尋找的產(chǎn)品,或者描繪出目前天氣情況和送貨途中以及行程安排的其他條件下可能產(chǎn)生的影響。
服務(wù)器群、高性能文本系統(tǒng)和并行處理系統(tǒng)就是這樣運(yùn)行的。過(guò)去,除了大企業(yè)之外,這些技術(shù)對(duì)于大多數(shù)企業(yè)來(lái)說(shuō)都太昂貴了。今天,虛擬化和產(chǎn)品硬件已經(jīng)在很大意義上降低了成本,使大數(shù)據(jù)業(yè)務(wù)能夠?yàn)?/span>中小企業(yè)所用。
對(duì)于大數(shù)據(jù)分析業(yè)務(wù),小企業(yè)還有另外的途徑來(lái)實(shí)現(xiàn),這個(gè)途徑就是云技術(shù)。針對(duì)大數(shù)據(jù)業(yè)務(wù)提供的云服務(wù)異軍突起,為迅速和高效進(jìn)行數(shù)據(jù)分析提供必要的平臺(tái)和工具。然而,小企業(yè)真的需要大數(shù)據(jù)業(yè)務(wù)嗎?回答是肯定的。其實(shí),所有的企業(yè)都需要大數(shù)據(jù)業(yè)務(wù),不管其是否已經(jīng)認(rèn)識(shí)到。例如,大多數(shù)在線企業(yè)在其記錄文件和點(diǎn)擊記錄中收集大量數(shù)據(jù)信息。對(duì)于沒(méi)有類似數(shù)據(jù)流的企業(yè)來(lái)說(shuō),存儲(chǔ)千兆字節(jié)而不是兆兆字節(jié),大數(shù)據(jù)業(yè)務(wù)能夠使其深入了解公共信息數(shù)據(jù)資源這座寶藏。
世界銀行在線提供其世界范圍內(nèi)的統(tǒng)計(jì)數(shù)據(jù),美國(guó)國(guó)會(huì)圖書館自2006年3月起就對(duì)Tweiter論壇上的數(shù)據(jù)進(jìn)行歸檔處理。此外,美國(guó)國(guó)會(huì)圖書館還提供大量低成本信息和投資數(shù)據(jù)服務(wù)。大數(shù)據(jù)技術(shù)可被用于對(duì)數(shù)據(jù)資源進(jìn)行分析,其中就包括你自己擁有的數(shù)據(jù),或者將這些數(shù)據(jù)放在一起進(jìn)行分析。
舉個(gè)例子,F(xiàn)light__caster是一家提供航班延誤信息預(yù)測(cè)的公司,它主要根據(jù)主要航空公司的航班運(yùn)行情況進(jìn)行預(yù)測(cè)。與航空公司所擁有的類似航班運(yùn)行情況的專有信息一樣,該公司擁有大量國(guó)內(nèi)航班飛行和航班實(shí)時(shí)運(yùn)行狀況的歷史數(shù)據(jù)。Flight__caster的秘訣就是其對(duì)大數(shù)據(jù)分析的有效利用和使用適當(dāng)?shù)能浖ぞ邔?duì)產(chǎn)出數(shù)據(jù)進(jìn)行實(shí)時(shí)管理。
隨著成本的下降,一些企業(yè)想出新的辦法來(lái)整合數(shù)據(jù),大數(shù)據(jù)分析業(yè)務(wù)會(huì)變得更加平常,也許它還能教企業(yè)怎么由小做起,發(fā)展壯大。想想谷歌吧,還有雅虎和Fascebook,它們都曾經(jīng)是名不見(jiàn)經(jīng)傳的小公司,但是他們都有效利地用了自身的數(shù)據(jù)資源,從中得出了對(duì)成長(zhǎng)產(chǎn)生深遠(yuǎn)影響的見(jiàn)解。許多大數(shù)據(jù)業(yè)務(wù)的基礎(chǔ)正是來(lái)自由這些企業(yè)的發(fā)展得出的啟示,這絕非偶然。如今,這些啟示已經(jīng)能夠通過(guò)Hadoop和其他一些供企業(yè)使用的軟件工具——正像你的企業(yè)所使用的軟件工具廣泛獲得。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03