
大數(shù)據(jù)的大承諾:今天你想知道什么_數(shù)據(jù)分析師
在從未停止的對于競爭優(yōu)勢的探索中,許多組織傾向于掌握大量企業(yè)本身和外部的數(shù)據(jù),來揭示企業(yè)未來的發(fā)展方向,預(yù)測統(tǒng)計(jì)數(shù)據(jù)和采集其他具有可行性的信息,以便幫助企業(yè)做出下一步行動(dòng)的決策。這些數(shù)據(jù)常常與采集它們的工具、平臺(tái)、分析系統(tǒng)一起被稱為“大數(shù)據(jù)”(Big Data)?!按髷?shù)據(jù)”業(yè)務(wù)已經(jīng)得到大多數(shù)技術(shù)人員和企業(yè)決策者的認(rèn)同。
雖然企業(yè)的決策者已經(jīng)意識(shí)到“大數(shù)據(jù)”中蘊(yùn)含的價(jià)值,但對于大多數(shù)企業(yè)來說,真正實(shí)現(xiàn)其中的價(jià)值還難以做到。這時(shí)候IT就派上了用場,它可以幫助決策者在儲(chǔ)存的海量信息中挖掘出需要的信息,并且對這些信息進(jìn)行分析,從而發(fā)現(xiàn)重要的趨勢信息。換句話講,IT已經(jīng)成為“大數(shù)據(jù)”發(fā)揮作用的催化劑。
在服務(wù)領(lǐng)域,“大數(shù)據(jù)”的重要性和價(jià)值越發(fā)明顯地得到證明。與美國海洋和大氣局(NOAA)、美國宇航局(NASA)這些機(jī)構(gòu)一樣,一些制藥企業(yè)和眾多能源企業(yè)同樣累積了大量的數(shù)據(jù)信息,現(xiàn)在這些企業(yè)想要將這些日常積累下來的數(shù)據(jù)轉(zhuǎn)化為一種“大數(shù)據(jù)科技”,希望這些數(shù)據(jù)能夠帶來額外的價(jià)值。
美國海洋和大氣局嘗試?yán)么髷?shù)據(jù)業(yè)務(wù)協(xié)助進(jìn)行對氣候、環(huán)境、天氣的研究和商業(yè)性探索,美國宇航局利用大數(shù)據(jù)業(yè)務(wù)進(jìn)行航天和其他領(lǐng)域的探索。制藥企業(yè)和能源企業(yè)則借助大數(shù)據(jù)業(yè)務(wù)進(jìn)行更多實(shí)實(shí)在在的研發(fā),例如藥品實(shí)驗(yàn)和地球物理分析?!都~約時(shí)報(bào)》將“大數(shù)據(jù)”作為一種工具,進(jìn)行文本分析和網(wǎng)絡(luò)開發(fā)。迪斯尼公司利用它對店面、主題公園和網(wǎng)絡(luò)資產(chǎn)中的數(shù)據(jù)進(jìn)行分析,研究消費(fèi)習(xí)慣的相關(guān)性。
在如今的商業(yè)活動(dòng)中,“大數(shù)據(jù)”扮演著另外一種角色:大企業(yè)越來越多地面臨對大量結(jié)構(gòu)數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)進(jìn)行維護(hù)的問題,這些數(shù)據(jù)可能來自資料庫中員工對于交易信息的報(bào)告,也可能是供應(yīng)商的日常供貨信息——總之這些都是政府要求企業(yè)在日常運(yùn)營中需要保留的數(shù)據(jù)。最近的一些法庭案例更使上述問題凸現(xiàn)出來,使企業(yè)不得不保留大量的文件、電子郵件信息和其他電子通訊記錄,例如即時(shí)信息、IP電話記錄等,這些都可以在他們面臨訴訟時(shí)作為進(jìn)行電子信息調(diào)查的依據(jù)。
也許累積大數(shù)據(jù)所面臨的最大的挑戰(zhàn)就是建立一個(gè)可以存儲(chǔ)和得到所有實(shí)時(shí)和未來信息的數(shù)據(jù)庫,并且讓這些信息可以在線用于成本效率分析的平臺(tái)。那就意味著這個(gè)平臺(tái)應(yīng)該是可升級(jí)的。這個(gè)平臺(tái)應(yīng)該涵蓋計(jì)算機(jī)存儲(chǔ)技術(shù)、語言查詢技術(shù)、分析工具、內(nèi)容分析工具和傳輸設(shè)備,因?yàn)镮T中囊括了太多變化的、需要有效利用和維護(hù)的內(nèi)容。
大數(shù)據(jù)業(yè)務(wù)有很多專有的和開放性的資源作為工具,通常情況下,這些資源可以通過啟動(dòng)一個(gè)程序獲得,也可以通過與提供云技術(shù)的公司合作獲得,例如亞馬遜和谷歌——實(shí)際上,云技術(shù)不但能夠幫助你解決大數(shù)據(jù)的延展問題,還能解決數(shù)據(jù)存儲(chǔ)和計(jì)算能力的問題。不管怎么說,使用大數(shù)據(jù)業(yè)務(wù)不必由你親自“扮演角色”。像IBM和EMC這樣的供貨商可以提供大數(shù)據(jù)項(xiàng)目所需的工具,盡管使用這些公司提供的業(yè)務(wù)成本可能很高,而且難以衡量。
Hadoop:大多數(shù)大數(shù)據(jù)業(yè)務(wù)的重點(diǎn)在開放資源領(lǐng)域,這個(gè)領(lǐng)域被稱為Hadoop,是Apache軟件基金會(huì)負(fù)責(zé)的一個(gè)項(xiàng)目,該項(xiàng)目包括谷歌為建立一項(xiàng)強(qiáng)化、聯(lián)合和易于了解的數(shù)據(jù)平臺(tái)而推出的技術(shù)。
從技術(shù)層面講,Hadoop包括兩項(xiàng)關(guān)鍵服務(wù):基于分布式文件系統(tǒng)(HDFS)的可信賴的數(shù)據(jù)存儲(chǔ)服務(wù)和建立在一種名為分布式計(jì)算系統(tǒng)的技術(shù)之上的高傳輸并行數(shù)據(jù)處理服務(wù)。這些服務(wù)旨在提供一個(gè)快速、可信的分析基礎(chǔ)。在這個(gè)基礎(chǔ)上,對結(jié)構(gòu)化的和復(fù)雜的數(shù)據(jù)進(jìn)行分析將成為現(xiàn)實(shí)。在許多案例中,企業(yè)將Hadoop與他們的IT系統(tǒng)一起使用,這使它們能夠?qū)⑿屡f數(shù)據(jù)整合在一起,并將這些數(shù)據(jù)組合成新的強(qiáng)有力的資源。Hadoop使企業(yè)可以輕易地利用傳統(tǒng)的分析方法對復(fù)雜的數(shù)據(jù)進(jìn)行分析,這些數(shù)據(jù)包括企業(yè)自身的信息和一些問題。
Hadoop以一系列軟件為基礎(chǔ),提供無共享服務(wù)。你可以根據(jù)需要在一組軟件里增加或者取消Hadoop服務(wù),任何軟件供應(yīng)商所提供的軟件都支持硬件或系統(tǒng)問題的系統(tǒng)探測和補(bǔ)償服務(wù)。換句話講,Hadoop是一個(gè)“自愈”軟件。無論系統(tǒng)怎樣改變或者出現(xiàn)故障,它都能傳輸數(shù)據(jù)、完成大容量的系統(tǒng)運(yùn)行,還能完成高效率的數(shù)據(jù)處理
雖然 Hadoop為數(shù)據(jù)的存儲(chǔ)和并行運(yùn)行提供了一個(gè)平臺(tái),但是其真正的價(jià)值還在于它的擴(kuò)展功能、跨專業(yè)整合功能和對于傳統(tǒng)技術(shù)功能的實(shí)現(xiàn)。Hadoop還提供一些子功能,這些功能可以使該軟件功能性更強(qiáng),增加軟件平臺(tái)的容量:
· Hadoop常規(guī)軟件:一般用于支持其他Hadoop子項(xiàng)目。
· Chukwa: 數(shù)據(jù)收集系統(tǒng),用于管理龐大的分支系統(tǒng)。
· HBase:可升級(jí)的、分布式數(shù)據(jù)庫,支持大容量的結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)。
· HDFS:分布式文件系統(tǒng),該系統(tǒng)為應(yīng)用程序數(shù)據(jù)提供高流量服務(wù)。
· Hive: 提供數(shù)據(jù)匯總和隨機(jī)查詢的數(shù)據(jù)庫基礎(chǔ)結(jié)構(gòu)。
· MapReduce: 用于在計(jì)算集群下分布處理大數(shù)據(jù)的軟件框架。
· Pig: 為實(shí)現(xiàn)并行計(jì)算而設(shè)置的高水平數(shù)據(jù)流語言和執(zhí)行框架。
· ZooKeeper:為分布式應(yīng)用提供的高性能內(nèi)部協(xié)調(diào)服務(wù)。
大多數(shù)Hadoop平臺(tái)的實(shí)現(xiàn)都至少包括如下一些開發(fā)大數(shù)據(jù)系統(tǒng)所必需的子項(xiàng)目,例如:多數(shù)組織都會(huì)選擇使用HDFS作為主要的文本發(fā)散系統(tǒng),將HBase作為基礎(chǔ)數(shù)據(jù)庫來使用,這可以儲(chǔ)存數(shù)千萬組的數(shù)據(jù)。MapReduce也為用戶帶來很多益處,它為Hadoop平臺(tái)提供了必要的速度和便捷。
有了分布式計(jì)算系統(tǒng)(MapReduce),軟件開發(fā)者可以創(chuàng)造能夠通過分散群機(jī)和獨(dú)立存在的計(jì)算機(jī)并行加工處理海量的非結(jié)構(gòu)型數(shù)據(jù)的程序。分布式計(jì)算系統(tǒng)網(wǎng)絡(luò)可以分解成兩個(gè)功能區(qū):Map和Reduce。其中,Map是將分散群中的不同的節(jié)點(diǎn)打包的函數(shù),Reduce則是對數(shù)據(jù)進(jìn)行整理、解析數(shù)據(jù)并體現(xiàn)其唯一價(jià)值的函數(shù)。
分布式計(jì)算系統(tǒng)最重要的優(yōu)勢就是容錯(cuò)性強(qiáng),該優(yōu)勢靠對分散群中的每個(gè)節(jié)點(diǎn)進(jìn)行控制來實(shí)現(xiàn),在這種控制下,每個(gè)節(jié)點(diǎn)都要階段性地將一定范圍的工作狀態(tài)實(shí)時(shí)加以反饋。如果某一節(jié)點(diǎn)反饋相關(guān)信息的時(shí)間超過預(yù)期時(shí)間,一個(gè)主網(wǎng)點(diǎn)就會(huì)對這個(gè)節(jié)點(diǎn)的情況進(jìn)行記錄,并將該節(jié)點(diǎn)應(yīng)該進(jìn)行的工作重新指定給另外的節(jié)點(diǎn)去做。
除了許多以開放性資源為依托的工具,例如Clojure和Thrift之外,還存在很多以商業(yè)軟件為依托的軟件工具,盡管許多工具是建立在Hadoop這個(gè)平臺(tái)之上的。普華永道會(huì)計(jì)師事務(wù)所技術(shù)與發(fā)明中心公布了一份有關(guān)大數(shù)據(jù)業(yè)務(wù)群塊建立的詳盡指南,介紹了該業(yè)務(wù)如何將IT開發(fā)和商業(yè)用途有機(jī)結(jié)合。
Datameer就是一個(gè)例子。該公司提供一個(gè)收集和讀取不同大數(shù)據(jù)存儲(chǔ)情況的平臺(tái),將上述數(shù)據(jù)放進(jìn)Hadoop框架之中,然后提供相應(yīng)的工具對數(shù)據(jù)進(jìn)行分析。從根本上講,Datameer試圖隱藏Hadoop軟件的復(fù)雜性并且在Hadoop軟件的基礎(chǔ)上提供分析工具。Datameer的優(yōu)勢就在于擁有超過10TB的數(shù)據(jù)資源。根據(jù)Datameer的說法,這種資源量所處的水平正是公司使用傳統(tǒng)技術(shù)進(jìn)行數(shù)據(jù)分析的瓶頸所在。
包括Appistry、Cloudera、 Drawn to Scale HQ、 Goto Metrics、Karmasphere和 Talend在內(nèi)的其他一些從事商業(yè)運(yùn)作的供應(yīng)商也針對大數(shù)據(jù)分析業(yè)務(wù)提供類似的服務(wù)。三大主要數(shù)據(jù)庫供應(yīng)商IBM、微軟和甲骨文公司也都支持Hadoop,只不過這些公司采取的形式不同。開放性資源BI的供應(yīng)商Pentaho也對Hadoop加以支持。
大數(shù)據(jù)業(yè)務(wù)適用于所有規(guī)模的企業(yè)。大數(shù)據(jù)業(yè)務(wù)并不是只與企業(yè)規(guī)模有關(guān),還關(guān)乎企業(yè)的經(jīng)營情況,但其與企業(yè)數(shù)據(jù)的設(shè)置情況無關(guān)。該業(yè)務(wù)與即時(shí)分析有關(guān),例如在網(wǎng)上估定一個(gè)顧客的習(xí)慣,以便更好地了解該顧客需要怎樣的幫助與支持,了解其所要尋找的產(chǎn)品,或者描繪出目前天氣情況和送貨途中以及行程安排的其他條件下可能產(chǎn)生的影響。
服務(wù)器群、高性能文本系統(tǒng)和并行處理系統(tǒng)就是這樣運(yùn)行的。過去,除了大企業(yè)之外,這些技術(shù)對于大多數(shù)企業(yè)來說都太昂貴了。今天,虛擬化和產(chǎn)品硬件已經(jīng)在很大意義上降低了成本,使大數(shù)據(jù)業(yè)務(wù)能夠?yàn)?/span>中小企業(yè)所用。
對于大數(shù)據(jù)分析業(yè)務(wù),小企業(yè)還有另外的途徑來實(shí)現(xiàn),這個(gè)途徑就是云技術(shù)。針對大數(shù)據(jù)業(yè)務(wù)提供的云服務(wù)異軍突起,為迅速和高效進(jìn)行數(shù)據(jù)分析提供必要的平臺(tái)和工具。然而,小企業(yè)真的需要大數(shù)據(jù)業(yè)務(wù)嗎?回答是肯定的。其實(shí),所有的企業(yè)都需要大數(shù)據(jù)業(yè)務(wù),不管其是否已經(jīng)認(rèn)識(shí)到。例如,大多數(shù)在線企業(yè)在其記錄文件和點(diǎn)擊記錄中收集大量數(shù)據(jù)信息。對于沒有類似數(shù)據(jù)流的企業(yè)來說,存儲(chǔ)千兆字節(jié)而不是兆兆字節(jié),大數(shù)據(jù)業(yè)務(wù)能夠使其深入了解公共信息數(shù)據(jù)資源這座寶藏。
世界銀行在線提供其世界范圍內(nèi)的統(tǒng)計(jì)數(shù)據(jù),美國國會(huì)圖書館自2006年3月起就對Tweiter論壇上的數(shù)據(jù)進(jìn)行歸檔處理。此外,美國國會(huì)圖書館還提供大量低成本信息和投資數(shù)據(jù)服務(wù)。大數(shù)據(jù)技術(shù)可被用于對數(shù)據(jù)資源進(jìn)行分析,其中就包括你自己擁有的數(shù)據(jù),或者將這些數(shù)據(jù)放在一起進(jìn)行分析。
舉個(gè)例子,F(xiàn)lightCaster是一家提供航班延誤信息預(yù)測的公司,它主要根據(jù)主要航空公司的航班運(yùn)行情況進(jìn)行預(yù)測。與航空公司所擁有的類似航班運(yùn)行情況的專有信息一樣,該公司擁有大量國內(nèi)航班飛行和航班實(shí)時(shí)運(yùn)行狀況的歷史數(shù)據(jù)。Flightcaster的秘訣就是其對大數(shù)據(jù)分析的有效利用和使用適當(dāng)?shù)能浖ぞ邔Ξa(chǎn)出數(shù)據(jù)進(jìn)行實(shí)時(shí)管理。
隨著成本的下降,一些企業(yè)想出新的辦法來整合數(shù)據(jù),大數(shù)據(jù)分析業(yè)務(wù)會(huì)變得更加平常,也許它還能教企業(yè)怎么由小做起,發(fā)展壯大。想想谷歌吧,還有雅虎和Fascebook,它們都曾經(jīng)是名不見經(jīng)傳的小公司,但是他們都有效利地用了自身的數(shù)據(jù)資源,從中得出了對成長產(chǎn)生深遠(yuǎn)影響的見解。許多大數(shù)據(jù)業(yè)務(wù)的基礎(chǔ)正是來自由這些企業(yè)的發(fā)展得出的啟示,這絕非偶然。如今,這些啟示已經(jīng)能夠通過Hadoop和其他一些供企業(yè)使用的軟件工具——正像你的企業(yè)所使用的軟件工具廣泛獲得。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11