
八大趨勢看透大數(shù)據(jù)分析的未來_數(shù)據(jù)分析師考試
Intuit公司負責數(shù)據(jù)工程的副總裁Bill Loconzolo已兩腳踏入了數(shù)據(jù)湖。而Smarter Remarketer的首席數(shù)據(jù)科學家Dean Abbott也徑直走進了云中。當我們說到大數(shù)據(jù)[注]和分析的前沿時,它既包括數(shù)據(jù)湖(以原生格式存儲海量數(shù)據(jù)),當然也包括云計算[注]。盡管這些技術(shù)選項距離成熟還很遠,但我們肯定不能選擇一味的等待和觀望。 現(xiàn)實情況雖然是,各種大數(shù)據(jù)工具在不斷涌現(xiàn),但Hadoop平臺的前途尚未達到讓企業(yè)能夠依賴的程度,Loconzolo說。然而大數(shù)據(jù)和分析技術(shù)演變得如此之快,企業(yè)必須做出抉擇,要么涉足其中,要么就得冒落后的風險。
在過去,新興技術(shù)可能需要幾年時間才能成熟。而現(xiàn)在,解決方案的迭代和升級只需要幾個月,甚至幾周時間,那么,在你的觀察名單或者實驗室里,最重要的新興技術(shù)和趨勢是什么呢?當我們用這樣的問題去問很多IT高管、咨詢師和行業(yè)分析師時,得到了如下的答案。 1、云中的大數(shù)據(jù)分析 Hadoop框架和一組工具可用于處理非常大的數(shù)據(jù)集,它最初是為了物理機集群而設(shè)計的。
但現(xiàn)在情況有了變化。Forrest分析師Brian Hopkins說:“如今已有很多技術(shù)可用于處理云中的數(shù)據(jù)。”實例包括亞馬遜Redshift所托管的BI數(shù)據(jù)倉庫、谷歌BigQuery數(shù)據(jù)分析服務、IBM Bluemix云平臺,以及亞馬遜Kinesis數(shù)據(jù)處理服務等。大數(shù)據(jù)的未來狀態(tài)將是企業(yè)端和云端的某種混合態(tài)。 從事零售業(yè)分析與營銷服務的SaaS[注]廠商Smarter Remarketer最近已從其內(nèi)部的Hadoop和MongoDB數(shù)據(jù)庫基礎(chǔ)架構(gòu)轉(zhuǎn)移到了亞馬遜Redshift云數(shù)據(jù)倉庫上。
該公司主要收集線上和線下的零售銷售數(shù)據(jù)、消費者統(tǒng)計數(shù)據(jù)及實時行為數(shù)據(jù),然后對其作分析,幫助零售商創(chuàng)建有針對性的消息發(fā)送,以便吸引顧客的響應(某些情況下可能是實時的響應)。 Abbortt稱,Redshift對于Smarter Remarketer的數(shù)據(jù)需求來說,更具成本效益,特別是其針對結(jié)構(gòu)化數(shù)據(jù)的范圍廣泛的報表功能。作為一種托管服務,Redshift既可擴展,使用起來也相對簡單。
它在虛擬機上的擴展成本要比購買由我們自己管理的物理機便宜不少。 Intuit也開始謹慎地在向云分析轉(zhuǎn)移,因為它需要一個安全、穩(wěn)定和可審計的環(huán)境。這家財務軟件公司一方面計劃在自己私有的Intuit分析云中保留一切資源,另一方面,又在與亞馬遜和Cloudera合作,計劃構(gòu)建一個公私混合的、高度可用而且安全的分析云,Loconzolo說。對于像Intuit這樣銷售在云中運行的產(chǎn)品廠商來說,向云的遷移是不可避免的。一旦在企業(yè)端分析數(shù)據(jù)的成本高到無法承受時,就只能把所有的數(shù)據(jù)遷到云中去。
2、Hadoop:新的企業(yè)數(shù)據(jù)操作系統(tǒng) Hopkins認為,各種分布式分析框架,如MapReduce,正在演變?yōu)榉植际劫Y源管理器,它們會逐漸地將Hadoop轉(zhuǎn)變?yōu)橐环N通用的數(shù)據(jù)操作系統(tǒng)。有了Hadoop這樣的分布式文件存儲系統(tǒng),你就能執(zhí)行很多不同的數(shù)據(jù)操控和分析任務。
這種變化對企業(yè)來說意義何在呢?和SQL一樣,MapReduce、內(nèi)存計算、流處理、圖形分析和其他類型的工作負載都能夠以適當?shù)男阅茉?a href='/map/hadoop/' style='color:#000;font-size:inherit;'>Hadoop上運行,越來越多的企業(yè)會把Hadoop當作企業(yè)數(shù)據(jù)集中庫來使用。這樣的能力,即針對Hadoop上的數(shù)據(jù)執(zhí)行多種不同類型查詢和操控的能力,將使其成為一種低成本的通用平臺,企業(yè)想要分析的任何數(shù)據(jù)都可以放在其上進行分析。Hopkins說。 Intuit已經(jīng)開始在構(gòu)建自己的Hadoop基礎(chǔ)?!拔覀兊膽?zhàn)略是利用MapReduce和Hadoop,構(gòu)造Hadoop分布式文件系統(tǒng),長期目標是讓人和產(chǎn)品之間所有類型的互動得以產(chǎn)生,”Loconzolo說。
3、大數(shù)據(jù)湖 傳統(tǒng)的數(shù)據(jù)庫理論會告訴你,在進入任何數(shù)據(jù)之前,首先得設(shè)計好數(shù)據(jù)集。而數(shù)據(jù)湖,也稱企業(yè)數(shù)據(jù)湖或企業(yè)數(shù)據(jù)集中庫,可能會徹底改變傳統(tǒng)模式,普華永道美國咨詢業(yè)務負責人兼首席技術(shù)專家Chris Curran說。也就是說,我們會將各種數(shù)據(jù)資源傾倒進一個大的Hadoop倉庫中去,而不會事先設(shè)計什幺數(shù)據(jù)模型。
相反地,我們會提供各種工具,再配上對數(shù)據(jù)湖中現(xiàn)存數(shù)據(jù)的頂層定義,供人們?nèi)シ治鰯?shù)據(jù)。這樣,人們就可隨著對數(shù)據(jù)湖的逐步深入而構(gòu)建起自己的數(shù)據(jù)視圖。這正是構(gòu)建一個大規(guī)模數(shù)據(jù)庫的增量化的、有機的模型。
不過,這種方法也存在不足,那就是對數(shù)據(jù)分析人員的技術(shù)要求較高。 Loconzolo說,作為Intuit分析云的一個組成部分,Intuit也有一個數(shù)據(jù)湖,包括用戶的點擊流數(shù)據(jù)、企業(yè)數(shù)據(jù)和第三方數(shù)據(jù),但重點是圍繞數(shù)據(jù)湖對工具進行所謂的“民主化”,讓商業(yè)人士都能有效地使用它。Loconzolo說,在Hadoop里構(gòu)建一個數(shù)據(jù)湖,他的一個擔心是Hadoop平臺并未真正實現(xiàn)企業(yè)就緒。我們希望它具備數(shù)十年來傳統(tǒng)企業(yè)數(shù)據(jù)庫所具備的所有功能――監(jiān)控訪問控制、數(shù)據(jù)加密、保護數(shù)據(jù),并可跟蹤數(shù)據(jù)從源到目標的傳遞路徑。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11