
大數(shù)據(jù)分析的八大趨勢_數(shù)據(jù)分析師
Intuit公司的數(shù)據(jù)工程副總裁Bill Loconzolo,雙腳踏進了數(shù)據(jù)湖。.Smarter Remarketer的首席數(shù)據(jù)科學(xué)家Dean Abbott直接奔向了云計算。大數(shù)據(jù)和分析的領(lǐng)先優(yōu)勢,其中包括用來存儲原生格式的大量數(shù)據(jù)的數(shù)據(jù)湖泊,當(dāng)然,云計算技術(shù)也在快速前進。雖然技術(shù)選項還遠遠沒有成熟,但是等待根本不是一個選項。
“現(xiàn)實情況是,這些工具仍不斷涌現(xiàn),并且Hadoop的平臺的承諾并沒有達到業(yè)務(wù)需要依賴于它的水平,”Loconzolo說。但是,大數(shù)據(jù)和分析的學(xué)科發(fā)展如此之快以至于企業(yè)需要在涉水該方面或冒落后的風(fēng)險。 “在過去,新興技術(shù)可能花費數(shù)年時間才能成熟,”他說。 “現(xiàn)在人們在幾個月內(nèi)或幾周內(nèi)就能拿出迭代和驅(qū)動解決方案”那么,什么才是應(yīng)該是您的觀察名單上的或在您的測試實驗室中的最重要的新生技術(shù)和發(fā)展趨勢?計算機世界要求IT主管、咨詢顧問和行業(yè)分析師來權(quán)衡。這里是他們給出的名單。
1、云中的大數(shù)據(jù)分析
Hadoop是一個用于處理非常大的數(shù)據(jù)集的框架和工具,它最初被設(shè)計為在集群的物理機器上工作。這已經(jīng)改變了?!艾F(xiàn)在越來越多的技術(shù)可用于在云中處理數(shù)據(jù),”一Forrester Research的分析師布賴恩?霍普金斯說。例子包括亞馬遜的Redshift托管BI數(shù)據(jù)倉庫、谷歌的BigQuery中的數(shù)據(jù)分析服務(wù)、IBM的Bluemix云平臺和亞馬遜的室壁運動數(shù)據(jù)處理服務(wù)。 “大數(shù)據(jù)的未來狀態(tài)將是內(nèi)部部署和云的混合,”他說。
Smarter Remarketer,是基于SaaS零售分析、細分和營銷服務(wù)的提供商,最近從一個內(nèi)部的Hadoop和MongoDB的數(shù)據(jù)庫基礎(chǔ)架構(gòu)轉(zhuǎn)向了亞馬遜的Redshift,Redshift是基于云的數(shù)據(jù)倉庫。印第安納波利斯的公司在收集網(wǎng)上的和零售銷售的以及客戶的人口統(tǒng)計數(shù)據(jù),以及實時行為數(shù)據(jù),然后分析這些信息,以幫助零售商在現(xiàn)實中的某些情況下建立有針對性的消費者需要的信息反饋機制。
Abbott說redshift對smarter Remarketer更具成本效益,特別是因為它具有結(jié)構(gòu)化數(shù)據(jù)豐富的報表功能。而作為一個托管服務(wù),這既具有可擴展性和又非常容易使用。 “擴大在虛擬機比購買物理機管理工作更便宜,”他說。
就其本身而言,總部設(shè)在加州的 Mountain View 已經(jīng)小心翼翼走向云分析,因為它需要一個安全、穩(wěn)定和可審計的環(huán)境。目前,金融軟件公司保持私有Intuit分析云內(nèi)的一切?!拔覀冋谂c亞馬遜和Cloudera合作一個可以跨越公私,高可用性和安全分析的云,但目前還沒有人解決這個問題,”Loconzolo說。但是,像Intuit這種賣能夠在云中運行的產(chǎn)品的公司轉(zhuǎn)向云是不可避免的。 “它會達到這樣一種程度,那便是高成本的將所有的數(shù)據(jù)轉(zhuǎn)移到一個私有云中,”他說。
2. Hadoop:新的企業(yè)數(shù)據(jù)操作系統(tǒng)
霍普金斯說,分布式分析的框架,如MapReduce,正在演變?yōu)橹饾u轉(zhuǎn)向Hadoop的通用數(shù)據(jù)操作系統(tǒng)的分布式資源管理器。他說,有了這些系統(tǒng),你可以通過將它們插入Hadoop作為分布式文件存儲系統(tǒng)來執(zhí)行許多不同的數(shù)據(jù)操作和分析操作。
這對企業(yè)意味著什么呢?由于SQL,MapReduce的,內(nèi)存,流處理,圖形分析和其他類型的工作負載在Hadoop上有足夠的性能來運行,越來越多的企業(yè)將會使用Hadoop作為一個企業(yè)的數(shù)據(jù)中心?;羝战鹚拐f,“在Hadoop中運行許多不同種類的查詢和數(shù)據(jù)操作將使你想進行分析的數(shù)據(jù)中心成本更低、更加通用”。
Intuit公司的Hadoop基礎(chǔ)已經(jīng)建立?!拔覀兊牟呗允抢?/span>Hadoop分布式文件系統(tǒng),它將與MapReduce和Hadoop密切合作,它將作為一項能使所有類型的人與產(chǎn)品進行互動的長期戰(zhàn)略,,”Loconzolo說。
3.大數(shù)據(jù)湖泊
傳統(tǒng)的數(shù)據(jù)庫理論決定了你可以再輸入任何數(shù)據(jù)之前設(shè)計數(shù)據(jù)設(shè)置。數(shù)據(jù)湖,也被稱為企業(yè)的數(shù)據(jù)湖泊或企業(yè)數(shù)據(jù)中心,逐漸成為企業(yè)的大腦,在普華永道美國咨詢業(yè)務(wù)的合伙人兼首席技術(shù)專家克里斯?柯倫說。 他說,“據(jù)說我們將把這些數(shù)據(jù)源放到一個大的Hadoop存儲庫中,我們不會事先試圖設(shè)計一個數(shù)據(jù)模型”。相反,它將給人們提供工具來分析數(shù)據(jù),以及給在湖中存在的數(shù)據(jù)一個高層次的定義。 隨著不斷深入,人們逐漸建立起對數(shù)據(jù)的看法。對于建設(shè)一個大型的數(shù)據(jù)庫,這將是一個大增量的有機的模型,“柯倫說。不大好的地方就是,使用它的人必須是高度熟練。
Loconzolo說,作為Intuit分析云的一部分,Intuit有一個數(shù)據(jù)湖,其中包括用戶點擊流數(shù)據(jù)和企業(yè)以及第三方數(shù)據(jù),但重點是“民主化”周圍的工具,使商務(wù)人士能有效地使用它。 Loconzolo說,在Hadoop上構(gòu)建數(shù)據(jù)湖,他的關(guān)心的是對于該平臺企業(yè)并沒有真正就緒。 “我們希望,傳統(tǒng)的企業(yè)數(shù)據(jù)庫,有幾十年的監(jiān)控訪問控制、加密、保護數(shù)據(jù)并跟蹤從源到目標(biāo)數(shù)據(jù)的血統(tǒng),”他說。
4.更多的預(yù)測分析
霍普金斯說,在大數(shù)據(jù)時代,分析師不僅要和更多的數(shù)據(jù)一起工作,而且要掌握處理大量的多屬性記錄的能力。傳統(tǒng)的機器學(xué)習(xí)使用基于總數(shù)據(jù)集的樣本進行統(tǒng)計分析。他說,“你現(xiàn)在有能力處理非常大的數(shù)字記錄和每條記錄的屬性”,并且增加了可預(yù)測性。
大數(shù)據(jù)和計算能力的組合也可以讓分析師探索全天新的行為數(shù)據(jù),如訪問的網(wǎng)站或位置?;羝战鹚箤⑵浞Q之為“稀疏數(shù)據(jù)”,因為要找到感興趣的東西,你必須涉及大量的不相關(guān)的數(shù)據(jù)。“試圖用傳統(tǒng)的機器學(xué)習(xí)算法,對這種類型的數(shù)據(jù)的計算是不可能的。他說,現(xiàn)在我們可以用廉價的計算能力來解決問題。“當(dāng)速度和內(nèi)存不再是關(guān)鍵問題時,你制定的問題就會完全不同,”Abbott 說?!艾F(xiàn)在,通過對問題配以巨大的計算資源,你可以找到哪些變量是最合適被解析的。這真的是一個改變游戲規(guī)則?!?/span>
Loconzolo說,“由于相同Hadoop核心,實現(xiàn)實時分析和預(yù)測建模,這就是我們的利益所在”。對于這個問題,Hadoop以比更成熟的技術(shù)長達20倍的時間來獲得答案。所以Intuit公司正在測試Apache Spark,這是一種大規(guī)模數(shù)據(jù)處理引擎,及其相關(guān)的SQL查詢工具,Spark SQL。 “Spark有快速交互式查詢和圖表服務(wù)和流媒體的功能。Loconzolo說,它將數(shù)據(jù)保持在Hadoop之中,但為我們以足夠的性能來縮小差距。
如果你是一個聰明的編碼器和數(shù)學(xué)家,你可以在Hadoop上存放數(shù)據(jù),并對任何事情做出分析。這是承諾和問題,Gartner的分析師馬克?拜爾表示?!拔倚枰腥税阉兂梢粋€我很熟悉的格式和語言結(jié)構(gòu),”他說,SQL 是可以被Hadoop產(chǎn)品所識別的,即使任何熟悉的語言都可以有這個功能,拜爾說。支持類似SQL的查詢工具,使得那些已經(jīng)了解SQL應(yīng)用類似的技術(shù)企業(yè)用戶能更好的把握數(shù)據(jù)?;羝战鹚拐f, SQL在Hadoop之上“打開了企業(yè)Hadoop平臺的門”因為企業(yè)并不需要對高端數(shù)據(jù)科學(xué)家和商業(yè)分析師投資,那些人可以編寫使用Java、JavaScript和Python腳本 ,這是Hadoop的用戶傳統(tǒng)上需要做的。
這些工具不是什么新鮮事物。 Apache Hive的配置單元提供了一個結(jié)構(gòu)化的結(jié)構(gòu)化,曾經(jīng)用于Hadoop的類似SQL的查詢語言。但是,來源于Cloudera、匹維托軟件、IBM和其他供應(yīng)商的商業(yè)選擇,不僅提供了更高的性能,同時也變得越來越快。這使得該技術(shù)非常適合“迭代分析,”其中一位分析師問了一個問題,得到一個答案,然后問另外一個。這類型的工作,歷來需要構(gòu)建一個數(shù)據(jù)倉庫。SQL在Hadoop中不會取代數(shù)據(jù)倉庫,至少不會很快,霍普金斯說,“但它確實給特定類型的分析提供了更昂貴的軟件和設(shè)備的替代品?!?/span>
6.更多,更好的NoSQL
柯倫說,替代傳統(tǒng)的基于SQL的關(guān)系型數(shù)據(jù)庫的,叫做NoSQL(簡稱“不僅是SQL”)數(shù)據(jù)庫,作為在特定種類的分析應(yīng)用程序使用的工具正在迅速得到普及,并且這一勢頭將繼續(xù)增長。他估計,有15到20個開源NoSQL數(shù)據(jù)庫,每個都有自己的特點。例如,一個擁有圖形數(shù)據(jù)庫的能力的NoSQL產(chǎn)品,如ArangoDB,提供了一個比相關(guān)數(shù)據(jù)庫更快速、更直接的方式來分析客戶或銷售人員的關(guān)系網(wǎng)絡(luò)。這些數(shù)據(jù)庫已經(jīng)存在了一段時間,但他們在加速發(fā)展,因為人們需要的各種分析,他說。普華永道一位客戶在新興市場已經(jīng)在商店貨架上放置了傳感器以監(jiān)控哪些產(chǎn)品還有,客戶處理他們用多長時間以及消費者在貨架前站多長時間。 “這些傳感器噴涌的數(shù)據(jù)流將成倍增長,”柯倫說。 “一個NoSQL的key-value對的數(shù)據(jù)庫,如Redis正是這種合適的地方,因為這是專用的,高性能和輕便的?!?/span>
7.深入學(xué)習(xí)
深度學(xué)習(xí),基于神經(jīng)網(wǎng)絡(luò)的一套機器學(xué)習(xí)技術(shù),仍在不斷發(fā)展,但在解決業(yè)務(wù)問題上有巨大潛力,霍普金斯說。 “深度學(xué)習(xí)使計算機能夠識別大量的非結(jié)構(gòu)化和二進制數(shù)據(jù),并在不需要特定的模型或編程指令下推斷出之間的關(guān)系,”他說。
舉一個例子,一個深度學(xué)習(xí)算法可以從維基百科的數(shù)據(jù)自身知道,加利福尼亞州和得克薩斯州這兩個州在美國?!八鼪]有被定為模型去了解一個國家和國家的概念,并且這在舊的機器學(xué)習(xí)和新興深度學(xué)習(xí)方法之間有很大差異,“霍普金斯說。
霍普金斯說,“大數(shù)據(jù)將使用類似深度學(xué)習(xí)先進的分析技術(shù),以我們現(xiàn)在才開始理解的方式處理很多不同的和非結(jié)構(gòu)化的文本”。例如,它可以用于識別許多不同種類的數(shù)據(jù),比如形狀,顏色和視頻中的物體 – 或甚至圖像內(nèi)的貓,如由谷歌在2012年所做的著名的“神經(jīng)網(wǎng)絡(luò)”。識別管理和高級分析概念以及它所寓意的東西是一個重要的未來趨勢,霍普金斯說。
8.在內(nèi)存分析
拜爾說,使用內(nèi)存數(shù)據(jù)庫來加快分析處理成為日益流行和非常有益的設(shè)置。事實上,很多企業(yè)已經(jīng)借助混合交易/分析處理(HTAP) – 允許交易和分析處理駐留在同一個內(nèi)存數(shù)據(jù)庫。
拜爾說,但是有很多圍繞HTAP的炒作,而企業(yè)已經(jīng)過度使用了。對于其中用戶需要整天以同樣的方式多次觀察相同的數(shù)據(jù)系統(tǒng),并且這里面的數(shù)據(jù)中沒有顯著變化 – 在內(nèi)存中是一種浪費。
雖然你可以更快地用HTAP進行分析,所有的交易都必須駐留在同一個數(shù)據(jù)庫中。拜爾說,問題是,是現(xiàn)在大多數(shù)的分析工作是關(guān)于把數(shù)據(jù)從許多不同的系統(tǒng)連接在一起?!爸灰讶康亩挤旁谝粋€數(shù)據(jù)庫可以追溯到這個證偽的信念,如果你想使用HTAP你所有的分析中,它要求所有的交易是在一個地方,”他說,“你仍然需要集成不同的數(shù)據(jù)?!?/span>
此外,引進的內(nèi)存數(shù)據(jù)庫意味著有另一種產(chǎn)品來管理、安全、并找出如何整合和規(guī)模。
對于Intuit公司來說,Spark的使用已經(jīng)帶走了一些擁抱內(nèi)存數(shù)據(jù)庫沖動。“如果我們能夠用Spark基礎(chǔ)設(shè)施解決我們實用案例的70%,內(nèi)存中的系統(tǒng)便可以解決100%,我們將繼續(xù)保持我們的分析云中的70%,”Loconzolo說。 “因此,我們將原型,看看它現(xiàn)在是否已經(jīng)準(zhǔn)備好,并停留在內(nèi)存系統(tǒng)內(nèi)部?!?/span>
保持領(lǐng)先
隨著圍繞大數(shù)據(jù)和分析出現(xiàn)如此多的新趨勢,IT組織需要創(chuàng)造條件,讓分析師和數(shù)據(jù)科學(xué)家做實驗。 “你需要一種方法來評估,做出原型并最終融入其中的一些技術(shù)應(yīng)用到企業(yè),”柯倫說。
“IT經(jīng)理和實施人員不能以缺乏成熟為借口,停止試驗,”拜爾說。最初,只有少數(shù)人 – 最熟練的分析師和數(shù)據(jù)科學(xué)家 – 需要進行試驗。那么那些高級用戶和IT部門應(yīng)該共同確定何時提供新的組織的其余部分資源。并且IT部門不一定想要向前全速前進的分析師。相反,拜爾說,IT部門需要與分析師合作,“把變速油門安裝在這些新的高性能的工具之上”。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10