
大數(shù)據(jù)分析未來的八大趨勢_數(shù)據(jù)分析師
隨著 互聯(lián)網(wǎng) 技術(shù)的蓬勃發(fā)展,前端的展示、交互越來越復(fù)雜,在用戶的訪問、操作過程中產(chǎn)生了大量的數(shù)據(jù)。每一個網(wǎng)絡(luò)用戶都是數(shù)據(jù)的締造者,這些數(shù)據(jù)已然滲透我們的生活。
再看看,Intuit公司的數(shù)據(jù)工程副總裁Bill Loconzolo,雙腳踏進(jìn)了數(shù)據(jù)湖。.Smarter Remarketer的首席數(shù)據(jù)科學(xué)家Dean Abbott直接奔向了云計(jì)算。大數(shù)據(jù)和分析的領(lǐng)先優(yōu)勢,其中包括用來存儲原生格式的大量數(shù)據(jù)的數(shù)據(jù)湖泊,當(dāng)然,云計(jì)算技術(shù)也在快速前進(jìn)。雖然技術(shù)選項(xiàng)還遠(yuǎn)遠(yuǎn)沒有成熟,但是等待根本不是一個選項(xiàng)。
“現(xiàn)實(shí)情況是,這些工具仍不斷涌現(xiàn),并且Hadoop的平臺的承諾并沒有達(dá)到業(yè)務(wù)需要依賴于它的水平,”Loconzolo說。但是,大數(shù)據(jù)和分析的學(xué)科發(fā)展如此之快以至于企業(yè)需要在涉水該方面或冒落后的風(fēng)險。 “在過去,新興技術(shù)可能花費(fèi)數(shù)年時間才能成熟,”他說。 “現(xiàn)在人們在幾個月內(nèi)或幾周內(nèi)就能拿出迭代和驅(qū)動解決方案”那么,什么才是應(yīng)該是您的觀察名單上的或在您的測試實(shí)驗(yàn)室中的最重要的新生技術(shù)和發(fā)展趨勢?計(jì)算機(jī)世界要求IT主管、咨詢顧問和行業(yè)分析師來權(quán)衡。這里是他們給出的名單。
1、云中的大數(shù)據(jù)分析
Hadoop是一個用于處理非常大的數(shù)據(jù)集的框架和工具,它最初被設(shè)計(jì)為在集群的物理機(jī)器上工作。這已經(jīng)改變了?!艾F(xiàn)在越來越多的技術(shù)可用于在云中處理數(shù)據(jù),”一Forrester Research的分析師布賴恩?霍普金斯說。例子包括亞馬遜的Redshift托管BI數(shù)據(jù)倉庫、谷歌的BigQuery中的數(shù)據(jù)分析服務(wù)、IBM的Bluemix云平臺和亞馬遜的室壁運(yùn)動數(shù)據(jù)處理服務(wù)。 “大數(shù)據(jù)的未來狀態(tài)將是內(nèi)部部署和云的混合,”他說。
Smarter Remarketer,是基于SaaS零售分析、細(xì)分和營銷服務(wù)的提供商,最近從一個內(nèi)部的Hadoop和MongoDB的數(shù)據(jù)庫基礎(chǔ)架構(gòu)轉(zhuǎn)向了亞馬遜的Redshift,Redshift是基于云的數(shù)據(jù)倉庫。印第安納波利斯的公司在收集網(wǎng)上的和零售銷售的以及客戶的人口統(tǒng)計(jì)數(shù)據(jù),以及實(shí)時行為數(shù)據(jù),然后分析這些信息,以幫助零售商在現(xiàn)實(shí)中的某些情況下建立有針對性的消費(fèi)者需要的信息反饋機(jī)制。
Abbott說redshift對smarter Remarketer更具成本效益,特別是因?yàn)樗哂薪Y(jié)構(gòu)化數(shù)據(jù)豐富的報表功能。而作為一個托管服務(wù),這既具有可擴(kuò)展性和又非常容易使用。 “擴(kuò)大在虛擬機(jī)比購買物理機(jī)管理工作更便宜,”他說。
就其本身而言,總部設(shè)在加州的 Mountain View 已經(jīng)小心翼翼走向云分析,因?yàn)樗枰粋€安全、穩(wěn)定和可審計(jì)的環(huán)境。目前,金融軟件公司保持私有Intuit分析云內(nèi)的一切?!拔覀冋谂c亞馬遜和Cloudera合作一個可以跨越公私,高可用性和安全分析的云,但目前還沒有人解決這個問題,”Loconzolo說。但是,像Intuit這種賣能夠在云中運(yùn)行的產(chǎn)品的公司轉(zhuǎn)向云是不可避免的。 “它會達(dá)到這樣一種程度,那便是高成本的將所有的數(shù)據(jù)轉(zhuǎn)移到一個私有云中,”他說。
2. Hadoop:新的企業(yè)數(shù)據(jù)操作系統(tǒng)
霍普金斯說,分布式分析的框架,如MapReduce,正在演變?yōu)橹饾u轉(zhuǎn)向Hadoop的通用數(shù)據(jù)操作系統(tǒng)的分布式資源管理器。他說,有了這些系統(tǒng),你可以通過將它們插入Hadoop作為分布式文件存儲系統(tǒng)來執(zhí)行許多不同的數(shù)據(jù)操作和分析操作。
這對企業(yè)意味著什么呢?由于SQL,MapReduce的,內(nèi)存,流處理,圖形分析和其他類型的工作負(fù)載在Hadoop上有足夠的性能來運(yùn)行,越來越多的企業(yè)將會使用Hadoop作為一個企業(yè)的數(shù)據(jù)中心?;羝战鹚拐f,“在Hadoop中運(yùn)行許多不同種類的查詢和數(shù)據(jù)操作將使你想進(jìn)行分析的數(shù)據(jù)中心成本更低、更加通用”。
Intuit公司的Hadoop基礎(chǔ)已經(jīng)建立。“我們的策略是利用Hadoop分布式文件系統(tǒng),它將與MapReduce和Hadoop密切合作,它將作為一項(xiàng)能使所有類型的人與產(chǎn)品進(jìn)行互動的長期戰(zhàn)略,,”Loconzolo說。
3.大數(shù)據(jù)湖泊
傳統(tǒng)的數(shù)據(jù)庫理論決定了你可以再輸入任何數(shù)據(jù)之前設(shè)計(jì)數(shù)據(jù)設(shè)置。數(shù)據(jù)湖,也被稱為企業(yè)的數(shù)據(jù)湖泊或企業(yè)數(shù)據(jù)中心,逐漸成為企業(yè)的大腦,在普華永道美國咨詢業(yè)務(wù)的合伙人兼首席技術(shù)專家克里斯?柯倫說。 他說,“據(jù)說我們將把這些數(shù)據(jù)源放到一個大的Hadoop存儲庫中,我們不會事先試圖設(shè)計(jì)一個數(shù)據(jù)模型”。相反,它將給人們提供工具來分析數(shù)據(jù),以及給在湖中存在的數(shù)據(jù)一個高層次的定義。 隨著不斷深入,人們逐漸建立起對數(shù)據(jù)的看法。對于建設(shè)一個大型的數(shù)據(jù)庫,這將是一個大增量的有機(jī)的模型,“柯倫說。不大好的地方就是,使用它的人必須是高度熟練。
Loconzolo說,作為Intuit分析云的一部分,Intuit有一個數(shù)據(jù)湖,其中包括用戶點(diǎn)擊流數(shù)據(jù)和企業(yè)以及第三方數(shù)據(jù),但重點(diǎn)是“民主化”周圍的工具,使商務(wù)人士能有效地使用它。 Loconzolo說,在Hadoop上構(gòu)建數(shù)據(jù)湖,他的關(guān)心的是對于該平臺企業(yè)并沒有真正就緒。 “我們希望,傳統(tǒng)的企業(yè)數(shù)據(jù)庫,有幾十年的監(jiān)控訪問控制、加密、保護(hù)數(shù)據(jù)并跟蹤從源到目標(biāo)數(shù)據(jù)的血統(tǒng),”他說。
4.更多的預(yù)測分析
霍普金斯說,在大數(shù)據(jù)時代,分析師不僅要和更多的數(shù)據(jù)一起工作,而且要掌握處理大量的多屬性記錄的能力。傳統(tǒng)的機(jī)器學(xué)習(xí)使用基于總數(shù)據(jù)集的樣本進(jìn)行統(tǒng)計(jì)分析。他說,“你現(xiàn)在有能力處理非常大的數(shù)字記錄和每條記錄的屬性”,并且增加了可預(yù)測性,。
大數(shù)據(jù)和計(jì)算能力的組合也可以讓分析師探索全天新的行為數(shù)據(jù),如訪問的網(wǎng)站或位置?;羝战鹚箤⑵浞Q之為“稀疏數(shù)據(jù)”,因?yàn)橐业礁信d趣的東西,你必須涉及大量的不相關(guān)的數(shù)據(jù)?!霸噲D用傳統(tǒng)的機(jī)器學(xué)習(xí)算法,對這種類型的數(shù)據(jù)的計(jì)算是不可能的。他說,現(xiàn)在我們可以用廉價的計(jì)算能力來解決問題?!爱?dāng)速度和內(nèi)存不再是關(guān)鍵問題時,你制定的問題就會完全不同,”Abbott 說。“現(xiàn)在,通過對問題配以巨大的計(jì)算資源,你可以找到哪些變量是最合適被解析的。這真的是一個改變游戲規(guī)則。“
Loconzolo說,“由于相同Hadoop核心,實(shí)現(xiàn)實(shí)時分析和預(yù)測建模,這就是我們的利益所在”。對于這個問題,Hadoop以比更成熟的技術(shù)長達(dá)20倍的時間來獲得答案。所以Intuit公司正在測試Apache Spark,這是一種大規(guī)模數(shù)據(jù)處理引擎,及其相關(guān)的SQL查詢工具,Spark SQL。 “Spark有快速交互式查詢和圖表服務(wù)和流媒體的功能。Loconzolo說,它將數(shù)據(jù)保持在Hadoop之中,但為我們以足夠的性能來縮小差距。
5.SQL 在Hadoop之上:更快、更好
如果你是一個聰明的編碼器和數(shù)學(xué)家,你可以在Hadoop上存放數(shù)據(jù),并對任何事情做出分析。這是承諾和問題,Gartner的分析師馬克?拜爾表示?!拔倚枰腥税阉兂梢粋€我很熟悉的格式和語言結(jié)構(gòu),”他說,SQL 是可以被Hadoop產(chǎn)品所識別的,即使任何熟悉的語言都可以有這個功能,拜爾說。支持類似SQL的查詢工具,使得那些已經(jīng)了解SQL應(yīng)用類似的技術(shù)企業(yè)用戶能更好的把握數(shù)據(jù)。霍普金斯說, SQL在Hadoop之上“打開了企業(yè)Hadoop平臺的門”因?yàn)槠髽I(yè)并不需要對高端數(shù)據(jù)科學(xué)家和商業(yè)分析師投資,那些人可以編寫使用Java、JavaScript和Python腳本 ,這是Hadoop的用戶傳統(tǒng)上需要做的。
這些工具不是什么新鮮事物。 Apache Hive的配置單元提供了一個結(jié)構(gòu)化的結(jié)構(gòu)化,曾經(jīng)用于Hadoop的類似SQL的查詢語言。但是,來源于Cloudera、匹維托軟件、IBM和其他供應(yīng)商的商業(yè)選擇,不僅提供了更高的性能,同時也變得越來越快。這使得該技術(shù)非常適合“迭代分析,”其中一位分析師問了一個問題,得到一個答案,然后問另外一個。這類型的工作,歷來需要構(gòu)建一個數(shù)據(jù)倉庫。 SQL在Hadoop中不會取代數(shù)據(jù)倉庫,至少不會很快,霍普金斯說,“但它確實(shí)給特定類型的分析提供了更昂貴的軟件和設(shè)備的替代品?!?/span>
6.更多,更好的NoSQL
柯倫說,替代傳統(tǒng)的基于SQL的關(guān)系型數(shù)據(jù)庫的,叫做NoSQL(簡稱“不僅是SQL”)數(shù)據(jù)庫,作為在特定種類的分析應(yīng)用程序使用的工具正在迅速得到普及,并且這一勢頭將繼續(xù)增長。他估計(jì),有15到20個開源NoSQL數(shù)據(jù)庫,每個都有自己的特點(diǎn)。例如,一個擁有圖形數(shù)據(jù)庫的能力的NoSQL產(chǎn)品,如ArangoDB,提供了一個比相關(guān)數(shù)據(jù)庫更快速、更直接的方式來分析客戶或銷售人員的關(guān)系網(wǎng)絡(luò)。這些數(shù)據(jù)庫已經(jīng)存在了一段時間,但他們在加速發(fā)展,因?yàn)槿藗冃枰母鞣N分析,他說。普華永道一位客戶在新興市場已經(jīng)在商店貨架上放置了傳感器以監(jiān)控哪些產(chǎn)品還有,客戶處理他們用多長時間以及消費(fèi)者在貨架前站多長時間。 “這些傳感器噴涌的數(shù)據(jù)流將成倍增長,”柯倫說。 “一個NoSQL的key-value對的數(shù)據(jù)庫,如Redis正是這種合適的地方,因?yàn)檫@是專用的,高性能和輕便的。”
7.深入學(xué)習(xí)
深度學(xué)習(xí),基于神經(jīng)網(wǎng)絡(luò)的一套機(jī)器學(xué)習(xí)技術(shù),仍在不斷發(fā)展,但在解決業(yè)務(wù)問題上有巨大潛力,霍普金斯說。 “深度學(xué)習(xí)使計(jì)算機(jī)能夠識別大量的非結(jié)構(gòu)化和二進(jìn)制數(shù)據(jù),并在不需要特定的模型或編程指令下推斷出之間的關(guān)系,”他說。
舉一個例子,一個深度學(xué)習(xí)算法可以從維基百科的數(shù)據(jù)自身知道,加利福尼亞州和得克薩斯州這兩個州在美國。“它沒有被定為模型去了解一個國家和國家的概念,并且這在舊的機(jī)器學(xué)習(xí)和新興深度學(xué)習(xí)方法之間有很大差異,“霍普金斯說。
霍普金斯說,“大數(shù)據(jù)將使用類似深度學(xué)習(xí)先進(jìn)的分析技術(shù),以我們現(xiàn)在才開始理解的方式處理很多不同的和非結(jié)構(gòu)化的文本”。例如,它可以用于識別許多不同種類的數(shù)據(jù),比如形狀,顏色和視頻中的物體 – 或甚至圖像內(nèi)的貓,如由谷歌在2012年所做的著名的“神經(jīng)網(wǎng)絡(luò)”。識別管理和高級分析概念以及它所寓意的東西是一個重要的未來趨勢,霍普金斯說。
8.在內(nèi)存分析
拜爾說,使用內(nèi)存數(shù)據(jù)庫來加快分析處理成為日益流行和非常有益的設(shè)置。事實(shí)上,很多企業(yè)已經(jīng)借助混合交易/分析處理(HTAP) – 允許交易和分析處理駐留在同一個內(nèi)存數(shù)據(jù)庫。
拜爾說,但是有很多圍繞HTAP的炒作,而企業(yè)已經(jīng)過度使用了。對于其中用戶需要整天以同樣的方式多次觀察相同的數(shù)據(jù)系統(tǒng),并且這里面的數(shù)據(jù)中沒有顯著變化 – 在內(nèi)存中是一種浪費(fèi)。
雖然你可以更快地用HTAP進(jìn)行分析,所有的交易都必須駐留在同一個數(shù)據(jù)庫中。拜爾說,問題是,是現(xiàn)在大多數(shù)的分析工作是關(guān)于把數(shù)據(jù)從許多不同的系統(tǒng)連接在一起?!爸灰讶康亩挤旁谝粋€數(shù)據(jù)庫可以追溯到這個證偽的信念,如果你想使用HTAP你所有的分析中,它要求所有的交易是在一個地方,”他說,“你仍然需要集成不同的數(shù)據(jù)?!?/span>
此外,引進(jìn)的內(nèi)存數(shù)據(jù)庫意味著有另一種產(chǎn)品來管理、安全、并找出如何整合和規(guī)模。
對于Intuit公司來說,Spark的使用已經(jīng)帶走了一些擁抱內(nèi)存數(shù)據(jù)庫沖動?!叭绻覀兡軌蛴肧park基礎(chǔ)設(shè)施解決我們實(shí)用案例的70%,內(nèi)存中的系統(tǒng)便可以解決100%,我們將繼續(xù)保持我們的分析云中的70%,”Loconzolo說。 “因此,我們將原型,看看它現(xiàn)在是否已經(jīng)準(zhǔn)備好,并停留在內(nèi)存系統(tǒng)內(nèi)部。”
保持領(lǐng)先
隨著圍繞大數(shù)據(jù)和分析出現(xiàn)如此多的新趨勢,IT組織需要創(chuàng)造條件,讓分析師和數(shù)據(jù)科學(xué)家做實(shí)驗(yàn)。 “你需要一種方法來評估,做出原型并最終融入其中的一些技術(shù)應(yīng)用到企業(yè),”柯倫說。
“IT經(jīng)理和實(shí)施人員不能以缺乏成熟為借口,停止試驗(yàn),”拜爾說。最初,只有少數(shù)人 – 最熟練的分析師和數(shù)據(jù)科學(xué)家 – 需要進(jìn)行試驗(yàn)。那么那些高級用戶和IT部門應(yīng)該共同確定何時提供新的組織的其余部分資源。并且IT部門不一定想要向前全速前進(jìn)的分析師。相反,拜爾說,IT部門需要與分析師合作,“把變速油門安裝在這些新的高性能的工具之上”。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03