
大數(shù)據(jù)分析中的八大趨勢(shì)
Remarketer的首席數(shù)據(jù)科學(xué)家Dean Abbott直接奔向了云計(jì)算。大數(shù)據(jù)和分析的領(lǐng)先優(yōu)勢(shì),其中包括用來存儲(chǔ)原生格式的大量數(shù)據(jù)的數(shù)據(jù)湖泊,當(dāng)然,云計(jì)算技術(shù)也在快速前進(jìn)。雖然技術(shù)選項(xiàng)還遠(yuǎn)遠(yuǎn)沒有成熟,但是等待根本不是一個(gè)選項(xiàng)。
“現(xiàn)實(shí)情況是,這些工具仍不斷涌現(xiàn),并且Hadoop的平臺(tái)的承諾并沒有達(dá)到業(yè)務(wù)需要依賴于它的水平,”Loconzolo說。但是,大數(shù)據(jù)和分析的學(xué)科發(fā)展如此之快以至于企業(yè)需要在涉水該方面或冒落后的風(fēng)險(xiǎn)。 “在過去,新興技術(shù)可能花費(fèi)數(shù)年時(shí)間才能成熟,”他說。 “現(xiàn)在人們?cè)趲讉€(gè)月內(nèi)或幾周內(nèi)就能拿出迭代和驅(qū)動(dòng)解決方案”那么,什么才是應(yīng)該是您的觀察名單上的或在您的測(cè)試實(shí)驗(yàn)室中的最重要的新生技術(shù)和發(fā)展趨勢(shì)?計(jì)算機(jī)世界要求IT主管、咨詢顧問和行業(yè)分析師來權(quán)衡。這里是他們給出的名單。
Hadoop是一個(gè)用于處理非常大的數(shù)據(jù)集的框架和工具,它最初被設(shè)計(jì)為在集群的物理機(jī)器上工作。這已經(jīng)改變了?!艾F(xiàn)在越來越多的技術(shù)可用于在云中處理數(shù)據(jù),”一Forrester Research的分析師布賴恩?霍普金斯說。例子包括亞馬遜的Redshift托管BI數(shù)據(jù)倉庫、谷歌的BigQuery中的數(shù)據(jù)分析服務(wù)、IBM的Bluemix云平臺(tái)和亞馬遜的室壁運(yùn)動(dòng)數(shù)據(jù)處理服務(wù)。 “大數(shù)據(jù)的未來狀態(tài)將是內(nèi)部部署和云的混合,”他說。
Smarter Remarketer,是基于SaaS零售分析、細(xì)分和營(yíng)銷服務(wù)的提供商,最近從一個(gè)內(nèi)部的Hadoop和MongoDB的數(shù)據(jù)庫基礎(chǔ)架構(gòu)轉(zhuǎn)向了亞馬遜的Redshift,Redshift是基于云的數(shù)據(jù)倉庫。印第安納波利斯的公司在收集網(wǎng)上的和零售銷售的以及客戶的人口統(tǒng)計(jì)數(shù)據(jù),以及實(shí)時(shí)行為數(shù)據(jù),然后分析這些信息,以幫助零售商在現(xiàn)實(shí)中的某些情況下建立有針對(duì)性的消費(fèi)者需要的信息反饋機(jī)制。
Abbott說redshift對(duì)smarter Remarketer更具成本效益,特別是因?yàn)樗哂薪Y(jié)構(gòu)化數(shù)據(jù)豐富的報(bào)表功能。而作為一個(gè)托管服務(wù),這既具有可擴(kuò)展性和又非常容易使用。 “擴(kuò)大在虛擬機(jī)比購買物理機(jī)管理工作更便宜,”他說。
就其本身而言,總部設(shè)在加州的 Mountain View 已經(jīng)小心翼翼走向云分析,因?yàn)樗枰粋€(gè)安全、穩(wěn)定和可審計(jì)的環(huán)境。目前,金融軟件公司保持私有Intuit分析云內(nèi)的一切。“我們正在與亞馬遜和Cloudera合作一個(gè)可以跨越公私,高可用性和安全分析的云,但目前還沒有人解決這個(gè)問題,”Loconzolo說。但是,像Intuit這種賣能夠在云中運(yùn)行的產(chǎn)品的公司轉(zhuǎn)向云是不可避免的。 “它會(huì)達(dá)到這樣一種程度,那便是高成本的將所有的數(shù)據(jù)轉(zhuǎn)移到一個(gè)私有云中,”他說。
霍普金斯說,分布式分析的框架,如MapReduce,正在演變?yōu)橹饾u轉(zhuǎn)向Hadoop的通用數(shù)據(jù)操作系統(tǒng)的分布式資源管理器。他說,有了這些系統(tǒng),你可以通過將它們插入Hadoop作為分布式文件存儲(chǔ)系統(tǒng)來執(zhí)行許多不同的數(shù)據(jù)操作和分析操作。
這對(duì)企業(yè)意味著什么呢?由于SQL,MapReduce的,內(nèi)存,流處理,圖形分析和其他類型的工作負(fù)載在Hadoop上有足夠的性能來運(yùn)行,越來越多的企業(yè)將會(huì)使用Hadoop作為一個(gè)企業(yè)的數(shù)據(jù)中心?;羝战鹚拐f,“在Hadoop中運(yùn)行許多不同種類的查詢和數(shù)據(jù)操作將使你想進(jìn)行分析的數(shù)據(jù)中心成本更低、更加通用”。
Intuit公司的Hadoop基礎(chǔ)已經(jīng)建立?!拔覀兊牟呗允抢?a href='/map/hadoop/' style='color:#000;font-size:inherit;'>Hadoop分布式文件系統(tǒng),它將與MapReduce和Hadoop密切合作,它將作為一項(xiàng)能使所有類型的人與產(chǎn)品進(jìn)行互動(dòng)的長(zhǎng)期戰(zhàn)略,,”Loconzolo說。
傳統(tǒng)的數(shù)據(jù)庫理論決定了你可以再輸入任何數(shù)據(jù)之前設(shè)計(jì)數(shù)據(jù)設(shè)置。數(shù)據(jù)湖,也被稱為企業(yè)的數(shù)據(jù)湖泊或企業(yè)數(shù)據(jù)中心,逐漸成為企業(yè)的大腦,在普華永道美國(guó)咨詢業(yè)務(wù)的合伙人兼首席技術(shù)專家克里斯?柯倫說。 他說,“據(jù)說我們將把這些數(shù)據(jù)源放到一個(gè)大的Hadoop存儲(chǔ)庫中,我們不會(huì)事先試圖設(shè)計(jì)一個(gè)數(shù)據(jù)模型”。相反,它將給人們提供工具來分析數(shù)據(jù),以及給在湖中存在的數(shù)據(jù)一個(gè)高層次的定義。 隨著不斷深入,人們逐漸建立起對(duì)數(shù)據(jù)的看法。對(duì)于建設(shè)一個(gè)大型的數(shù)據(jù)庫,這將是一個(gè)大增量的有機(jī)的模型,“柯倫說。不大好的地方就是,使用它的人必須是高度熟練。
Loconzolo說,作為Intuit分析云的一部分,Intuit有一個(gè)數(shù)據(jù)湖,其中包括用戶點(diǎn)擊流數(shù)據(jù)和企業(yè)以及第三方數(shù)據(jù),但重點(diǎn)是“民主化”周圍的工具,使商務(wù)人士能有效地使用它。 Loconzolo說,在Hadoop上構(gòu)建數(shù)據(jù)湖,他的關(guān)心的是對(duì)于該平臺(tái)企業(yè)并沒有真正就緒。 “我們希望,傳統(tǒng)的企業(yè)數(shù)據(jù)庫,有幾十年的監(jiān)控訪問控制、加密、保護(hù)數(shù)據(jù)并跟蹤從源到目標(biāo)數(shù)據(jù)的血統(tǒng),”他說。
霍普金斯說,在大數(shù)據(jù)時(shí)代,分析師不僅要和更多的數(shù)據(jù)一起工作,而且要掌握處理大量的多屬性記錄的能力。傳統(tǒng)的機(jī)器學(xué)習(xí)使用基于總數(shù)據(jù)集的樣本進(jìn)行統(tǒng)計(jì)分析。他說,“你現(xiàn)在有能力處理非常大的數(shù)字記錄和每條記錄的屬性”,并且增加了可預(yù)測(cè)性,。
大數(shù)據(jù)和計(jì)算能力的組合也可以讓分析師探索全天新的行為數(shù)據(jù),如訪問的網(wǎng)站或位置?;羝战鹚箤⑵浞Q之為“稀疏數(shù)據(jù)”,因?yàn)橐业礁信d趣的東西,你必須涉及大量的不相關(guān)的數(shù)據(jù)?!霸噲D用傳統(tǒng)的機(jī)器學(xué)習(xí)算法,對(duì)這種類型的數(shù)據(jù)的計(jì)算是不可能的。他說,現(xiàn)在我們可以用廉價(jià)的計(jì)算能力來解決問題?!爱?dāng)速度和內(nèi)存不再是關(guān)鍵問題時(shí),你制定的問題就會(huì)完全不同,”Abbott 說。“現(xiàn)在,通過對(duì)問題配以巨大的計(jì)算資源,你可以找到哪些變量是最合適被解析的。這真的是一個(gè)改變游戲規(guī)則?!?/span>
Loconzolo說,“由于相同Hadoop核心,實(shí)現(xiàn)實(shí)時(shí)分析和預(yù)測(cè)建模,這就是我們的利益所在”。對(duì)于這個(gè)問題,Hadoop以比更成熟的技術(shù)長(zhǎng)達(dá)20倍的時(shí)間來獲得答案。所以Intuit公司正在測(cè)試Apache Spark,這是一種大規(guī)模數(shù)據(jù)處理引擎,及其相關(guān)的SQL查詢工具,Spark SQL。 “Spark有快速交互式查詢和圖表服務(wù)和流媒體的功能。Loconzolo說,它將數(shù)據(jù)保持在Hadoop之中,但為我們以足夠的性能來縮小差距。
如果你是一個(gè)聰明的編碼器和數(shù)學(xué)家,你可以在Hadoop上存放數(shù)據(jù),并對(duì)任何事情做出分析。這是承諾和問題,Gartner的分析師馬克?拜爾表示?!拔倚枰腥税阉兂梢粋€(gè)我很熟悉的格式和語言結(jié)構(gòu),”他說,SQL 是可以被Hadoop產(chǎn)品所識(shí)別的,即使任何熟悉的語言都可以有這個(gè)功能,拜爾說。支持類似SQL的查詢工具,使得那些已經(jīng)了解SQL應(yīng)用類似的技術(shù)企業(yè)用戶能更好的把握數(shù)據(jù)?;羝战鹚拐f, SQL在Hadoop之上“打開了企業(yè)Hadoop平臺(tái)的門”因?yàn)槠髽I(yè)并不需要對(duì)高端數(shù)據(jù)科學(xué)家和商業(yè)分析師投資,那些人可以編寫使用Java、JavaScript和Python腳本 ,這是Hadoop的用戶傳統(tǒng)上需要做的。
這些工具不是什么新鮮事物。 Apache Hive的配置單元提供了一個(gè)結(jié)構(gòu)化的結(jié)構(gòu)化,曾經(jīng)用于Hadoop的類似SQL的查詢語言。但是,來源于Cloudera、匹維托軟件、IBM和其他供應(yīng)商的商業(yè)選擇,不僅提供了更高的性能,同時(shí)也變得越來越快。這使得該技術(shù)非常適合“迭代分析,”其中一位分析師問了一個(gè)問題,得到一個(gè)答案,然后問另外一個(gè)。這類型的工作,歷來需要構(gòu)建一個(gè)數(shù)據(jù)倉庫。 SQL在Hadoop中不會(huì)取代數(shù)據(jù)倉庫,至少不會(huì)很快,霍普金斯說,“但它確實(shí)給特定類型的分析提供了更昂貴的軟件和設(shè)備的替代品?!?/span>
柯倫說,替代傳統(tǒng)的基于SQL的關(guān)系型數(shù)據(jù)庫的,叫做NoSQL(簡(jiǎn)稱“不僅是SQL”)數(shù)據(jù)庫,作為在特定種類的分析應(yīng)用程序使用的工具正在迅速得到普及,并且這一勢(shì)頭將繼續(xù)增長(zhǎng)。他估計(jì),有15到20個(gè)開源NoSQL數(shù)據(jù)庫,每個(gè)都有自己的特點(diǎn)。例如,一個(gè)擁有圖形數(shù)據(jù)庫的能力的NoSQL產(chǎn)品,如ArangoDB,提供了一個(gè)比相關(guān)數(shù)據(jù)庫更快速、更直接的方式來分析客戶或銷售人員的關(guān)系網(wǎng)絡(luò)。這些數(shù)據(jù)庫已經(jīng)存在了一段時(shí)間,但他們?cè)诩铀侔l(fā)展,因?yàn)槿藗冃枰母鞣N分析,他說。普華永道一位客戶在新興市場(chǎng)已經(jīng)在商店貨架上放置了傳感器以監(jiān)控哪些產(chǎn)品還有,客戶處理他們用多長(zhǎng)時(shí)間以及消費(fèi)者在貨架前站多長(zhǎng)時(shí)間。 “這些傳感器噴涌的數(shù)據(jù)流將成倍增長(zhǎng),”柯倫說。 “一個(gè)NoSQL的key-value對(duì)的數(shù)據(jù)庫,如Redis正是這種合適的地方,因?yàn)檫@是專用的,高性能和輕便的?!?/span>
深度學(xué)習(xí),基于神經(jīng)網(wǎng)絡(luò)的一套機(jī)器學(xué)習(xí)技術(shù),仍在不斷發(fā)展,但在解決業(yè)務(wù)問題上有巨大潛力,霍普金斯說。 “深度學(xué)習(xí)使計(jì)算機(jī)能夠識(shí)別大量的非結(jié)構(gòu)化和二進(jìn)制數(shù)據(jù),并在不需要特定的模型或編程指令下推斷出之間的關(guān)系,”他說。
舉一個(gè)例子,一個(gè)深度學(xué)習(xí)算法可以從維基百科的數(shù)據(jù)自身知道,加利福尼亞州和得克薩斯州這兩個(gè)州在美國(guó)?!八鼪]有被定為模型去了解一個(gè)國(guó)家和國(guó)家的概念,并且這在舊的機(jī)器學(xué)習(xí)和新興深度學(xué)習(xí)方法之間有很大差異,“霍普金斯說。
霍普金斯說,“大數(shù)據(jù)將使用類似深度學(xué)習(xí)先進(jìn)的分析技術(shù),以我們現(xiàn)在才開始理解的方式處理很多不同的和非結(jié)構(gòu)化的文本”。例如,它可以用于識(shí)別許多不同種類的數(shù)據(jù),比如形狀,顏色和視頻中的物體 – 或甚至圖像內(nèi)的貓,如由谷歌在2012年所做的著名的“神經(jīng)網(wǎng)絡(luò)”。識(shí)別管理和高級(jí)分析概念以及它所寓意的東西是一個(gè)重要的未來趨勢(shì),霍普金斯說。
拜爾說,使用內(nèi)存數(shù)據(jù)庫來加快分析處理成為日益流行和非常有益的設(shè)置。事實(shí)上,很多企業(yè)已經(jīng)借助混合交易/分析處理(HTAP) – 允許交易和分析處理駐留在同一個(gè)內(nèi)存數(shù)據(jù)庫。
拜爾說,但是有很多圍繞HTAP的炒作,而企業(yè)已經(jīng)過度使用了。對(duì)于其中用戶需要整天以同樣的方式多次觀察相同的數(shù)據(jù)系統(tǒng),并且這里面的數(shù)據(jù)中沒有顯著變化 – 在內(nèi)存中是一種浪費(fèi)。
雖然你可以更快地用HTAP進(jìn)行分析,所有的交易都必須駐留在同一個(gè)數(shù)據(jù)庫中。拜爾說,問題是,是現(xiàn)在大多數(shù)的分析工作是關(guān)于把數(shù)據(jù)從許多不同的系統(tǒng)連接在一起?!爸灰讶康亩挤旁谝粋€(gè)數(shù)據(jù)庫可以追溯到這個(gè)證偽的信念,如果你想使用HTAP你所有的分析中,它要求所有的交易是在一個(gè)地方,”他說,“你仍然需要集成不同的數(shù)據(jù)?!?/span>
此外,引進(jìn)的內(nèi)存數(shù)據(jù)庫意味著有另一種產(chǎn)品來管理、安全、并找出如何整合和規(guī)模。
對(duì)于Intuit公司來說,Spark的使用已經(jīng)帶走了一些擁抱內(nèi)存數(shù)據(jù)庫沖動(dòng)。“如果我們能夠用Spark基礎(chǔ)設(shè)施解決我們實(shí)用案例的70%,內(nèi)存中的系統(tǒng)便可以解決100%,我們將繼續(xù)保持我們的分析云中的70%,”Loconzolo說。 “因此,我們將原型,看看它現(xiàn)在是否已經(jīng)準(zhǔn)備好,并停留在內(nèi)存系統(tǒng)內(nèi)部?!?/span>
隨著圍繞大數(shù)據(jù)和分析出現(xiàn)如此多的新趨勢(shì),IT組織需要?jiǎng)?chuàng)造條件,讓分析師和數(shù)據(jù)科學(xué)家做實(shí)驗(yàn)。 “你需要一種方法來評(píng)估,做出原型并最終融入其中的一些技術(shù)應(yīng)用到企業(yè),”柯倫說。
“IT經(jīng)理和實(shí)施人員不能以缺乏成熟為借口,停止試驗(yàn),”拜爾說。最初,只有少數(shù)人 – 最熟練的分析師和數(shù)據(jù)科學(xué)家 – 需要進(jìn)行試驗(yàn)。那么那些高級(jí)用戶和IT部門應(yīng)該共同確定何時(shí)提供新的組織的其余部分資源。并且IT部門不一定想要向前全速前進(jìn)的分析師。相反,拜爾說,IT部門需要與分析師合作,“把變速油門安裝在這些新的高性能的工具之上”。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03