99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀大數(shù)據(jù)分析的八大趨勢_數(shù)據(jù)分析師
大數(shù)據(jù)分析的八大趨勢_數(shù)據(jù)分析師
2015-01-17
收藏

大數(shù)據(jù)分析的八大趨勢_數(shù)據(jù)分析師


Intuit公司的數(shù)據(jù)工程副總裁Bill Loconzolo,雙腳踏進(jìn)了數(shù)據(jù)湖。.Smarter Remarketer的首席數(shù)據(jù)科學(xué)家Dean Abbott直接奔向了云計算大數(shù)據(jù)和分析的領(lǐng)先優(yōu)勢,其中包括用來存儲原生格式的大量數(shù)據(jù)的數(shù)據(jù)湖泊,當(dāng)然,云計算技術(shù)也在快速前進(jìn)。雖然技術(shù)選項還遠(yuǎn)遠(yuǎn)沒有成熟,但是等待根本不是一個選項。 

“現(xiàn)實情況是,這些工具仍不斷涌現(xiàn),并且Hadoop的平臺的承諾并沒有達(dá)到業(yè)務(wù)需要依賴于它的水平,”Loconzolo說。但是,大數(shù)據(jù)和分析的學(xué)科發(fā)展如此之快以至于企業(yè)需要在涉水該方面或冒落后的風(fēng)險。 “在過去,新興技術(shù)可能花費(fèi)數(shù)年時間才能成熟,”他說。 “現(xiàn)在人們在幾個月內(nèi)或幾周內(nèi)就能拿出迭代和驅(qū)動解決方案”那么,什么才是應(yīng)該是您的觀察名單上的或在您的測試實驗室中的最重要的新生技術(shù)和發(fā)展趨勢?計算機(jī)世界要求IT主管、咨詢顧問和行業(yè)分析師來權(quán)衡。這里是他們給出的名單。 

1、云中的大數(shù)據(jù)分析

Hadoop是一個用于處理非常大的數(shù)據(jù)集的框架和工具,它最初被設(shè)計為在集群的物理機(jī)器上工作。這已經(jīng)改變了。“現(xiàn)在越來越多的技術(shù)可用于在云中處理數(shù)據(jù),”一Forrester Research的分析師布賴恩?霍普金斯說。例子包括亞馬遜的Redshift托管BI數(shù)據(jù)倉庫、谷歌的BigQuery中的數(shù)據(jù)分析服務(wù)、IBMBluemix云平臺和亞馬遜的室壁運(yùn)動數(shù)據(jù)處理服務(wù)。 “大數(shù)據(jù)的未來狀態(tài)將是內(nèi)部部署和云的混合,”他說。

Smarter Remarketer,是基于SaaS零售分析、細(xì)分和營銷服務(wù)的提供商,最近從一個內(nèi)部的HadoopMongoDB的數(shù)據(jù)庫基礎(chǔ)架構(gòu)轉(zhuǎn)向了亞馬遜的Redshift,Redshift是基于云的數(shù)據(jù)倉庫。印第安納波利斯的公司在收集網(wǎng)上的和零售銷售的以及客戶的人口統(tǒng)計數(shù)據(jù),以及實時行為數(shù)據(jù),然后分析這些信息,以幫助零售商在現(xiàn)實中的某些情況下建立有針對性的消費(fèi)者需要的信息反饋機(jī)制。

Abbottredshiftsmarter Remarketer更具成本效益,特別是因為它具有結(jié)構(gòu)化數(shù)據(jù)豐富的報表功能。而作為一個托管服務(wù),這既具有可擴(kuò)展性和又非常容易使用。 “擴(kuò)大在虛擬機(jī)比購買物理機(jī)管理工作更便宜,”他說。 

就其本身而言,總部設(shè)在加州的 Mountain View 已經(jīng)小心翼翼走向云分析,因為它需要一個安全、穩(wěn)定和可審計的環(huán)境。目前,金融軟件公司保持私有Intuit分析云內(nèi)的一切。“我們正在與亞馬遜和Cloudera合作一個可以跨越公私,高可用性和安全分析的云,但目前還沒有人解決這個問題,”Loconzolo說。但是,像Intuit這種賣能夠在云中運(yùn)行的產(chǎn)品的公司轉(zhuǎn)向云是不可避免的。 “它會達(dá)到這樣一種程度,那便是高成本的將所有的數(shù)據(jù)轉(zhuǎn)移到一個私有云中,”他說。

2. Hadoop:新的企業(yè)數(shù)據(jù)操作系統(tǒng)

霍普金斯說,分布式分析的框架,如MapReduce,正在演變?yōu)橹饾u轉(zhuǎn)向Hadoop的通用數(shù)據(jù)操作系統(tǒng)的分布式資源管理器。他說,有了這些系統(tǒng),你可以通過將它們插入Hadoop作為分布式文件存儲系統(tǒng)來執(zhí)行許多不同的數(shù)據(jù)操作和分析操作。 

這對企業(yè)意味著什么呢?由于SQLMapReduce的,內(nèi)存,流處理,圖形分析和其他類型的工作負(fù)載在Hadoop上有足夠的性能來運(yùn)行,越來越多的企業(yè)將會使用Hadoop作為一個企業(yè)的數(shù)據(jù)中心?;羝战鹚拐f,“在Hadoop中運(yùn)行許多不同種類的查詢和數(shù)據(jù)操作將使你想進(jìn)行分析的數(shù)據(jù)中心成本更低、更加通用”。 

Intuit公司的Hadoop基礎(chǔ)已經(jīng)建立?!拔覀兊牟呗允抢?/span>Hadoop分布式文件系統(tǒng),它將與MapReduceHadoop密切合作,它將作為一項能使所有類型的人與產(chǎn)品進(jìn)行互動的長期戰(zhàn)略,,”Loconzolo說。 

3.數(shù)據(jù)湖

傳統(tǒng)的數(shù)據(jù)庫理論決定了你可以再輸入任何數(shù)據(jù)之前設(shè)計數(shù)據(jù)設(shè)置。數(shù)據(jù)湖,也被稱為企業(yè)的數(shù)據(jù)湖泊或企業(yè)數(shù)據(jù)中心,逐漸成為企業(yè)的大腦,在普華永道美國咨詢業(yè)務(wù)的合伙人兼首席技術(shù)專家克里斯?柯倫說。 他說,“據(jù)說我們將把這些數(shù)據(jù)源放到一個大的Hadoop存儲庫中,我們不會事先試圖設(shè)計一個數(shù)據(jù)模型”。相反,它將給人們提供工具來分析數(shù)據(jù),以及給在湖中存在的數(shù)據(jù)一個高層次的定義。 隨著不斷深入,人們逐漸建立起對數(shù)據(jù)的看法。對于建設(shè)一個大型的數(shù)據(jù)庫,這將是一個大增量的有機(jī)的模型,“柯倫說。不大好的地方就是,使用它的人必須是高度熟練。 

Loconzolo說,作為Intuit分析云的一部分,Intuit有一個數(shù)據(jù)湖,其中包括用戶點擊流數(shù)據(jù)和企業(yè)以及第三方數(shù)據(jù),但重點是“民主化”周圍的工具,使商務(wù)人士能有效地使用它。 Loconzolo說,在Hadoop上構(gòu)建數(shù)據(jù)湖,他的關(guān)心的是對于該平臺企業(yè)并沒有真正就緒。 “我們希望,傳統(tǒng)的企業(yè)數(shù)據(jù)庫,有幾十年的監(jiān)控訪問控制、加密、保護(hù)數(shù)據(jù)并跟蹤從源到目標(biāo)數(shù)據(jù)的血統(tǒng),”他說。 

4.更多的預(yù)測分析

霍普金斯說,在大數(shù)據(jù)時代,分析師不僅要和更多的數(shù)據(jù)一起工作,而且要掌握處理大量的多屬性記錄的能力。傳統(tǒng)的機(jī)器學(xué)習(xí)使用基于總數(shù)據(jù)集的樣本進(jìn)行統(tǒng)計分析。他說,“你現(xiàn)在有能力處理非常大的數(shù)字記錄和每條記錄的屬性”,并且增加了可預(yù)測性。 

大數(shù)據(jù)和計算能力的組合也可以讓分析師探索全天新的行為數(shù)據(jù),如訪問的網(wǎng)站或位置?;羝战鹚箤⑵浞Q之為“稀疏數(shù)據(jù)”,因為要找到感興趣的東西,你必須涉及大量的不相關(guān)的數(shù)據(jù)。“試圖用傳統(tǒng)的機(jī)器學(xué)習(xí)算法,對這種類型的數(shù)據(jù)的計算是不可能的。他說,現(xiàn)在我們可以用廉價的計算能力來解決問題?!爱?dāng)速度和內(nèi)存不再是關(guān)鍵問題時,你制定的問題就會完全不同,”Abbott 說?!艾F(xiàn)在,通過對問題配以巨大的計算資源,你可以找到哪些變量是最合適被解析的。這真的是一個改變游戲規(guī)則?!?/span>

Loconzolo說,“由于相同Hadoop核心,實現(xiàn)實時分析和預(yù)測建模,這就是我們的利益所在”。對于這個問題,Hadoop以比更成熟的技術(shù)長達(dá)20倍的時間來獲得答案。所以Intuit公司正在測試Apache Spark,這是一種大規(guī)模數(shù)據(jù)處理引擎,及其相關(guān)的SQL查詢工具,Spark SQL。 “Spark有快速交互式查詢和圖表服務(wù)和流媒體的功能。Loconzolo說,它將數(shù)據(jù)保持在Hadoop之中,但為我們以足夠的性能來縮小差距。 

5.SQL Hadoop之上:更快、更好

如果你是一個聰明的編碼器和數(shù)學(xué)家,你可以在Hadoop上存放數(shù)據(jù),并對任何事情做出分析。這是承諾和問題,Gartner的分析師馬克?拜爾表示?!拔倚枰腥税阉兂梢粋€我很熟悉的格式和語言結(jié)構(gòu),”他說,SQL 是可以被Hadoop產(chǎn)品所識別的,即使任何熟悉的語言都可以有這個功能,拜爾說。支持類似SQL的查詢工具,使得那些已經(jīng)了解SQL應(yīng)用類似的技術(shù)企業(yè)用戶能更好的把握數(shù)據(jù)?;羝战鹚拐f, SQLHadoop之上“打開了企業(yè)Hadoop平臺的門”因為企業(yè)并不需要對高端數(shù)據(jù)科學(xué)家和商業(yè)分析師投資,那些人可以編寫使用JavaJavaScriptPython腳本 ,這是Hadoop的用戶傳統(tǒng)上需要做的。 

這些工具不是什么新鮮事物。 Apache Hive的配置單元提供了一個結(jié)構(gòu)化的結(jié)構(gòu)化,曾經(jīng)用于Hadoop的類似SQL的查詢語言。但是,來源于Cloudera、匹維托軟件、IBM和其他供應(yīng)商的商業(yè)選擇,不僅提供了更高的性能,同時也變得越來越快。這使得該技術(shù)非常適合“迭代分析,”其中一位分析師問了一個問題,得到一個答案,然后問另外一個。這類型的工作,歷來需要構(gòu)建一個數(shù)據(jù)倉庫。SQLHadoop中不會取代數(shù)據(jù)倉庫,至少不會很快,霍普金斯說,“但它確實給特定類型的分析提供了更昂貴的軟件和設(shè)備的替代品?!?/span> 

6.更多,更好的NoSQL

柯倫說,替代傳統(tǒng)的基于SQL關(guān)系型數(shù)據(jù)庫的,叫做NoSQL(簡稱“不僅是SQL”)數(shù)據(jù)庫,作為在特定種類的分析應(yīng)用程序使用的工具正在迅速得到普及,并且這一勢頭將繼續(xù)增長。他估計,有1520個開源NoSQL數(shù)據(jù)庫,每個都有自己的特點。例如,一個擁有圖形數(shù)據(jù)庫的能力的NoSQL產(chǎn)品,如ArangoDB,提供了一個比相關(guān)數(shù)據(jù)庫更快速、更直接的方式來分析客戶或銷售人員的關(guān)系網(wǎng)絡(luò)。這些數(shù)據(jù)庫已經(jīng)存在了一段時間,但他們在加速發(fā)展,因為人們需要的各種分析,他說。普華永道一位客戶在新興市場已經(jīng)在商店貨架上放置了傳感器以監(jiān)控哪些產(chǎn)品還有,客戶處理他們用多長時間以及消費(fèi)者在貨架前站多長時間。 “這些傳感器噴涌的數(shù)據(jù)流將成倍增長,”柯倫說。 “一個NoSQLkey-value對的數(shù)據(jù)庫,如Redis正是這種合適的地方,因為這是專用的,高性能和輕便的?!?/span> 

7.深入學(xué)習(xí)

深度學(xué)習(xí),基于神經(jīng)網(wǎng)絡(luò)的一套機(jī)器學(xué)習(xí)技術(shù),仍在不斷發(fā)展,但在解決業(yè)務(wù)問題上有巨大潛力,霍普金斯說。 “深度學(xué)習(xí)使計算機(jī)能夠識別大量的非結(jié)構(gòu)化和二進(jìn)制數(shù)據(jù),并在不需要特定的模型或編程指令下推斷出之間的關(guān)系,”他說。 

舉一個例子,一個深度學(xué)習(xí)算法可以從維基百科的數(shù)據(jù)自身知道,加利福尼亞州和得克薩斯州這兩個州在美國。“它沒有被定為模型去了解一個國家和國家的概念,并且這在舊的機(jī)器學(xué)習(xí)和新興深度學(xué)習(xí)方法之間有很大差異,“霍普金斯說。

 霍普金斯說,“大數(shù)據(jù)將使用類似深度學(xué)習(xí)先進(jìn)的分析技術(shù),以我們現(xiàn)在才開始理解的方式處理很多不同的和非結(jié)構(gòu)化的文本”。例如,它可以用于識別許多不同種類的數(shù)據(jù),比如形狀,顏色和視頻中的物體 – 或甚至圖像內(nèi)的貓,如由谷歌在2012年所做的著名的“神經(jīng)網(wǎng)絡(luò)”。識別管理和高級分析概念以及它所寓意的東西是一個重要的未來趨勢,霍普金斯說。 

8.在內(nèi)存分析

拜爾說,使用內(nèi)存數(shù)據(jù)庫來加快分析處理成為日益流行和非常有益的設(shè)置。事實上,很多企業(yè)已經(jīng)借助混合交易/分析處理(HTAP) – 允許交易和分析處理駐留在同一個內(nèi)存數(shù)據(jù)庫。 

拜爾說,但是有很多圍繞HTAP的炒作,而企業(yè)已經(jīng)過度使用了。對于其中用戶需要整天以同樣的方式多次觀察相同的數(shù)據(jù)系統(tǒng),并且這里面的數(shù)據(jù)中沒有顯著變化 – 在內(nèi)存中是一種浪費(fèi)。 

雖然你可以更快地用HTAP進(jìn)行分析,所有的交易都必須駐留在同一個數(shù)據(jù)庫中。拜爾說,問題是,是現(xiàn)在大多數(shù)的分析工作是關(guān)于把數(shù)據(jù)從許多不同的系統(tǒng)連接在一起。“只要把全部的都放在一個數(shù)據(jù)庫可以追溯到這個證偽的信念,如果你想使用HTAP你所有的分析中,它要求所有的交易是在一個地方,”他說,“你仍然需要集成不同的數(shù)據(jù)?!?/span> 

此外,引進(jìn)的內(nèi)存數(shù)據(jù)庫意味著有另一種產(chǎn)品來管理、安全、并找出如何整合和規(guī)模。 

對于Intuit公司來說,Spark的使用已經(jīng)帶走了一些擁抱內(nèi)存數(shù)據(jù)庫沖動?!叭绻覀兡軌蛴?/span>Spark基礎(chǔ)設(shè)施解決我們實用案例的70%,內(nèi)存中的系統(tǒng)便可以解決100%,我們將繼續(xù)保持我們的分析云中的70%,”Loconzolo說。 “因此,我們將原型,看看它現(xiàn)在是否已經(jīng)準(zhǔn)備好,并停留在內(nèi)存系統(tǒng)內(nèi)部?!?/span> 

保持領(lǐng)先

隨著圍繞大數(shù)據(jù)和分析出現(xiàn)如此多的新趨勢,IT組織需要創(chuàng)造條件,讓分析師和數(shù)據(jù)科學(xué)家做實驗。 “你需要一種方法來評估,做出原型并最終融入其中的一些技術(shù)應(yīng)用到企業(yè),”柯倫說。

IT經(jīng)理和實施人員不能以缺乏成熟為借口,停止試驗,”拜爾說。最初,只有少數(shù)人 – 最熟練的分析師和數(shù)據(jù)科學(xué)家 – 需要進(jìn)行試驗。那么那些高級用戶和IT部門應(yīng)該共同確定何時提供新的組織的其余部分資源。并且IT部門不一定想要向前全速前進(jìn)的分析師。相反,拜爾說,IT部門需要與分析師合作,“把變速油門安裝在這些新的高性能的工具之上”。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }