
五個(gè)大數(shù)據(jù)執(zhí)行中應(yīng)當(dāng)避免的錯(cuò)誤_數(shù)據(jù)分析師考試
近幾年,有些名詞由于使用過(guò)度或者是遭到誤解而被認(rèn)為是“大數(shù)據(jù)”。從用谷歌流感趨勢(shì)解析器來(lái)預(yù)測(cè)大規(guī)模流感的爆發(fā),到追蹤人們購(gòu)物的趨勢(shì),從引導(dǎo)消費(fèi)者如何省錢,到制定能夠?qū)Φ讓庸竞蛡€(gè)人產(chǎn)生影響的實(shí)時(shí)交易決策——數(shù)據(jù)已經(jīng)成為今天全球經(jīng)濟(jì)中保持競(jìng)爭(zhēng)力的關(guān)鍵。要想理解產(chǎn)業(yè)大數(shù)據(jù)的意義,以及為什么大數(shù)據(jù)能夠受到如此多的關(guān)注,我們需要將數(shù)據(jù)庫(kù)產(chǎn)業(yè)劃分成幾個(gè)部分來(lái)分析,這些產(chǎn)業(yè)在我們今天處理和分析數(shù)據(jù)的時(shí)候也為我們帶來(lái)了不小的挑戰(zhàn)。
為了充分了解大數(shù)據(jù)以達(dá)到我寫這篇文章的目的,我會(huì)盡力從一個(gè)幫助公司了解大數(shù)據(jù)對(duì)其有何種意義的公司管理人員的角度,對(duì)大數(shù)據(jù)的定義予以闡明。大數(shù)據(jù)簡(jiǎn)單來(lái)說(shuō)就是目前的一代人,他們有處理數(shù)據(jù)庫(kù)和科學(xué)技術(shù)的需要以此來(lái)滿足數(shù)據(jù)市場(chǎng)的需求。在與高德納公司和其他公司結(jié)成同盟的今天,在談?wù)摂?shù)據(jù)庫(kù)的不同時(shí)我聽(tīng)到過(guò)這樣一種解釋:數(shù)量,種類,速度和難度。
這種數(shù)據(jù)包括復(fù)雜的文章,大容量的視頻和錄音文件,即時(shí)信息和多變的商業(yè)進(jìn)程,這些都需要來(lái)自不同渠道的靈活的數(shù)據(jù)綱要。技術(shù)專家意識(shí)到遺留系統(tǒng)和傳統(tǒng)的關(guān)系上的數(shù)據(jù)庫(kù)處理系統(tǒng)的解決方案無(wú)法控制和處理數(shù)據(jù)的類型,因?yàn)樗鼈兪且砸环N直接趨向商業(yè)結(jié)果的方式呈現(xiàn)的,這時(shí)候問(wèn)題就來(lái)了。這已經(jīng)不再僅僅是儲(chǔ)存信息的問(wèn)題了。技術(shù)專家和商業(yè)領(lǐng)導(dǎo)者應(yīng)當(dāng)充分利用現(xiàn)有數(shù)據(jù),存取,處理并在實(shí)際中使用它們。為了滿足新的需要,新的使用者現(xiàn)正處于一種必須應(yīng)對(duì)某些挑戰(zhàn)的狀態(tài),因?yàn)殡S著數(shù)據(jù)的不斷增加,新的問(wèn)題也隨之出現(xiàn)。
因此,當(dāng)某些企業(yè)想要用大數(shù)據(jù)執(zhí)行某些計(jì)劃但是失敗的時(shí)候,我們最常見(jiàn)的錯(cuò)誤是什么呢?最近的一份調(diào)查顯示在更廣泛的領(lǐng)域內(nèi)超過(guò)百分之七十五的大數(shù)據(jù)或者說(shuō)是IT項(xiàng)目都是不完善的。我們應(yīng)該清楚的看到,在找到最有效的解決方法使大數(shù)據(jù)能夠被充分利用開(kāi)發(fā)并為我們所用的道路上仍然有許多困難和挑戰(zhàn)。
讓我們來(lái)列舉一部分。
首先,你沒(méi)有充分利用你的數(shù)據(jù)。
也許,讓很多企業(yè)都不得不面臨大數(shù)據(jù)的挑戰(zhàn)的一個(gè)很明顯的原因,是缺乏一種通過(guò)使用大數(shù)據(jù)來(lái)推動(dòng)支持決策形成商業(yè)智慧的能力。
如果一個(gè)線上出版者能夠更好地理解讀者會(huì)在什么時(shí)候以及為什么瀏覽他出版的內(nèi)容并在他的頁(yè)面上停留很久,他便能夠根據(jù)現(xiàn)在和未來(lái)的瀏覽者的需要對(duì)內(nèi)容進(jìn)行改進(jìn)。在現(xiàn)存的數(shù)據(jù)中,驅(qū)動(dòng)價(jià)值是產(chǎn)業(yè)中最常見(jiàn)的難題之一。雖然眾多的科技產(chǎn)品可以幫助克服這些困難,但是大部分的數(shù)據(jù)庫(kù)產(chǎn)品都缺乏快速有效解決的這一問(wèn)題的能力,因?yàn)樗鼈儧](méi)有進(jìn)行大規(guī)模的數(shù)據(jù)轉(zhuǎn)換,在精確衡量商業(yè)智慧上往往會(huì)制定一些不符合實(shí)際的過(guò)高目標(biāo)。
如果大部分的數(shù)據(jù)庫(kù)技術(shù)在一開(kāi)始的時(shí)候并不了解和滿足數(shù)據(jù)的某些特殊要求,那么它們便需要某種數(shù)據(jù)定義或者是數(shù)據(jù)綱要來(lái)減緩項(xiàng)目進(jìn)程。還有要順便提一句,這里描述的都是我在過(guò)去的15年來(lái)有著愉快的工作經(jīng)歷的IT項(xiàng)目。
NoSQL關(guān)系型數(shù)據(jù)庫(kù)有效地解決了這個(gè)問(wèn)題。如果執(zhí)行了NoSQL關(guān)系型數(shù)據(jù)庫(kù)(通常情況下可以行得通),那么綱要便不再需要了,或者是需要的程度降低了。這是NoSQL關(guān)系型數(shù)據(jù)庫(kù)的主要價(jià)值所在,也是在關(guān)系市場(chǎng)上直接增加在使用者的知名度的一個(gè)主要的推動(dòng)力。
復(fù)雜的數(shù)據(jù)建模,中間層的目標(biāo)規(guī)劃和不斷返工,這些與更早的RDBMS關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)有諸多聯(lián)系的特點(diǎn),為探索一種新的充分利用大數(shù)據(jù)的方式開(kāi)辟了一條新路。
第二點(diǎn)是,你已經(jīng)將公司賭在了免費(fèi)軟件上
通過(guò)過(guò)去幾年的促銷循環(huán)系統(tǒng),每一個(gè)組織都在考慮有效利用最新最好的解決方案,像Apache和Pig這樣的,都是感覺(jué)過(guò)去的RDBMS關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)已經(jīng)過(guò)時(shí)而力求創(chuàng)新。事實(shí)的確如此,關(guān)系型數(shù)據(jù)庫(kù)本身無(wú)法滿足NoSQL數(shù)據(jù)庫(kù)能夠達(dá)到的要求。在源頭開(kāi)放的大數(shù)據(jù)生態(tài)系統(tǒng)中,持續(xù)增長(zhǎng)的失敗案例已經(jīng)能夠防止大象試圖飛行—許多公司已經(jīng)感受到了小范圍失敗帶來(lái)的損失。
免費(fèi)軟件運(yùn)動(dòng)已經(jīng)因?yàn)槠洳徽鎸?shí)性而備受批判,主要由哪些抱著不切實(shí)的幻想,守望著自己的產(chǎn)品能夠成為下一個(gè)最暢銷的產(chǎn)品或者只有他們自己可以做到這種程度的這種沒(méi)有什么經(jīng)驗(yàn)的軟件開(kāi)發(fā)者共享。
產(chǎn)業(yè)在過(guò)去的幾十年里已經(jīng)盡力去克服公司軟件中的一些現(xiàn)實(shí)的不穩(wěn)定因素(完整的版本是“你得到的永遠(yuǎn)不會(huì)多于你應(yīng)得的——但是不要忘記后續(xù),如果這看起來(lái)太美好而讓人無(wú)法相信其真實(shí)性的話……”)
現(xiàn)實(shí)是大部分的開(kāi)放源數(shù)據(jù)軟件在滿足公司的需要上都并不可行。大部分的開(kāi)放源安裝包的存在都是為了吸引那些尋求簡(jiǎn)單客戶基礎(chǔ)的網(wǎng)絡(luò)開(kāi)發(fā)者。這些產(chǎn)品都具有一些很典型的特點(diǎn),不能物盡其用,不安全而且眾所周知它們會(huì)丟失數(shù)據(jù)。是的它們會(huì)丟失數(shù)據(jù),因?yàn)樗鼈冊(cè)谝婚_(kāi)始被設(shè)計(jì)研發(fā)時(shí),就沒(méi)有可以核對(duì)每一個(gè)自主數(shù)據(jù)的處理器。
第三點(diǎn)是,你徹底的放棄了昂貴的遺留下來(lái)的數(shù)據(jù)系統(tǒng)
我相信數(shù)據(jù)倉(cāng)庫(kù)將會(huì)有一個(gè)長(zhǎng)遠(yuǎn)的未來(lái)。這并不是一個(gè)非常大膽的猜想,但是RDBMS關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)的未來(lái)又會(huì)怎樣?當(dāng)然不久之后我們將看不到Oracle數(shù)據(jù)庫(kù)的終結(jié)。
我的數(shù)據(jù)顯示,邏輯型數(shù)據(jù)倉(cāng)庫(kù)(LDW)正在呈上漲趨勢(shì)。一個(gè)倉(cāng)庫(kù)是建于由兩個(gè)或者多個(gè)現(xiàn)實(shí)數(shù)據(jù)庫(kù)合成的單一的接入視圖之上的。同樣的原因,產(chǎn)業(yè)未來(lái)應(yīng)用的發(fā)展也正在采集使用NoSQL數(shù)據(jù)庫(kù),這便需要一種新的方式來(lái)構(gòu)建和儲(chǔ)存數(shù)據(jù)倉(cāng)庫(kù)。使用RDBMS關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)的話,一開(kāi)始會(huì)很難去駕馭它,反復(fù)做又會(huì)花費(fèi)大量的時(shí)間和金錢。
一個(gè)邏輯性數(shù)據(jù)倉(cāng)庫(kù)(LDW)擁有一種獨(dú)特的功能,能夠加強(qiáng)幾乎所有來(lái)自各種數(shù)據(jù)源的數(shù)據(jù)和索引,并構(gòu)建一種客制化的時(shí)間系統(tǒng),使所有客戶進(jìn)行交易和分析問(wèn)題成為可能。雖然RDBMS關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)已經(jīng)成為一種舊的派別,但是放棄現(xiàn)有的數(shù)據(jù)執(zhí)行手段的代價(jià)是非常巨大的。邏輯型數(shù)據(jù)倉(cāng)庫(kù)LDW允許公司在關(guān)于遺留系統(tǒng)的沉沒(méi)成本的問(wèn)題時(shí)可以盡量減少損失,并轉(zhuǎn)向一個(gè)更有效率,更多面的,更有伸縮性的數(shù)據(jù)平臺(tái)。一個(gè)公司的NoSQL關(guān)系型數(shù)據(jù)庫(kù)可以成為舊有的RDBMS關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)和失敗的用以處理結(jié)構(gòu)性數(shù)據(jù),文件內(nèi)容,檔案和媒體的實(shí)戰(zhàn)項(xiàng)目之間的整合點(diǎn)。這對(duì)過(guò)去長(zhǎng)期一直與錯(cuò)誤軟件作斗爭(zhēng)的不穩(wěn)定的IT行業(yè)意義重大。
第四點(diǎn)是你不了解你的數(shù)據(jù)
對(duì)于任何產(chǎn)業(yè)來(lái)說(shuō),一種進(jìn)化必然會(huì)很快的產(chǎn)生一種知識(shí)代溝:你對(duì)迎面而來(lái)的挑戰(zhàn)和解決方法的了解遠(yuǎn)遠(yuǎn)落后于那些在特定企業(yè)中呆過(guò)的人。
一些人認(rèn)為大數(shù)據(jù)產(chǎn)生了一些新的社會(huì)角色的需要。就在最近,我看到了首席數(shù)據(jù)官CDO和數(shù)據(jù)科學(xué)家的出現(xiàn)。很多人嘲笑過(guò)將專家?guī)нM(jìn)企業(yè)帶來(lái)的成本和需求,但是缺乏正確的專業(yè)知識(shí)的企業(yè)是無(wú)法理解自己的數(shù)據(jù)的,這意味著,他們也就不會(huì)知道最好的使用自身數(shù)據(jù)的方法。據(jù)高德納公司預(yù)測(cè),到2015年全球百分之二十五的大型企業(yè)都將聘請(qǐng)首席數(shù)據(jù)官CDO。
但是坦白說(shuō),你們真的不需要數(shù)據(jù)科學(xué)家,你們需要的是更好的軟件。
第五點(diǎn)是你總是貪得無(wú)厭
也許在你突襲進(jìn)入大數(shù)據(jù)領(lǐng)域中最容易避開(kāi)的錯(cuò)誤就是不要吸收太多的數(shù)據(jù)。大部分情況下,科技方面的原因?qū)е铝诉@種現(xiàn)象的出現(xiàn)。奇怪的是,從大數(shù)據(jù)的角度處理整個(gè)公司的事情基本上是不可能的,那么為什么不從最底層開(kāi)始,逐漸積累成功的經(jīng)驗(yàn)從而使項(xiàng)目一點(diǎn)一點(diǎn)發(fā)展起來(lái)呢?使用靈活的科學(xué)技術(shù),像公司中的 NoSQL關(guān)系型數(shù)據(jù)庫(kù)。迭代數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展會(huì)很快出現(xiàn),同時(shí)能夠減少重復(fù)作業(yè)和預(yù)付工程成本。
曾經(jīng)有一段時(shí)間,以能力為基礎(chǔ)的公司成功的帶著所有的可用數(shù)據(jù)快速果斷地實(shí)現(xiàn)了轉(zhuǎn)移,若要增加每一個(gè)公司的競(jìng)爭(zhēng)優(yōu)勢(shì)其壓力也是十分大的。太多企業(yè)吸收過(guò)多自身無(wú)法成功處理的數(shù)據(jù)。有一種錯(cuò)誤的觀念是,所有的大數(shù)據(jù)問(wèn)題在某種程度上都可以一起解決,就像一個(gè)需要唯一解決辦法的集成問(wèn)題一樣。帶著游戲總會(huì)結(jié)束的思想,IT管理者和主要的信息人員應(yīng)當(dāng)問(wèn)清楚自己嘗試去施加影響的商業(yè)決策到底是什么樣的,而不是一味考慮怎樣把新技術(shù)和舊有技術(shù)融為一體。能否獲得正確的答案將直接決定一切數(shù)據(jù)項(xiàng)目的成敗。
團(tuán)隊(duì)?wèi)?yīng)從小處著眼,快速的縮小比例,并能夠適應(yīng)擺在面前相關(guān)的模式和解決方法將會(huì)有利于使未來(lái)的項(xiàng)目不超出預(yù)算并按時(shí)完成,最重要的一點(diǎn)是,達(dá)到預(yù)期的結(jié)果。
無(wú)論你正在處理的是金融數(shù)據(jù),特定的保健數(shù)據(jù)和購(gòu)物分析還是出版工作和政府情報(bào),這些數(shù)據(jù)的一致性就在于他們的多變性,復(fù)雜性和多樣化以及它們不斷增加的數(shù)量和需求。要想以一種驅(qū)動(dòng)商業(yè)價(jià)值的方式來(lái)處理大量的不斷匯集的數(shù)據(jù),企業(yè)必須要明白眾多大數(shù)據(jù)項(xiàng)目失敗的原因,從而避免已經(jīng)出現(xiàn)過(guò)的錯(cuò)誤導(dǎo)致的失敗。知道不應(yīng)該做什么和知道應(yīng)該做什么同樣重要,有了這些基本的知識(shí),企業(yè)才能快速實(shí)現(xiàn)他們短期和長(zhǎng)期的各種目標(biāo)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10