
別被忽悠了,6個(gè)問題揭露誰是大數(shù)據(jù)偽磚家
我最近讀了一些“大數(shù)據(jù)”方面的文章,發(fā)現(xiàn)了這個(gè)最新的科技泡沫中迷惑但是完全可預(yù)測的趨勢。由于大數(shù)據(jù)很熱門、時(shí)髦、并且性感,表面上看很有趣。每個(gè)人都加入進(jìn)來,躍躍欲試,好像他們是專家一樣。如果這讓你開始覺得像是知識分子在Facebook上關(guān)于國際政治的演講一樣,這絕非意外。在大數(shù)據(jù)的討論中摻雜的專業(yè)知識和經(jīng)驗(yàn),與Facebook上關(guān)于政治的空話一樣。
我想我可能會幫你判斷自己的大數(shù)據(jù)專家到底是不是真正的專家。看看下面的這些言論對你來講是不是很熟悉呢。
1.他們談?wù)摰亩际恰贝蟆昂汀睌?shù)據(jù)“,而不是 “新問題”
看上去好像整個(gè)科技行業(yè)都沉浸在 “大數(shù)據(jù)”之中。所有人都在討論它,剛剛成立的公司如雨后春筍般出現(xiàn),LinkedIn上99.9%的簡歷都包括”數(shù)據(jù)科學(xué)家“這個(gè)詞語,然而人們并不清楚這個(gè)詞語真正的意義是什么。
確實(shí),大多數(shù)的公司在并沒有太大的商業(yè)價(jià)值的硬件和軟件上投入了大量的錢。這并不奇怪?!贝髷?shù)據(jù)“對于發(fā)生在我們身邊的變革來講是個(gè)糟糕的名字。這與”大“無關(guān),與”數(shù)據(jù)“也無關(guān),而是與新問題有關(guān),接觸海量的數(shù)據(jù)的方便性更促使了新問題的產(chǎn)生。去年我聽過Klout網(wǎng)站(一個(gè)評價(jià)影響力的網(wǎng)站)的技術(shù)主任做的一個(gè)報(bào)告。他提到,他們的數(shù)據(jù)庫有1.3萬億行的數(shù)據(jù),就像是他們那里有那么多人一樣;也智能如此吧。
如果你現(xiàn)在問的問題還是以前-----有沒有更多的數(shù)據(jù)這種老問題,那并不是在做“大數(shù)據(jù)”,而是在做”大的商務(wù)智能”,這個(gè)詞語本身就是矛盾。
2.他們談?wù)摰氖羌夹g(shù),而非商業(yè)
有一天有個(gè)人問我,“Hadoop 對數(shù)據(jù)歸檔有什么影響”。 Hadoop是一種工具,大數(shù)據(jù)是一個(gè)商業(yè)現(xiàn)象。很多人認(rèn)為Hadoop是一種解決方法,大數(shù)據(jù)僅僅是在檔案中蹲坐著的數(shù)據(jù)。錯(cuò)誤的信息和銷售宣傳使人們迷失其中。
很容易這些人就陷入了速度和容量、特性與功能的討論中。這項(xiàng)技術(shù)是由工程驅(qū)動的,沒有什么比填的滿滿的的規(guī)格表更能引起我們這些工程師興奮了。如果你是一個(gè)謹(jǐn)慎的CFO;世界上沒有比一個(gè)招人嫉妒的軟件架構(gòu)師更昂貴的了。
很多企業(yè)現(xiàn)在問了在大數(shù)據(jù)中投入了這么多的資金,也要問了,“價(jià)值在哪兒?”好吧,如果你不將自己的項(xiàng)目聚焦到對商業(yè)問題的理解和解決上,那么你的項(xiàng)目所研究的出來的結(jié)果不大有可能是解決商業(yè)問題的方案。
你可能會建成世界上最大的云服務(wù)商,但是除了留給自己一點(diǎn)自夸的東西,誰又關(guān)心這個(gè)呢?從一個(gè)商業(yè)問題開始,弄清楚怎樣將問題數(shù)據(jù)化,然后利用科技找到解決方法。
3.他們關(guān)心大數(shù)據(jù)更內(nèi)在的東西,而不是行動
我合作過的很多機(jī)構(gòu)將數(shù)據(jù)分析作為結(jié)果,完全忽視了大數(shù)據(jù)的重點(diǎn):行動。你可以構(gòu)造出世界上最大的云結(jié)構(gòu),將其填滿最干凈的數(shù)據(jù),用最好的數(shù)學(xué)模型模擬,產(chǎn)生令人驚奇的見解。如果這些工作做完了之后,你還沒有改變公司的行為方式,你的產(chǎn)品和服務(wù)可以幫助你的顧客做些什么呢,或者你是怎樣關(guān)懷周圍的世界的呢。終歸到底,你會徹底失敗。
大數(shù)據(jù)不能僅僅是新的見解,它必須是新的行動和新的結(jié)果。我并不是LHC的癡迷者,這個(gè)人類歷史上最大的科學(xué)實(shí)驗(yàn),最近確認(rèn)了上帝粒子(Higgs粒子)的存在。然而,如果Higgs的知識沒有賦予這個(gè)粒子一些意義,我們都將繼續(xù)質(zhì)疑在LHC上花費(fèi)的數(shù)十億美金是否值得。
洞察力很重要,但是行動才是養(yǎng)家掙錢的來源。如果你的“大數(shù)據(jù)專家”在提出新見解的路上樂此不疲,而不是想法設(shè)法創(chuàng)造新的商業(yè)成效。那你是在經(jīng)營一個(gè)科學(xué)實(shí)驗(yàn)了。
4.他們討論的是結(jié)論,而非聯(lián)系
如果你已經(jīng)從花費(fèi)在大數(shù)據(jù)的努力中得到分析性結(jié)果了,你的“大數(shù)據(jù)科學(xué)家”在談?wù)摰氖恰敖Y(jié)論”,這一波的大數(shù)據(jù)專家很多并不理解聯(lián)系和誘因之間的細(xì)微差別。兩者看上去是一樣的,然而涉及到行動時(shí),這區(qū)別可大了去了。聯(lián)系意味著在各事物之間有著存在著表面上的關(guān)系,預(yù)示著某個(gè)特定的輸入也許會引起某些特定的結(jié)果。但是,在“聯(lián)系”中不存在確定性。誘因就不一樣了
只要記住,近似永遠(yuǎn)都是近似。
這對喜歡絕對的商業(yè)人士來說是當(dāng)頭棒喝;至少他們想要看上去是絕對的過程。好吧,在分析學(xué)中沒有這樣的事情。你的數(shù)據(jù)可能代表著一堆事實(shí),但是分析學(xué)和統(tǒng)計(jì)學(xué)就如同劇院一樣。你看到的不一定總是你得到的。確實(shí),許多“數(shù)據(jù)學(xué)家”更傾向于是“數(shù)據(jù)操作工”。為支持某個(gè)議會給出政策上可接受的結(jié)果。
聯(lián)系不能成為誘因。任何告訴你找到誘因的大數(shù)據(jù)專家應(yīng)該被馬上質(zhì)疑直到其他方面證明他沒有騙人。
5.他們討論的是數(shù)據(jù)質(zhì)量,而不是數(shù)據(jù)有效性
我看到花費(fèi)在數(shù)據(jù)質(zhì)量問題上的筆墨越來越多。你在用好的數(shù)據(jù)嗎?你怎么知道,你怎樣凈化數(shù)據(jù)的呢?這些都是在數(shù)據(jù)庫和業(yè)務(wù)智能聯(lián)合論壇上的問題。數(shù)據(jù)質(zhì)量是一個(gè)問題,在那么多的垃圾流進(jìn)流出后。但是關(guān)注凈化數(shù)據(jù)只是數(shù)據(jù)庫的思維模式中的一部分。除此之外,還有一個(gè)價(jià)值數(shù)百億美金的行業(yè)。他們關(guān)注提取-轉(zhuǎn)化-上傳這個(gè)整體,有這種思維模式的商人掙扎在將數(shù)據(jù)與現(xiàn)實(shí)世界聯(lián)系起來的路上。
盡管數(shù)據(jù)質(zhì)量重要,大數(shù)據(jù)有效性更重要;我究竟有沒有回答我所提出的問題的有效數(shù)據(jù)呢?通常,答案會是“沒有”。除非你問的是一個(gè)你們公司已經(jīng)問了好幾十年的老問題,這樣的話,又何必問呢?
如果你問的是新數(shù)據(jù)的新問題,你怎樣直到那些數(shù)據(jù)是好的,哪些又是壞的呢?你又將哪些數(shù)據(jù)定義為“干凈”的,哪些又是“臟”的呢?直到你開始研究這些由新的分析產(chǎn)生的新結(jié)果,進(jìn)而才能發(fā)現(xiàn)這些結(jié)果是好的還是壞的,你怎么可能在輸入數(shù)據(jù)的時(shí)候定義哪些是干凈的,哪些是臟的?
再一次,這是老套的跳出數(shù)據(jù)庫/業(yè)務(wù)智能行業(yè)思維的方式,而且與新開發(fā)出來的大數(shù)據(jù)的領(lǐng)域不合適。許多分析都需要有效的數(shù)據(jù),但是在判斷數(shù)據(jù)是否有效前就問這數(shù)據(jù)是不是干凈的是無論怎樣都沒有意義的。
6.他們聽上去跟其他討論大數(shù)據(jù)的人說的一樣
我們被埋沒在大數(shù)據(jù)的噪聲中。確實(shí),是需要一些人來研究大數(shù)據(jù)的真正意義。更多的,我聽到的是同一個(gè)課題被一再的重復(fù);只是被誤解、被引錯(cuò),要不就是在推動產(chǎn)品或服務(wù)的名義下變態(tài)發(fā)展。
這令人感到羞恥,因?yàn)?/span>大數(shù)據(jù)的背后是社會行為,而且將會一直這樣。如果你的大數(shù)據(jù)專家不談?wù)撨@些數(shù)據(jù)背后的社會,行為模式,政治和經(jīng)濟(jì)的話,那你就錯(cuò)失良機(jī)了。這個(gè)技術(shù)很有趣,但是也只是一個(gè)找到更有意義的結(jié)論的方法。
生火這一技術(shù)的由來在過去的一百萬年間都很有趣,但是黑夜的結(jié)束,冬季的溫暖以及燉出來的第一罐湯才是真正改變了一切東西!
如果你的“大數(shù)據(jù)專家”不能明白這個(gè),那他們永遠(yuǎn)也不能明白了,你也是。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11