
大數(shù)據(jù)的三個思維變換_數(shù)據(jù)分析師
維克托·爾耶·舍恩伯格在《大數(shù)據(jù)時代:生活、工作與思維的大變革》中最具洞見之處在于,他明確指出,大數(shù)據(jù)時代最大的轉(zhuǎn)變就是,放棄對因果關(guān)系的渴求,而取而代之關(guān)注相關(guān)關(guān)系。也就是說只要知道“是什么”,而不需要知道“為什么”。這顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰(zhàn)。
知名IT研究機構(gòu)Gartner以它對專業(yè)IT市場的“魔力象限圖”發(fā)布作為一種評價方式,在其二維矩陣里,橫軸是前瞻的完整性,縱軸是執(zhí)行力,如果用此分析方法來評價《大數(shù)據(jù)時代》這本書,它大概位于右下角靠近縱軸中間點的位置。
2012年,筆者看過的3本有關(guān)大數(shù)據(jù)的中文書,它們分別是《證析》、《大數(shù)據(jù)》和維克托·邁爾·舍恩伯格的《大數(shù)據(jù)時代》。與其他兩本相比,舍恩伯格這本書的特點重在“Impact Analysis”的前瞻分析,在大數(shù)據(jù)時代的思維變遷方面有啟發(fā)價值。也說是說,此書對于企業(yè)高管和CIO的價值更大,它基本沒有太多討論技術(shù),而偏重于觀念轉(zhuǎn)移(Paradigm Shift)。www.yunmar.com.cn
簡單說來,這本書的價值可以用兩個“三”、一個“一”來概括:第1個“三”是3個關(guān)于大數(shù)據(jù)的思維變換,重在大數(shù)據(jù)變革時代的價值與觀念變化;第2個 “三”是關(guān)于大數(shù)據(jù)影響商業(yè)變革的3個要素:即數(shù)據(jù)、技術(shù)與創(chuàng)新思維之間的互動;一個“一”是關(guān)于大數(shù)據(jù)泛化下的治理與隱私。
關(guān)于大數(shù)據(jù)本身的價值已無需贅述,此處重點討論關(guān)于大數(shù)據(jù)的3個思維變化:1.不是隨機樣本,而是全體數(shù)據(jù);2.不是精確性,而是混雜性,尤其是大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復雜算法有效;3.不是因果關(guān)系,而是相互關(guān)系。
《大數(shù)據(jù)時代》一書提醒讀者,大數(shù)據(jù)是全數(shù)據(jù),至少維度要全,這帶來了觀察和分析事物的角度變化,尤其相對于傳統(tǒng)IT系統(tǒng)數(shù)據(jù),大數(shù)據(jù)強調(diào)了數(shù)據(jù)的外部性和實時性,這兩個特性也使得“證析”提到的基于事實(Evidence)的分析成為可能,不過此書忽略了外部數(shù)據(jù)與企業(yè)內(nèi)部數(shù)據(jù)結(jié)合的分析價值。比如,對于政府來說,分析大范圍的公共衛(wèi)生事件、傳染病可以更快地利用大數(shù)據(jù)(比如微博)發(fā)現(xiàn)目前的情況,但具體要調(diào)度資源,還是需要結(jié)合“小數(shù)據(jù)”的精確決策。
第2點的核心觀念關(guān)于大數(shù)據(jù)的簡單算法來自谷歌的洞見,也來自于Hadoop(一個分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會開發(fā))這類算法的核心理念。大數(shù)據(jù)的簡單算法是一種統(tǒng)計學的邏輯,這個如同熱力學的分析模式,熱力學并不關(guān)心具體的分子運動,而是關(guān)心溫度、體積、壓強之間的宏觀聯(lián)系,關(guān)于這種理念的內(nèi)在理解,建議讀者從吳軍的《數(shù)學之美》一書中獲得,只有真正理解了大數(shù)據(jù)基于統(tǒng)計學的思維方式,才能理解它的獨特優(yōu)勢和局限。這種方式可以解決以往技術(shù)無法解決的大范圍、實時性和并行處理等問題,并帶來新的洞見,它用概率說話,并不是和人就細節(jié)較真。這個來自互聯(lián)網(wǎng)公司的觀念是,希望先解決80%的趨勢問題,然后慢慢精細化。
第3點,大數(shù)據(jù)關(guān)注“是什么”,而不是“為什么”,經(jīng)常網(wǎng)購的人會更容易體會。很多電商網(wǎng)站的推薦引擎具備這種能力,它能夠在顧客買書的時候,推薦顧客剛好喜歡的其他書籍,顧客可能不知道“為什么”,其實網(wǎng)站也不在乎“為什么”,(“為什么”可以由學術(shù)專家慢慢分析)。但是網(wǎng)站根據(jù)成千上萬甚至上億人的統(tǒng)計學分析,就可以發(fā)現(xiàn)“關(guān)聯(lián)物”,或者說大數(shù)據(jù)更擅長通過統(tǒng)計分析人類所不能感知的關(guān)聯(lián),并建議人采取行動。這個革命式的思維非同小可,以前“啤酒+尿布”的數(shù)據(jù)倉庫故事需要數(shù)據(jù)整理、清洗轉(zhuǎn)換和專家建模挖掘,其采購行為的關(guān)聯(lián)性可能被Hadoop等算法輕易的發(fā)現(xiàn)。上述方式由于分析門檻低,已經(jīng)成為一種常見的工具,并衍生大數(shù)據(jù)的云服務的商業(yè)模式,成為企業(yè)可以購買的“分析即服務”(Analytics as a Services),國內(nèi)阿里系正致力于這種模式的建立。
第2部分關(guān)于大數(shù)據(jù)商業(yè)模式方面,最有價值的是關(guān)于大數(shù)據(jù)商業(yè)生態(tài)的分析,除了大家熟知的數(shù)據(jù)、技術(shù),作者認為還有第3種基于思維的大數(shù)據(jù)公司,包括數(shù)據(jù)中間商等等,這對于國內(nèi)過于關(guān)注技術(shù)本身的趨勢是個很好的提醒。一個有趣的話題是,作者認為基于統(tǒng)計的數(shù)據(jù)科學家會逐步取代行業(yè)專家,因為大數(shù)據(jù)發(fā)現(xiàn)的新的真實聯(lián)系,可能會顛覆傳統(tǒng)行業(yè)專家,這個話題學術(shù)界可能很感興趣。一個耐人尋味的例子是,基于大數(shù)據(jù)統(tǒng)計分析的自然語言翻譯幾年前就勝過了基于語義理解的語言學家派別,書中提到的一個從事語言翻譯的算法小組甚至開玩笑地說,“每次我們組走了一個語言專家,我們的翻譯精確度就提高一些”。
第3部分是關(guān)于大數(shù)據(jù)成為喬治·奧威爾《一九八四》里的“老大哥”,即通過技術(shù)手段實現(xiàn)了無處不在的監(jiān)控以后,隱私和濫用的問題最為讓人擔心。筆者認為這個話題過于公共,而且已有很多文章在討論,并不是本書的特質(zhì),況且大數(shù)據(jù)的興起是一個漸進的過程,各個行業(yè)的實用案例尚在興起,行業(yè)內(nèi)部應專注于行業(yè)創(chuàng)新,關(guān)于公共的話題的討論還是留給學者、政府和未來。
西方作者有一類是理念的鼓吹者,最著名是《失控》的作者KK(凱文·凱利),此類被讀者推崇為傳教士的作者,喜歡推廣顛覆式的觀念,產(chǎn)生一種前世今生(Before/After)比較的震撼力。本書作者也是如此,如此顛覆,強力的大數(shù)據(jù)時代似乎正在到來,然而,此類作者也會被人指責為“管殺不管埋” ——提出理念,不對具體的可行性負責?;氐角拔奶岬降腉artner的“魔力象限圖”,漸進的執(zhí)行力才是大數(shù)據(jù)這種趨勢逐步在各個行業(yè)開花的關(guān)鍵。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03