
大數(shù)據(jù)時代,在你我身“邊”_數(shù)據(jù)分析師
在信息爆炸的大數(shù)據(jù)時代,要在紛繁雜亂的數(shù)據(jù)中理出有用信息的難度就像要重新拼起一張撕碎了的世界地圖一樣困難,而本書就如同地圖背面的人像,告訴你如何認識大數(shù)據(jù),并快速地拼回另一面的世界地圖。
《大數(shù)據(jù)時代》由維克托·邁爾-舍恩伯格與肯尼斯·庫克耶合著,前者被譽為“大數(shù)據(jù)時代的預言家”,是最早洞見大數(shù)據(jù)時代發(fā)展趨勢的數(shù)據(jù)科學家之一,他不僅是眾多世界知名企業(yè)信賴的信息權威與顧問,也是眾多機構和國家政府高層的信息政策智囊;后者是《經(jīng)濟學人》數(shù)據(jù)編輯,也是CNN、BBC和NPR的定期商業(yè)和技術評論員之一。
早前火熱的“云計算”、“物流網(wǎng)”只是露出來的冰山,而在冰面下就是以TB(240)、PB(250)、EB(260)乃至ZB(270)為計算量級的大數(shù)據(jù)。本書認為大數(shù)據(jù)是人們在大規(guī)模數(shù)據(jù)的基礎上可以做到的事情,是在信息技術高度發(fā)達后,基于新工具下新的解決問題思路,而這些事情在小規(guī)模數(shù)據(jù)的基礎上是無法完成的。大數(shù)據(jù)時代對我們的生活,以及與世界交流的方式都提出了挑戰(zhàn)——推翻了向來我們做決定和理解現(xiàn)實的因果關系,轉(zhuǎn)移到相關關系,即只需要知道是什么,而不需要知道為什么。
說到大數(shù)據(jù),必須先了解之前的“小數(shù)據(jù)”時代。鑒于工具及方法的局限,之前只有教會或者政府才能做到大規(guī)模的數(shù)據(jù)采集并進行分析,但成本頗高并且時效性差。為解決問題,統(tǒng)計學家們發(fā)揮出作用,提出以隨機采樣的方式來替代全數(shù)據(jù)采集,不過其成功取決于樣本選擇的隨機性,但實際上非常難以實現(xiàn),一旦采樣過程存在任何偏見,分析結(jié)果就會相去甚遠。來到大數(shù)據(jù)時代,由于有了足夠的數(shù)據(jù)處理和存儲能力,加上最先進的分析技術,就能做到放棄樣本分析這條捷徑,選擇收集全面而完整的數(shù)據(jù),即采取全數(shù)據(jù)模式“樣本=總體”。更多的數(shù)據(jù)帶來了更雜的聲音,但大數(shù)據(jù)允許不精確,并認為“執(zhí)迷于精確性是信息缺乏時代和模擬時代的產(chǎn)物,只有接受不精確,才能打開一扇從未涉足的世界的窗戶”。
大數(shù)據(jù)將引起思維的變革,并在思維變革的帶動下,將產(chǎn)生新的商業(yè)變革,“量化一切”成為數(shù)據(jù)化的核心:不僅可以將文字變成數(shù)據(jù),地理方位乃至情緒都可以數(shù)據(jù)化了,這便成了全新的視角——將世界看作信息,看作可以理解的數(shù)據(jù)的海洋,如何利用海量數(shù)據(jù)就成為新的商業(yè)競爭領域。數(shù)據(jù)創(chuàng)新的“六脈神劍”——數(shù)據(jù)的再利用、重組、擴展、折舊、廢氣和開放帶來全新的商業(yè)模式,如何給數(shù)據(jù)估值將可能改變目前現(xiàn)有的會計準則。在大數(shù)據(jù)時代,價值鏈上的3大構成公司將把握住未來的進入門檻,傳統(tǒng)公司如何在其中分杯羹將面臨巨大挑戰(zhàn)。
大數(shù)據(jù)帶來不僅是各種便利及機會,同樣也會讓我們時刻都暴露在“第三只眼”之下:亞馬遜監(jiān)視我們的購物習慣,谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習慣,而微博竊取著我們的社交關系網(wǎng)。為此,作者提出從4個方面對大數(shù)據(jù)時代進行管理變革:一是個人隱私的保護,從個人許可到讓數(shù)據(jù)使用者承擔責任;二是個人可以并應該為他們的行為而非傾向負責;三是培養(yǎng)專業(yè)的數(shù)據(jù)算法師群體以監(jiān)察相關公司來維護公眾信任;四是就像反對其他商業(yè)壟斷一樣反對數(shù)據(jù)壟斷大亨。
書中豐富翔實的案例則是另一個看點。引言說到谷歌公司在2009年比美國國家疾控中心更早知道甲型H1N1流感的爆發(fā)時間、地域就抓住了讀者的好奇心;蘋果之父喬布斯是全球第一個擁有自身整個基因密碼的人;美國Target百貨公司在完全不和顧客溝通的情況下比女兒的父親更早知道女兒懷孕的信息;印象最讓我深刻的是,ReCaptcha項目在利用人們上網(wǎng)常遇到輸入驗證碼的機會,將需要掃描文件中有待人工辨識和解釋的模糊單詞發(fā)給輸入者輸入確認,后來谷歌收購了該項目公司后用于其圖書掃描項目,每年節(jié)省的人工費用就超過10億美元。
盡管我在電腦打字時早已經(jīng)悄悄地被“入侵”,卻只有此時我才知道,我現(xiàn)在打出的每一個字后面,都藏著一雙無形的數(shù)據(jù)抓取之手,它猜測并給出選擇我還未打完拼音的下一個字——這就是大數(shù)據(jù)時代,就在你我身邊。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構數(shù)據(jù)價值的核心操盤手 表格結(jié)構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11