
忘掉大數(shù)據(jù)—萬(wàn)物皆數(shù)據(jù),數(shù)據(jù)藏大道
為什么要忘掉大數(shù)據(jù)?
是不是大數(shù)據(jù)無(wú)用?恰恰相反,大數(shù)據(jù)太有用了,大數(shù)據(jù)無(wú)處不在,它可以跟所有的應(yīng)用結(jié)合,當(dāng)然前提是能夠采集到相匹配的數(shù)據(jù),而隨著科技的發(fā)展,采集數(shù)據(jù)的范圍越來(lái)越大、存儲(chǔ)技術(shù)越來(lái)越先進(jìn)、計(jì)算能力越來(lái)越強(qiáng)、算法越來(lái)越智能,越來(lái)越多的問(wèn)題能夠用數(shù)據(jù)技術(shù)來(lái)解決。那我為什么還是要忘掉它?理由有二:其一,數(shù)據(jù)的關(guān)鍵不在于“數(shù)據(jù)”本身,而是它表征的事實(shí),我們必須回歸到數(shù)據(jù)產(chǎn)生的場(chǎng)景中去理解數(shù)據(jù),也必須從場(chǎng)景出發(fā)去應(yīng)用數(shù)據(jù),單純的大數(shù)據(jù)毫無(wú)意義,想成為一個(gè)大數(shù)據(jù)專家,得先成為某一個(gè)應(yīng)用領(lǐng)域的專家;其二,這是個(gè)人對(duì)大數(shù)據(jù)發(fā)展的終極夢(mèng)想,因?yàn)閿?shù)據(jù),我們的生活更加自然,最終再也覺(jué)察不到大數(shù)據(jù)的存在,那才是真正的大數(shù)據(jù)時(shí)代!
回想上古時(shí)代,人類對(duì)這個(gè)世界一無(wú)所知或者知之甚少,因?yàn)闊o(wú)知,也就無(wú)爭(zhēng),所以“老死不相往來(lái)”,社會(huì)是一種“自然”的穩(wěn)態(tài),后來(lái),部分人掌握了更多的數(shù)據(jù),開(kāi)始爭(zhēng)奪利益,道德崩塌,社會(huì)變遷,只有大數(shù)據(jù)發(fā)展到人人都能平等的獲取同樣多的數(shù)據(jù),社會(huì)才會(huì)進(jìn)入一種新的“自然”的穩(wěn)態(tài)。道家洞悉了天機(jī),為“自然”的秩序,無(wú)為,也無(wú)所不為!
扯遠(yuǎn)了…….接下來(lái)談?wù)勎覍?duì)數(shù)據(jù)的理解。
一、數(shù)據(jù)=Know,數(shù)據(jù)一直存在
1、數(shù)據(jù)是人類對(duì)世界的觀測(cè): 數(shù)據(jù)是個(gè)什么樣的東東?我是這么看的,我把世界分為如下這些元素:a、道,主宰世界的運(yùn)行; b、公理/定理、規(guī)律 ;c、場(chǎng)景,包括政治人文地理氣候等;d、參與者,包括人和萬(wàn)物,大到天體,小到粒子;于是所有的事情都可以抽象成這樣,在a和b的作用下,c和d相互影響在時(shí)空中運(yùn)行,而這時(shí)候出現(xiàn)了一個(gè)旁觀者,把它觀測(cè)到的這一切記錄下來(lái),就形成了我們所說(shuō)的數(shù)據(jù)。
數(shù)據(jù)體現(xiàn)了人類的意志:數(shù)據(jù)的來(lái)源只有兩種,要么人類通過(guò)手工記錄,要么通過(guò)科技手段按照人類設(shè)想記錄下來(lái),記錄者對(duì)事物的理解、采取的采集手段決定了數(shù)據(jù)長(zhǎng)啥樣!所以看到數(shù)據(jù),要追溯回記錄者當(dāng)時(shí)怎么想怎么記的,才可能真正搞懂?dāng)?shù)據(jù)。
數(shù)據(jù)并不客觀,它是有角度的:正因?yàn)閿?shù)據(jù)體現(xiàn)了人類的意志,而人類只能選取某些角度去觀測(cè)世界,因而記錄下來(lái)的數(shù)據(jù)是有角度的,它離客觀事實(shí)有很大的距離。譬如《史記》就體現(xiàn)了司馬遷的偏好,項(xiàng)羽不是帝王,卻列入本紀(jì)之中,可見(jiàn)其對(duì)于項(xiàng)羽的推崇心理。
數(shù)據(jù)表征事實(shí),但數(shù)據(jù)只是事實(shí)的采樣:事物的細(xì)節(jié)很多,人類只能對(duì)局部的點(diǎn)進(jìn)行記錄(空間抽樣),也不可能連續(xù)記錄(時(shí)間抽樣)。譬如你記錄了時(shí)間、地點(diǎn)、人物、事件,但還有人物心理、周邊環(huán)境、星際運(yùn)行、甚至粒子級(jí)別的運(yùn)動(dòng),人類觀測(cè)不過(guò)來(lái),也記錄不過(guò)來(lái),很多東西無(wú)法表征,更存儲(chǔ)不下來(lái)所有。
數(shù)據(jù)不僅失真,還可能錯(cuò)漏:眼里見(jiàn)到的不一定就是真實(shí),最終記錄下來(lái)的也不一定是眼里見(jiàn)到的,還有技術(shù)的誤差……
真正的“數(shù)據(jù)”是世界發(fā)生的這一切,這個(gè)“數(shù)據(jù)”無(wú)窮大,一直存在:相比之下,人類的采集及表征存儲(chǔ)技術(shù)實(shí)在是太渺小了!不少專家驚呼大數(shù)據(jù)時(shí)代來(lái)了,我們可以不用抽樣能夠全數(shù)據(jù)處理了,真實(shí)情況是,人類永遠(yuǎn)沒(méi)有全數(shù)據(jù),我們對(duì)這個(gè)世界“Know”得太少啊,真正的大數(shù)據(jù)時(shí)代還早得很!
(注:在我的概念,數(shù)據(jù)有廣義狹義之分,廣義的“數(shù)據(jù)”就是世界發(fā)生的這一切,狹義的數(shù)據(jù)是指人類記錄下來(lái)的)
順便也說(shuō)一下,強(qiáng)人工智能時(shí)代還遠(yuǎn)著呢,且不談意識(shí)那些深層次的話題,也不探究存儲(chǔ)及表征技術(shù)的落后,三個(gè)理由,其一,AI在采集數(shù)據(jù)方面是預(yù)設(shè)角度的,而人類對(duì)一個(gè)事物觀測(cè)角度有無(wú)窮想象空間,你自己都無(wú)法預(yù)知你會(huì)留意哪些方面,其二,模型方面,AI的學(xué)習(xí)方向也是預(yù)設(shè)的,人類大腦的聯(lián)想關(guān)聯(lián)能力、快速歸納能力AI無(wú)法做到,譬如嬰兒第一次見(jiàn)到圍巾,你教它把它掛到脖子上,下次它見(jiàn)到長(zhǎng)的東西如皮帶,它也會(huì)創(chuàng)造性的往脖子上掛,沒(méi)人教過(guò)它圍巾與皮帶的關(guān)聯(lián)關(guān)系!我舉的這個(gè)例子不一定恰當(dāng),相信寶爸寶媽能舉出更多更好的例子(歡迎投稿供引用)。其三,解讀數(shù)據(jù)及數(shù)據(jù)影響行動(dòng)的能力,AI還太弱。
2、“數(shù)據(jù)”是物質(zhì)與意識(shí)之間的連接
人類對(duì)世界的認(rèn)知就是體現(xiàn)在對(duì)“數(shù)據(jù)”的掌握,物質(zhì)通過(guò)“數(shù)據(jù)”傳遞給意識(shí),意識(shí)接收“數(shù)據(jù)”感知物質(zhì)。沒(méi)有“數(shù)據(jù)”,物質(zhì)與意識(shí)就會(huì)中斷。脫離了肌殼,不知道靈魂還能不能接收“數(shù)據(jù)”,如果不能,那就跟物質(zhì)中斷了,這種狀態(tài)跟創(chuàng)世元靈忍受過(guò)的難以想象的孤寂差不多。
3、數(shù)據(jù)=Know
查英語(yǔ)詞典,“know”有知道、了解、懂三層含義,這三層漸進(jìn)的解釋和大數(shù)據(jù)實(shí)在是太吻合了,單一的數(shù)據(jù)能幫人們淺層次的“知道”一些事實(shí),多維度的數(shù)據(jù)讓我們進(jìn)一步的“了解”事實(shí),而對(duì)數(shù)據(jù)的綜合提煉、深度洞察才能稱之為“懂”,“懂”事物的規(guī)律、發(fā)展方向!所有的數(shù)據(jù)都是幫助我們Know,譬如運(yùn)營(yíng)報(bào)表是幫助我們“know”過(guò)去的運(yùn)營(yíng)情況、監(jiān)控預(yù)警是幫助我們“Know”當(dāng)下正在發(fā)生什么異常的事情、目標(biāo)客戶數(shù)據(jù)是幫助我們“Know”客戶未來(lái)會(huì)有什么樣的購(gòu)買需求;而大數(shù)據(jù)挖掘就是利用我們已經(jīng)“Know”的事實(shí)數(shù)據(jù)去推測(cè)我們想“Know”的東西。
二、數(shù)據(jù)的方法一直在使用
人類一直在有意無(wú)意的采用數(shù)據(jù)方法來(lái)思考,幾乎所有的領(lǐng)域都有數(shù)據(jù)的影子。譬如讀心術(shù),不就是通過(guò)分析身體語(yǔ)言、微觀動(dòng)作、面部動(dòng)作、空間行為、觸覺(jué)等非語(yǔ)言行為數(shù)據(jù)再結(jié)合社會(huì)習(xí)俗、文化背景、民族習(xí)慣、現(xiàn)場(chǎng)氣氛、對(duì)象資料等背景信息來(lái)推測(cè)對(duì)象的心理么?最近“別對(duì)我撒謊”就是試圖利用圖像數(shù)據(jù)來(lái)分析心理,當(dāng)然智能程度還很低;而偵探就是通過(guò)收集現(xiàn)場(chǎng)等數(shù)據(jù)試圖還原真相;所謂聞香識(shí)女人、知己知己百戰(zhàn)不殆、分久必合合久必分等都是對(duì)數(shù)據(jù)的收集和運(yùn)用;占卜算卦就更神奇了,利用道具來(lái)產(chǎn)生數(shù)據(jù)(當(dāng)然,不知道是否還采集了空氣中一些神秘的數(shù)據(jù))然后推測(cè)人的命運(yùn)……
但是,現(xiàn)行的數(shù)據(jù)技術(shù)并不能解決所有的問(wèn)題,因?yàn)楹芏鄶?shù)據(jù)還沒(méi)辦法收集存儲(chǔ),隨著采集技術(shù)的發(fā)展,未來(lái),一切皆可測(cè)量,一切皆可數(shù)據(jù)化,所有領(lǐng)域的專家,都將是數(shù)據(jù)科學(xué)家。 未來(lái),請(qǐng)忘掉大數(shù)據(jù),不要問(wèn)大數(shù)據(jù)能做什么,而是幾乎所有的領(lǐng)域都必須應(yīng)用數(shù)據(jù)技術(shù)。大數(shù)據(jù)無(wú)處不在,也就是不存在。
三、所謂的模型、算法,都是為了讓數(shù)據(jù)產(chǎn)生新的數(shù)據(jù),Know->行動(dòng)
前面也說(shuō)了,數(shù)據(jù)挖掘,就是利用已掌握的數(shù)據(jù)推測(cè)未知,推測(cè)的結(jié)果就是一個(gè)新的數(shù)據(jù),譬如你沒(méi)有用戶的性別數(shù)據(jù),只能通過(guò)用戶的瀏覽習(xí)慣、瀏覽網(wǎng)頁(yè)分類來(lái)推測(cè)它的性別,這個(gè)性別對(duì)于你就是一個(gè)新的數(shù)據(jù)。
不能影響行動(dòng)的數(shù)據(jù)都是沒(méi)有意義的,換句話說(shuō),數(shù)據(jù)必須與商業(yè)(應(yīng)用)相結(jié)合。千辛萬(wàn)苦整出一個(gè)數(shù)據(jù),沒(méi)有相應(yīng)的應(yīng)用流程來(lái)承接,那就徒勞無(wú)功。
四、經(jīng)驗(yàn)也是大數(shù)據(jù)
大數(shù)據(jù)出現(xiàn)之后,人們對(duì)數(shù)據(jù)驅(qū)動(dòng)津津樂(lè)道,什么數(shù)據(jù)驅(qū)動(dòng)營(yíng)銷、數(shù)據(jù)驅(qū)動(dòng)管理、數(shù)據(jù)驅(qū)動(dòng)運(yùn)營(yíng)………如果憑經(jīng)驗(yàn)做事情,似乎就被一棍子打死。但是,數(shù)據(jù)看起來(lái)很多,實(shí)際上很少(前面說(shuō)的抽樣、失真……),它并不總能解決問(wèn)題,如果掌握的數(shù)據(jù)與目標(biāo)相去甚遠(yuǎn),無(wú)論算法多么的牛叉,都得不到一個(gè)與目標(biāo)匹配的數(shù)據(jù)結(jié)果。
而人類的經(jīng)驗(yàn)是基于多年接收的大數(shù)據(jù)運(yùn)用大腦提煉的結(jié)果,除了五官,人類身體的每一寸肌膚都在接收并處理大數(shù)據(jù),人類的大腦比計(jì)算機(jī)模型強(qiáng)得不知道哪里去了,匹配度高的經(jīng)驗(yàn)效果遠(yuǎn)遠(yuǎn)好于一般的數(shù)據(jù)結(jié)果。
所以,別瞧不起經(jīng)驗(yàn),很多情況下,數(shù)據(jù)無(wú)能為力!
結(jié)語(yǔ)
數(shù)據(jù)沒(méi)想象那么強(qiáng)大,但未來(lái)數(shù)據(jù)無(wú)處不在,最后,人類一定會(huì)忘掉大數(shù)據(jù)!
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10