
忘掉大數(shù)據(jù)—萬物皆數(shù)據(jù),數(shù)據(jù)藏大道
為什么要忘掉大數(shù)據(jù)?
是不是大數(shù)據(jù)無用?恰恰相反,大數(shù)據(jù)太有用了,大數(shù)據(jù)無處不在,它可以跟所有的應(yīng)用結(jié)合,當(dāng)然前提是能夠采集到相匹配的數(shù)據(jù),而隨著科技的發(fā)展,采集數(shù)據(jù)的范圍越來越大、存儲技術(shù)越來越先進(jìn)、計算能力越來越強、算法越來越智能,越來越多的問題能夠用數(shù)據(jù)技術(shù)來解決。那我為什么還是要忘掉它?理由有二:其一,數(shù)據(jù)的關(guān)鍵不在于“數(shù)據(jù)”本身,而是它表征的事實,我們必須回歸到數(shù)據(jù)產(chǎn)生的場景中去理解數(shù)據(jù),也必須從場景出發(fā)去應(yīng)用數(shù)據(jù),單純的大數(shù)據(jù)毫無意義,想成為一個大數(shù)據(jù)專家,得先成為某一個應(yīng)用領(lǐng)域的專家;其二,這是個人對大數(shù)據(jù)發(fā)展的終極夢想,因為數(shù)據(jù),我們的生活更加自然,最終再也覺察不到大數(shù)據(jù)的存在,那才是真正的大數(shù)據(jù)時代!
回想上古時代,人類對這個世界一無所知或者知之甚少,因為無知,也就無爭,所以“老死不相往來”,社會是一種“自然”的穩(wěn)態(tài),后來,部分人掌握了更多的數(shù)據(jù),開始爭奪利益,道德崩塌,社會變遷,只有大數(shù)據(jù)發(fā)展到人人都能平等的獲取同樣多的數(shù)據(jù),社會才會進(jìn)入一種新的“自然”的穩(wěn)態(tài)。道家洞悉了天機,為“自然”的秩序,無為,也無所不為!
扯遠(yuǎn)了…….接下來談?wù)勎覍?shù)據(jù)的理解。
一、數(shù)據(jù)=Know,數(shù)據(jù)一直存在
1、數(shù)據(jù)是人類對世界的觀測: 數(shù)據(jù)是個什么樣的東東?我是這么看的,我把世界分為如下這些元素:a、道,主宰世界的運行; b、公理/定理、規(guī)律 ;c、場景,包括政治人文地理氣候等;d、參與者,包括人和萬物,大到天體,小到粒子;于是所有的事情都可以抽象成這樣,在a和b的作用下,c和d相互影響在時空中運行,而這時候出現(xiàn)了一個旁觀者,把它觀測到的這一切記錄下來,就形成了我們所說的數(shù)據(jù)。
數(shù)據(jù)體現(xiàn)了人類的意志:數(shù)據(jù)的來源只有兩種,要么人類通過手工記錄,要么通過科技手段按照人類設(shè)想記錄下來,記錄者對事物的理解、采取的采集手段決定了數(shù)據(jù)長啥樣!所以看到數(shù)據(jù),要追溯回記錄者當(dāng)時怎么想怎么記的,才可能真正搞懂?dāng)?shù)據(jù)。
數(shù)據(jù)并不客觀,它是有角度的:正因為數(shù)據(jù)體現(xiàn)了人類的意志,而人類只能選取某些角度去觀測世界,因而記錄下來的數(shù)據(jù)是有角度的,它離客觀事實有很大的距離。譬如《史記》就體現(xiàn)了司馬遷的偏好,項羽不是帝王,卻列入本紀(jì)之中,可見其對于項羽的推崇心理。
數(shù)據(jù)表征事實,但數(shù)據(jù)只是事實的采樣:事物的細(xì)節(jié)很多,人類只能對局部的點進(jìn)行記錄(空間抽樣),也不可能連續(xù)記錄(時間抽樣)。譬如你記錄了時間、地點、人物、事件,但還有人物心理、周邊環(huán)境、星際運行、甚至粒子級別的運動,人類觀測不過來,也記錄不過來,很多東西無法表征,更存儲不下來所有。
數(shù)據(jù)不僅失真,還可能錯漏:眼里見到的不一定就是真實,最終記錄下來的也不一定是眼里見到的,還有技術(shù)的誤差……
真正的“數(shù)據(jù)”是世界發(fā)生的這一切,這個“數(shù)據(jù)”無窮大,一直存在:相比之下,人類的采集及表征存儲技術(shù)實在是太渺小了!不少專家驚呼大數(shù)據(jù)時代來了,我們可以不用抽樣能夠全數(shù)據(jù)處理了,真實情況是,人類永遠(yuǎn)沒有全數(shù)據(jù),我們對這個世界“Know”得太少啊,真正的大數(shù)據(jù)時代還早得很!
(注:在我的概念,數(shù)據(jù)有廣義狹義之分,廣義的“數(shù)據(jù)”就是世界發(fā)生的這一切,狹義的數(shù)據(jù)是指人類記錄下來的)
順便也說一下,強人工智能時代還遠(yuǎn)著呢,且不談意識那些深層次的話題,也不探究存儲及表征技術(shù)的落后,三個理由,其一,AI在采集數(shù)據(jù)方面是預(yù)設(shè)角度的,而人類對一個事物觀測角度有無窮想象空間,你自己都無法預(yù)知你會留意哪些方面,其二,模型方面,AI的學(xué)習(xí)方向也是預(yù)設(shè)的,人類大腦的聯(lián)想關(guān)聯(lián)能力、快速歸納能力AI無法做到,譬如嬰兒第一次見到圍巾,你教它把它掛到脖子上,下次它見到長的東西如皮帶,它也會創(chuàng)造性的往脖子上掛,沒人教過它圍巾與皮帶的關(guān)聯(lián)關(guān)系!我舉的這個例子不一定恰當(dāng),相信寶爸寶媽能舉出更多更好的例子(歡迎投稿供引用)。其三,解讀數(shù)據(jù)及數(shù)據(jù)影響行動的能力,AI還太弱。
2、“數(shù)據(jù)”是物質(zhì)與意識之間的連接
人類對世界的認(rèn)知就是體現(xiàn)在對“數(shù)據(jù)”的掌握,物質(zhì)通過“數(shù)據(jù)”傳遞給意識,意識接收“數(shù)據(jù)”感知物質(zhì)。沒有“數(shù)據(jù)”,物質(zhì)與意識就會中斷。脫離了肌殼,不知道靈魂還能不能接收“數(shù)據(jù)”,如果不能,那就跟物質(zhì)中斷了,這種狀態(tài)跟創(chuàng)世元靈忍受過的難以想象的孤寂差不多。
3、數(shù)據(jù)=Know
查英語詞典,“know”有知道、了解、懂三層含義,這三層漸進(jìn)的解釋和大數(shù)據(jù)實在是太吻合了,單一的數(shù)據(jù)能幫人們淺層次的“知道”一些事實,多維度的數(shù)據(jù)讓我們進(jìn)一步的“了解”事實,而對數(shù)據(jù)的綜合提煉、深度洞察才能稱之為“懂”,“懂”事物的規(guī)律、發(fā)展方向!所有的數(shù)據(jù)都是幫助我們Know,譬如運營報表是幫助我們“know”過去的運營情況、監(jiān)控預(yù)警是幫助我們“Know”當(dāng)下正在發(fā)生什么異常的事情、目標(biāo)客戶數(shù)據(jù)是幫助我們“Know”客戶未來會有什么樣的購買需求;而大數(shù)據(jù)挖掘就是利用我們已經(jīng)“Know”的事實數(shù)據(jù)去推測我們想“Know”的東西。
二、數(shù)據(jù)的方法一直在使用
人類一直在有意無意的采用數(shù)據(jù)方法來思考,幾乎所有的領(lǐng)域都有數(shù)據(jù)的影子。譬如讀心術(shù),不就是通過分析身體語言、微觀動作、面部動作、空間行為、觸覺等非語言行為數(shù)據(jù)再結(jié)合社會習(xí)俗、文化背景、民族習(xí)慣、現(xiàn)場氣氛、對象資料等背景信息來推測對象的心理么?最近“別對我撒謊”就是試圖利用圖像數(shù)據(jù)來分析心理,當(dāng)然智能程度還很低;而偵探就是通過收集現(xiàn)場等數(shù)據(jù)試圖還原真相;所謂聞香識女人、知己知己百戰(zhàn)不殆、分久必合合久必分等都是對數(shù)據(jù)的收集和運用;占卜算卦就更神奇了,利用道具來產(chǎn)生數(shù)據(jù)(當(dāng)然,不知道是否還采集了空氣中一些神秘的數(shù)據(jù))然后推測人的命運……
但是,現(xiàn)行的數(shù)據(jù)技術(shù)并不能解決所有的問題,因為很多數(shù)據(jù)還沒辦法收集存儲,隨著采集技術(shù)的發(fā)展,未來,一切皆可測量,一切皆可數(shù)據(jù)化,所有領(lǐng)域的專家,都將是數(shù)據(jù)科學(xué)家。 未來,請忘掉大數(shù)據(jù),不要問大數(shù)據(jù)能做什么,而是幾乎所有的領(lǐng)域都必須應(yīng)用數(shù)據(jù)技術(shù)。大數(shù)據(jù)無處不在,也就是不存在。
三、所謂的模型、算法,都是為了讓數(shù)據(jù)產(chǎn)生新的數(shù)據(jù),Know->行動
前面也說了,數(shù)據(jù)挖掘,就是利用已掌握的數(shù)據(jù)推測未知,推測的結(jié)果就是一個新的數(shù)據(jù),譬如你沒有用戶的性別數(shù)據(jù),只能通過用戶的瀏覽習(xí)慣、瀏覽網(wǎng)頁分類來推測它的性別,這個性別對于你就是一個新的數(shù)據(jù)。
不能影響行動的數(shù)據(jù)都是沒有意義的,換句話說,數(shù)據(jù)必須與商業(yè)(應(yīng)用)相結(jié)合。千辛萬苦整出一個數(shù)據(jù),沒有相應(yīng)的應(yīng)用流程來承接,那就徒勞無功。
四、經(jīng)驗也是大數(shù)據(jù)
大數(shù)據(jù)出現(xiàn)之后,人們對數(shù)據(jù)驅(qū)動津津樂道,什么數(shù)據(jù)驅(qū)動營銷、數(shù)據(jù)驅(qū)動管理、數(shù)據(jù)驅(qū)動運營………如果憑經(jīng)驗做事情,似乎就被一棍子打死。但是,數(shù)據(jù)看起來很多,實際上很少(前面說的抽樣、失真……),它并不總能解決問題,如果掌握的數(shù)據(jù)與目標(biāo)相去甚遠(yuǎn),無論算法多么的牛叉,都得不到一個與目標(biāo)匹配的數(shù)據(jù)結(jié)果。
而人類的經(jīng)驗是基于多年接收的大數(shù)據(jù)運用大腦提煉的結(jié)果,除了五官,人類身體的每一寸肌膚都在接收并處理大數(shù)據(jù),人類的大腦比計算機模型強得不知道哪里去了,匹配度高的經(jīng)驗效果遠(yuǎn)遠(yuǎn)好于一般的數(shù)據(jù)結(jié)果。
所以,別瞧不起經(jīng)驗,很多情況下,數(shù)據(jù)無能為力!
結(jié)語
數(shù)據(jù)沒想象那么強大,但未來數(shù)據(jù)無處不在,最后,人類一定會忘掉大數(shù)據(jù)!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03