
知識(shí)正是大數(shù)據(jù)之“大”背后的那個(gè)“小_數(shù)據(jù)分析師
“大數(shù)據(jù)時(shí)代”無(wú)疑是目前最為流行的詞語(yǔ)之一,一大堆關(guān)于大數(shù)據(jù)的科普和專業(yè)的書如雨后春筍一般涌現(xiàn)出來(lái),你無(wú)法拒絕它的誘惑,總想弄清楚它到底在說(shuō)什么,總在擔(dān)心大數(shù)據(jù)會(huì)把我們帶到什么樣的一個(gè)不可預(yù)知的未來(lái)。然而,大數(shù)據(jù)只描述了數(shù)據(jù)的規(guī)模大,是一種對(duì)現(xiàn)在信息爆炸時(shí)代的表象認(rèn)識(shí),并沒(méi)有深入到信息時(shí)代發(fā)展的本質(zhì)層面,因此,大家都在等待一個(gè)新的時(shí)代的出現(xiàn)。
這個(gè)時(shí)代就是在DIKW(Data-Information-Knowledge-Wisdom)概念中界定的K的時(shí)代,知識(shí)的時(shí)代。知識(shí)正是大數(shù)據(jù)之“大”背后的那個(gè)“小”。比如第谷測(cè)了一輩子的行星運(yùn)動(dòng)軌跡,記錄的數(shù)據(jù)汗牛塞屋,后來(lái)他的學(xué)生開(kāi)普勒又花了將近一輩子的時(shí)間整理出了三大定律,這個(gè)大數(shù)據(jù)終于變得小了一點(diǎn),到了牛頓時(shí)代,一個(gè)簡(jiǎn)單的平方反比的萬(wàn)有引力定律,就把所有一屋的大數(shù)據(jù)的內(nèi)容全說(shuō)透了。
雖然知識(shí)的概念出現(xiàn)很早,但到底什么是知識(shí)呢?在科學(xué)上要清晰的定義非常難,現(xiàn)在也做不到。但其中有一種解釋,我很贊同,即知識(shí)是信息之間的關(guān)聯(lián)。關(guān)聯(lián)代表著新物質(zhì)和新性質(zhì)的產(chǎn)生,而不是靜態(tài)的兩個(gè)物體機(jī)械地?cái)[在一起。比如H原子和O原子關(guān)聯(lián)在一起,產(chǎn)生的不是2個(gè)原子物理上挨得很近這么簡(jiǎn)單,而是產(chǎn)生了一種叫H2O的新物質(zhì),它擁有它的母體、它的前輩所沒(méi)有的液態(tài)流動(dòng)的性質(zhì),因?yàn)橛辛诉@個(gè)物質(zhì),孕育了所有的生命,造就了地球這個(gè)生機(jī)盎然的大千世界。
在知識(shí)挖掘中常舉的啤酒和尿布的例子,講的就是通過(guò)關(guān)聯(lián)獲得知識(shí)的例子。啤酒與尿布”的故事產(chǎn)生于20世紀(jì)90年代的美國(guó)沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時(shí)發(fā)現(xiàn)了一個(gè)令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無(wú)關(guān)系的商品會(huì)經(jīng)常出現(xiàn)在同一個(gè)購(gòu)物籃中,這種獨(dú)特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過(guò)后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。在美國(guó)有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購(gòu)買尿布。父親在購(gòu)買尿布的同時(shí),往往會(huì)順便為自己購(gòu)買啤酒,這樣就會(huì)出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會(huì)出現(xiàn)在同一個(gè)購(gòu)物籃的現(xiàn)象。沃爾瑪發(fā)現(xiàn)了這一獨(dú)特的現(xiàn)象,開(kāi)始在賣場(chǎng)嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時(shí)找到這兩件商品,并很快地完成購(gòu)物,這就是“啤酒與尿布”故事的由來(lái)。
啤酒和尿布放在一起,代表了一種精巧的知識(shí)結(jié)構(gòu),是一種高級(jí)的人類智力活動(dòng)的結(jié)果。發(fā)現(xiàn)關(guān)聯(lián)就是發(fā)現(xiàn)知識(shí),就是發(fā)現(xiàn)新物質(zhì)、發(fā)現(xiàn)新性質(zhì),就是發(fā)現(xiàn)新的運(yùn)營(yíng)模式,就是發(fā)現(xiàn)人們未知的新世界,隨著關(guān)聯(lián)規(guī)模和深度的增加,也就擴(kuò)大了人類認(rèn)識(shí)世界和認(rèn)識(shí)自己的能力,從而也就擴(kuò)展了人類的生存能力和把握未來(lái)的能力。
大數(shù)據(jù)的根本目標(biāo)就是要像挖掘萬(wàn)有引力定律一樣,挖掘數(shù)據(jù)背后的規(guī)律,讓數(shù)據(jù)由大變小,從而為我所用,創(chuàng)造出更多的經(jīng)濟(jì)、社會(huì)和科學(xué)價(jià)值。因此,我們認(rèn)為知識(shí)時(shí)代才是抓住時(shí)代發(fā)展本質(zhì)的描述,而所有技術(shù)層面的新生事物,都是實(shí)現(xiàn)這個(gè)時(shí)代目標(biāo)的物質(zhì)和技術(shù)基礎(chǔ),比如搜索技術(shù)是信息時(shí)代的技術(shù)基礎(chǔ),網(wǎng)絡(luò)是信息時(shí)代的物質(zhì)基礎(chǔ)。在新的知識(shí)時(shí)代,大數(shù)據(jù)和相應(yīng)的挖掘技術(shù)是技術(shù)基礎(chǔ),而數(shù)據(jù)倉(cāng)庫(kù)和高速網(wǎng)絡(luò)、智能終端等是物質(zhì)基礎(chǔ)。知識(shí)工程是實(shí)現(xiàn)知識(shí)挖掘的系統(tǒng)工程,是突破人類認(rèn)識(shí)能力的局限,從“大數(shù)據(jù)時(shí)代”走向“知識(shí)時(shí)代”的基礎(chǔ)之一。
所謂知識(shí)工程,本質(zhì)上就是建立企業(yè)的基因工程,即構(gòu)建企業(yè)“天生的”學(xué)習(xí)和適應(yīng)能力。
首先,讓我們先從自然界看看基因的偉大之處。2012年11月14日凌晨,8歲的“那仁”登上Nature雜志官方網(wǎng)站的首頁(yè)頭條新聞。這頭來(lái)自蒙古國(guó)阿爾泰省自然保護(hù)區(qū)的雄性野駱駝,成為世界上首個(gè)向全球展示雙峰駝全基因組序列圖譜的野生駱駝。野駱駝是世界上惟一能靠喝鹽水生存的動(dòng)物。它能在極其嚴(yán)酷的
環(huán)境中生存下來(lái),正是由于其背后的遺傳秘密。“野駱駝奔跑起來(lái)時(shí)速可達(dá)80公里,在遇到危險(xiǎn)時(shí),能連續(xù)奔跑兩三天。它們機(jī)警而膽怯,視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)相當(dāng)靈敏,順風(fēng)時(shí)可以嗅到數(shù)公里甚至幾十公里外的氣味,判斷出很遠(yuǎn)地方的水源。它們可以在遇到沙暴之前,隨時(shí)關(guān)閉鼻孔而不影響呼吸,來(lái)不及躲避就會(huì)平躺在地上避風(fēng)。它們還會(huì)在風(fēng)暴過(guò)后,用淚水沖洗沙塵以保護(hù)眼睛”。這就是這種“天生的適應(yīng)能力”。
再來(lái)看另一個(gè)動(dòng)物——狼。狼是生物系統(tǒng)中最有智慧的動(dòng)物之一。CCTV曾報(bào)道,四川一位畫家收養(yǎng)了一只小狼,養(yǎng)到3個(gè)月大的時(shí)候要放歸草原,必須鍛煉它捕殺羊的能力,羊很高大根本不理會(huì)狼的挑釁,狼很快就發(fā)現(xiàn)了羊和羊脖子上的羊繩的關(guān)系,就咬著羊繩想把羊拉出來(lái),無(wú)奈力小拉不動(dòng),人們就拿個(gè)牛頭把羊嚇了出來(lái),狼很快就學(xué)會(huì)了這一點(diǎn)。只看了一次就知道了牛頭和羊的關(guān)系,真的是聰明絕倫,難怪狼群可以不被馴服卻照樣活了下來(lái)。在技術(shù)層面,狼的聰明就在于它能很快發(fā)現(xiàn)事物之間的關(guān)聯(lián),并且充分利用這樣的關(guān)聯(lián)改變自己的行為,這是多么智慧的生靈,當(dāng)然是一個(gè)有知識(shí)的行為。
建立企業(yè)生存和發(fā)展的根基,就是要建立一種適應(yīng)環(huán)境的能力和學(xué)習(xí)能力,而員工只是表現(xiàn)這種企業(yè)所有員工共有的這種企業(yè)基因的一個(gè)載體。這樣,在環(huán)境相同的時(shí)候,所有員工的表現(xiàn)基本一致,實(shí)現(xiàn)了企業(yè)行為的穩(wěn)定性和規(guī)范性,同時(shí)又具備了在變化環(huán)境下能發(fā)現(xiàn)事物之間關(guān)聯(lián)的知識(shí)發(fā)現(xiàn)的能力,由此建立企業(yè)穩(wěn)定發(fā)展的基礎(chǔ)。這里的關(guān)鍵是,如何實(shí)現(xiàn)在企業(yè)擁有員工之前就先擁有能力,如何承載這個(gè)能力呢?只有一個(gè)辦法,這就是必須建立一個(gè)軟件平臺(tái),把已有的對(duì)象、以及發(fā)現(xiàn)對(duì)象之間關(guān)聯(lián)的能力,都根植在這個(gè)軟件平臺(tái)上。首先是企業(yè)的內(nèi)部知識(shí)的梳理,最后進(jìn)化到整個(gè)web網(wǎng)絡(luò),整個(gè)社會(huì)由此進(jìn)入到知識(shí)時(shí)代。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11