
知識(shí)正是大數(shù)據(jù)之“大”背后的那個(gè)“小_數(shù)據(jù)分析師
“大數(shù)據(jù)時(shí)代”無疑是目前最為流行的詞語之一,一大堆關(guān)于大數(shù)據(jù)的科普和專業(yè)的書如雨后春筍一般涌現(xiàn)出來,你無法拒絕它的誘惑,總想弄清楚它到底在說什么,總在擔(dān)心大數(shù)據(jù)會(huì)把我們帶到什么樣的一個(gè)不可預(yù)知的未來。然而,大數(shù)據(jù)只描述了數(shù)據(jù)的規(guī)模大,是一種對(duì)現(xiàn)在信息爆炸時(shí)代的表象認(rèn)識(shí),并沒有深入到信息時(shí)代發(fā)展的本質(zhì)層面,因此,大家都在等待一個(gè)新的時(shí)代的出現(xiàn)。
這個(gè)時(shí)代就是在DIKW(Data-Information-Knowledge-Wisdom)概念中界定的K的時(shí)代,知識(shí)的時(shí)代。知識(shí)正是大數(shù)據(jù)之“大”背后的那個(gè)“小”。比如第谷測了一輩子的行星運(yùn)動(dòng)軌跡,記錄的數(shù)據(jù)汗牛塞屋,后來他的學(xué)生開普勒又花了將近一輩子的時(shí)間整理出了三大定律,這個(gè)大數(shù)據(jù)終于變得小了一點(diǎn),到了牛頓時(shí)代,一個(gè)簡單的平方反比的萬有引力定律,就把所有一屋的大數(shù)據(jù)的內(nèi)容全說透了。
雖然知識(shí)的概念出現(xiàn)很早,但到底什么是知識(shí)呢?在科學(xué)上要清晰的定義非常難,現(xiàn)在也做不到。但其中有一種解釋,我很贊同,即知識(shí)是信息之間的關(guān)聯(lián)。關(guān)聯(lián)代表著新物質(zhì)和新性質(zhì)的產(chǎn)生,而不是靜態(tài)的兩個(gè)物體機(jī)械地?cái)[在一起。比如H原子和O原子關(guān)聯(lián)在一起,產(chǎn)生的不是2個(gè)原子物理上挨得很近這么簡單,而是產(chǎn)生了一種叫H2O的新物質(zhì),它擁有它的母體、它的前輩所沒有的液態(tài)流動(dòng)的性質(zhì),因?yàn)橛辛诉@個(gè)物質(zhì),孕育了所有的生命,造就了地球這個(gè)生機(jī)盎然的大千世界。
在知識(shí)挖掘中常舉的啤酒和尿布的例子,講的就是通過關(guān)聯(lián)獲得知識(shí)的例子。啤酒與尿布”的故事產(chǎn)生于20世紀(jì)90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時(shí)發(fā)現(xiàn)了一個(gè)令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品會(huì)經(jīng)常出現(xiàn)在同一個(gè)購物籃中,這種獨(dú)特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時(shí),往往會(huì)順便為自己購買啤酒,這樣就會(huì)出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會(huì)出現(xiàn)在同一個(gè)購物籃的現(xiàn)象。沃爾瑪發(fā)現(xiàn)了這一獨(dú)特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時(shí)找到這兩件商品,并很快地完成購物,這就是“啤酒與尿布”故事的由來。
啤酒和尿布放在一起,代表了一種精巧的知識(shí)結(jié)構(gòu),是一種高級(jí)的人類智力活動(dòng)的結(jié)果。發(fā)現(xiàn)關(guān)聯(lián)就是發(fā)現(xiàn)知識(shí),就是發(fā)現(xiàn)新物質(zhì)、發(fā)現(xiàn)新性質(zhì),就是發(fā)現(xiàn)新的運(yùn)營模式,就是發(fā)現(xiàn)人們未知的新世界,隨著關(guān)聯(lián)規(guī)模和深度的增加,也就擴(kuò)大了人類認(rèn)識(shí)世界和認(rèn)識(shí)自己的能力,從而也就擴(kuò)展了人類的生存能力和把握未來的能力。
大數(shù)據(jù)的根本目標(biāo)就是要像挖掘萬有引力定律一樣,挖掘數(shù)據(jù)背后的規(guī)律,讓數(shù)據(jù)由大變小,從而為我所用,創(chuàng)造出更多的經(jīng)濟(jì)、社會(huì)和科學(xué)價(jià)值。因此,我們認(rèn)為知識(shí)時(shí)代才是抓住時(shí)代發(fā)展本質(zhì)的描述,而所有技術(shù)層面的新生事物,都是實(shí)現(xiàn)這個(gè)時(shí)代目標(biāo)的物質(zhì)和技術(shù)基礎(chǔ),比如搜索技術(shù)是信息時(shí)代的技術(shù)基礎(chǔ),網(wǎng)絡(luò)是信息時(shí)代的物質(zhì)基礎(chǔ)。在新的知識(shí)時(shí)代,大數(shù)據(jù)和相應(yīng)的挖掘技術(shù)是技術(shù)基礎(chǔ),而數(shù)據(jù)倉庫和高速網(wǎng)絡(luò)、智能終端等是物質(zhì)基礎(chǔ)。知識(shí)工程是實(shí)現(xiàn)知識(shí)挖掘的系統(tǒng)工程,是突破人類認(rèn)識(shí)能力的局限,從“大數(shù)據(jù)時(shí)代”走向“知識(shí)時(shí)代”的基礎(chǔ)之一。
所謂知識(shí)工程,本質(zhì)上就是建立企業(yè)的基因工程,即構(gòu)建企業(yè)“天生的”學(xué)習(xí)和適應(yīng)能力。
首先,讓我們先從自然界看看基因的偉大之處。2012年11月14日凌晨,8歲的“那仁”登上Nature雜志官方網(wǎng)站的首頁頭條新聞。這頭來自蒙古國阿爾泰省自然保護(hù)區(qū)的雄性野駱駝,成為世界上首個(gè)向全球展示雙峰駝全基因組序列圖譜的野生駱駝。野駱駝是世界上惟一能靠喝鹽水生存的動(dòng)物。它能在極其嚴(yán)酷的
環(huán)境中生存下來,正是由于其背后的遺傳秘密。“野駱駝奔跑起來時(shí)速可達(dá)80公里,在遇到危險(xiǎn)時(shí),能連續(xù)奔跑兩三天。它們機(jī)警而膽怯,視覺、聽覺、嗅覺相當(dāng)靈敏,順風(fēng)時(shí)可以嗅到數(shù)公里甚至幾十公里外的氣味,判斷出很遠(yuǎn)地方的水源。它們可以在遇到沙暴之前,隨時(shí)關(guān)閉鼻孔而不影響呼吸,來不及躲避就會(huì)平躺在地上避風(fēng)。它們還會(huì)在風(fēng)暴過后,用淚水沖洗沙塵以保護(hù)眼睛”。這就是這種“天生的適應(yīng)能力”。
再來看另一個(gè)動(dòng)物——狼。狼是生物系統(tǒng)中最有智慧的動(dòng)物之一。CCTV曾報(bào)道,四川一位畫家收養(yǎng)了一只小狼,養(yǎng)到3個(gè)月大的時(shí)候要放歸草原,必須鍛煉它捕殺羊的能力,羊很高大根本不理會(huì)狼的挑釁,狼很快就發(fā)現(xiàn)了羊和羊脖子上的羊繩的關(guān)系,就咬著羊繩想把羊拉出來,無奈力小拉不動(dòng),人們就拿個(gè)牛頭把羊嚇了出來,狼很快就學(xué)會(huì)了這一點(diǎn)。只看了一次就知道了牛頭和羊的關(guān)系,真的是聰明絕倫,難怪狼群可以不被馴服卻照樣活了下來。在技術(shù)層面,狼的聰明就在于它能很快發(fā)現(xiàn)事物之間的關(guān)聯(lián),并且充分利用這樣的關(guān)聯(lián)改變自己的行為,這是多么智慧的生靈,當(dāng)然是一個(gè)有知識(shí)的行為。
建立企業(yè)生存和發(fā)展的根基,就是要建立一種適應(yīng)環(huán)境的能力和學(xué)習(xí)能力,而員工只是表現(xiàn)這種企業(yè)所有員工共有的這種企業(yè)基因的一個(gè)載體。這樣,在環(huán)境相同的時(shí)候,所有員工的表現(xiàn)基本一致,實(shí)現(xiàn)了企業(yè)行為的穩(wěn)定性和規(guī)范性,同時(shí)又具備了在變化環(huán)境下能發(fā)現(xiàn)事物之間關(guān)聯(lián)的知識(shí)發(fā)現(xiàn)的能力,由此建立企業(yè)穩(wěn)定發(fā)展的基礎(chǔ)。這里的關(guān)鍵是,如何實(shí)現(xiàn)在企業(yè)擁有員工之前就先擁有能力,如何承載這個(gè)能力呢?只有一個(gè)辦法,這就是必須建立一個(gè)軟件平臺(tái),把已有的對(duì)象、以及發(fā)現(xiàn)對(duì)象之間關(guān)聯(lián)的能力,都根植在這個(gè)軟件平臺(tái)上。首先是企業(yè)的內(nèi)部知識(shí)的梳理,最后進(jìn)化到整個(gè)web網(wǎng)絡(luò),整個(gè)社會(huì)由此進(jìn)入到知識(shí)時(shí)代。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03