
關(guān)于大數(shù)據(jù)分析方法的幾點(diǎn)思考
本文是我關(guān)于大數(shù)據(jù)分析方法的幾點(diǎn)思考。當(dāng)初的目的是系統(tǒng)化地看待數(shù)據(jù)分析。為了這點(diǎn)東西,我花了一個(gè)禮拜的時(shí)間,思考的結(jié)果卻是碎片化的??磥?lái),想清楚并不容易。由于時(shí)間關(guān)系,只能中止。文字描述很不嚴(yán)格、肯定經(jīng)不起推敲,讀者找不毛病是正常的、看不明白更是正常的。不感興趣的可以當(dāng)做胡扯。我希望將來(lái)有時(shí)間時(shí)能把問(wèn)題思考下去。
從數(shù)據(jù)中發(fā)現(xiàn)信息和知識(shí),是人們多年來(lái)的夢(mèng)想。隨著大數(shù)據(jù)理論的興起,這個(gè)話題變得非常熱門(mén)。在有些人看來(lái),大數(shù)據(jù)非常神秘,似乎無(wú)所不能。當(dāng)然,現(xiàn)實(shí)不會(huì)是這樣。我想,研究大數(shù)據(jù),首先要破除迷信:大數(shù)據(jù)需要什么條件、什么問(wèn)題是大數(shù)據(jù)無(wú)法做到的。
1、知識(shí)和信息,只能從關(guān)聯(lián)關(guān)系中得到
對(duì)象(包括過(guò)程,如生產(chǎn)過(guò)程、購(gòu)物過(guò)程)及其屬性、同一對(duì)象的屬性之間具備關(guān)聯(lián)關(guān)系。例如,“張三身高1.8米”就是對(duì)象(張三)與屬性(身高)的關(guān)聯(lián);再如,如果我們知道張三體重75公斤,則“1.8米”和“75公斤”之間就因“張三”建立了關(guān)聯(lián)。
關(guān)聯(lián)的對(duì)象可能并不確定:我們看到一張履歷表,即便隱去名字、不知道這個(gè)人是誰(shuí),也知道其中的各種信息是與某人關(guān)聯(lián)的。
在數(shù)字化的世界里,不和其他的符號(hào)(數(shù)字)關(guān)聯(lián)的符號(hào)(數(shù)字)是不包含任何信息的。從不包含信息的素材,得不到包含信息的結(jié)論。
有人可能反對(duì)這個(gè)觀點(diǎn):谷歌曾經(jīng)用“感冒”的搜索量預(yù)報(bào)流感啊,這里哪有關(guān)聯(lián)呢?其實(shí),只有搜索“感冒”的數(shù)量是根本無(wú)法預(yù)測(cè)流感的。谷歌的做法,是把“感冒”的搜索與搜索的地點(diǎn)、時(shí)間聯(lián)系起來(lái)。
這個(gè)觀點(diǎn)告訴我們:收集數(shù)據(jù)的時(shí)候,要盡可能地把關(guān)聯(lián)關(guān)系建立起來(lái);沒(méi)有關(guān)聯(lián)關(guān)系,數(shù)據(jù)很容易成為垃圾。這種情況并不少見(jiàn):有些實(shí)驗(yàn)室,把針對(duì)同一試樣的各項(xiàng)實(shí)驗(yàn)結(jié)果分別保存起來(lái),而沒(méi)有建立統(tǒng)一的ID、關(guān)聯(lián)關(guān)系丟失。這樣的數(shù)據(jù),再多也沒(méi)有用處。
2、人們要挖掘的知識(shí)和信息,就是找映射關(guān)系
知識(shí)(或信息)的發(fā)現(xiàn)與挖掘,其本質(zhì)是尋找映射關(guān)系:通過(guò)已知的、對(duì)象的一部分屬性,把對(duì)象的另外一部分屬性或?qū)ο蟊旧碚页鰜?lái)(或縮小范圍)。產(chǎn)生這類(lèi)問(wèn)題的原因是:只有一部分屬性已知、容易得到、容易識(shí)別、容易表述,而另外一部分未知、不容易得到、不容易識(shí)別、不容易描述。
例如,我們可以說(shuō):張三就是那個(gè)穿紅衣服的——這里“穿紅衣服”比其他特征容易識(shí)別。從衣服識(shí)別出張三,就是從張三的衣著特征(屬性)找到關(guān)聯(lián)對(duì)象(張三)的信息;從一個(gè)人的身高預(yù)估他的體重,就是從一個(gè)根據(jù)一類(lèi)屬性估計(jì)另外一類(lèi)屬性。
我習(xí)慣于把信息挖掘和知識(shí)發(fā)現(xiàn)分開(kāi)。
在本文中,信息挖掘指的是預(yù)測(cè)某個(gè)特定對(duì)象的屬性,如上海市的人口是多少;知識(shí)發(fā)現(xiàn)是確定一類(lèi)對(duì)象的屬性之間的關(guān)系,如一類(lèi)人群中身高和體重的關(guān)系。當(dāng)然,這種區(qū)分不是絕對(duì)的。
3、映射關(guān)系的差別
正確的識(shí)別,最好的辦法是找到好的素材(數(shù)據(jù))。素材與結(jié)果之間的關(guān)聯(lián)強(qiáng)度是不一樣的:有的比較強(qiáng),是因果關(guān)系、必然聯(lián)系;有的比較弱,是相關(guān)關(guān)系、偶然聯(lián)系。
例如,我們可以根據(jù)DNA、相貌、衣服來(lái)識(shí)別一個(gè)人。但三者相比,DNA的聯(lián)系是強(qiáng)的必然性聯(lián)系、衣服是弱的偶然性聯(lián)系,相貌是介于兩者之間的聯(lián)系。大數(shù)據(jù)的一個(gè)著名案例,是網(wǎng)站根據(jù)客戶(hù)買(mǎi)的藥判斷她已懷孕、并推送有關(guān)產(chǎn)品:因?yàn)檫@種藥只有孕婦才吃,是很強(qiáng)的關(guān)聯(lián)。
從數(shù)據(jù)得到的知識(shí)和信息,往往不是絕對(duì)正確。一般來(lái)說(shuō),可靠的結(jié)論基于可靠的數(shù)據(jù)和可靠的分析方法。數(shù)據(jù)量大了以后,濾除干擾的可能性增大,從而可以從原來(lái)可靠度低的數(shù)據(jù)中,得到可靠性相對(duì)較高的數(shù)據(jù)。
所以,盡量找到好的素材,是做好分析的第一步。
在很多情況下,我們找不到好的素材。這時(shí),首先要做的盡量提高數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量不僅是精度問(wèn)題,還包括數(shù)據(jù)來(lái)源的可靠性:為此,需要把數(shù)據(jù)來(lái)源的相關(guān)過(guò)程要搞清楚,否則很可能會(huì)誤導(dǎo)人的分析。
4、相關(guān)與因果
有些相關(guān)性的背后,一般會(huì)有因果關(guān)系存在。兩個(gè)要素由因果產(chǎn)生關(guān)聯(lián)的機(jī)制大概可以分成兩類(lèi):1、兩個(gè)要素具有因果的關(guān)系:比如剛做父親的青年人常會(huì)買(mǎi)尿布;2、共同原因?qū)е碌膬蓚€(gè)結(jié)果之間的關(guān)系:比如孩子的父親會(huì)常買(mǎi)啤酒,也常買(mǎi)尿布;于是,啤酒和尿布就可能關(guān)聯(lián)起來(lái)。
有些相關(guān)性,看似沒(méi)有因果,但背后往往有某些特殊的規(guī)律或因素其作用(上述第二種情況)。比如,女孩子往往喜歡花衣服,與基因和文化的共性有關(guān)。但這種因果關(guān)系可能相隔太遠(yuǎn),以至于難以考證了。
當(dāng)人們需要根據(jù)關(guān)系作出決策時(shí),需要研究因果的邏輯關(guān)系:到底是誰(shuí)影響了誰(shuí)。否則,根據(jù)分析結(jié)構(gòu)的盲目行為可能適得其反。 “到底誰(shuí)影響了誰(shuí)”為什么會(huì)成為問(wèn)題?大概有兩類(lèi)原因:
第一類(lèi)原因是:忽視了時(shí)間因素。如“統(tǒng)計(jì)結(jié)果表明,練太極拳的身體差”?,F(xiàn)實(shí)卻是:很多人身體變差(包括衰老)以后,才練太極拳。一般來(lái)說(shuō),具有因果關(guān)系的兩個(gè)要素之間,時(shí)間上有前后關(guān)系:原因早前,結(jié)果在后。
第二類(lèi)原因是:忽視了前導(dǎo)因素?!肮u一叫,天就亮了”?,F(xiàn)實(shí)卻是,天量之前的跡象被公雞察覺(jué)到了。兩者是第二種因果關(guān)系,只是看似“原因在后、結(jié)果在前”了。
一般來(lái)說(shuō),工業(yè)大數(shù)據(jù)分析更重視因果,而商務(wù)大數(shù)據(jù)分析對(duì)因果性的要求較弱。
5、數(shù)據(jù)分析的先導(dǎo)因素
從某種意義上說(shuō),數(shù)據(jù)分析的過(guò)程,就是尋找強(qiáng)的相關(guān)關(guān)系(必然性、因果性),或?qū)θ醯南嚓P(guān)關(guān)系進(jìn)行綜合、得到強(qiáng)的相關(guān)關(guān)系。
用數(shù)據(jù)發(fā)現(xiàn)信息,需要用到各種知識(shí)。例如,把“云南白藥是用于治療外傷的”放入計(jì)算機(jī),當(dāng)某人購(gòu)買(mǎi)白藥的行為判斷他或家人可能受傷,從而可以推薦相關(guān)產(chǎn)品。但注意到:這種類(lèi)型的知識(shí)很可能是被人事先裝入計(jì)算機(jī)的,而不是靠計(jì)算機(jī)自動(dòng)學(xué)習(xí)得到的。
所有的學(xué)習(xí)過(guò)程,本質(zhì)上都是基于這樣一種假設(shè):A和B的一部分屬性類(lèi)似,則推測(cè)另一部分屬性也應(yīng)該類(lèi)似。例如,A和B的身高相似,則體重也可能相似?,F(xiàn)實(shí)中,兩個(gè)屬性確實(shí)具有強(qiáng)烈的相關(guān)性,但身高相同而體重不同的也大有人在。這時(shí),如果我們還知道他的體型,是瘦弱、偏瘦、正常、偏胖、肥胖型,對(duì)體重的估計(jì)就可以準(zhǔn)確一些。由此可見(jiàn),用數(shù)據(jù)發(fā)現(xiàn)知識(shí)的過(guò)程,本質(zhì)上就是提高相關(guān)性、可靠性的過(guò)程。
一般來(lái)說(shuō),人們?cè)谧鰯?shù)據(jù)分析之前,一定會(huì)有一定的知識(shí)積淀, 但認(rèn)識(shí)不清卻是一種常態(tài);人們希望通過(guò)對(duì)數(shù)據(jù)的分析,來(lái)改變這種常態(tài)。而改變認(rèn)識(shí)的過(guò)程依賴(lài)于數(shù)據(jù)的質(zhì)量和分析數(shù)據(jù)的方法。所以,刨除分析方法外,分析過(guò)程依賴(lài)于兩個(gè)先導(dǎo)性因素:1、數(shù)據(jù)質(zhì)量(包含多方面的含義)如何;人們已有的認(rèn)識(shí)如何。
注意,這段說(shuō)法有個(gè)潛臺(tái)詞:強(qiáng)調(diào)了人類(lèi)可認(rèn)識(shí)的知識(shí),而不是機(jī)器用復(fù)雜函數(shù)關(guān)系表述的、人類(lèi)難以用邏輯關(guān)系認(rèn)知的知識(shí)(如神經(jīng)元)。的確如此,筆者一直認(rèn)為:這類(lèi)方法的作用被學(xué)術(shù)界有意識(shí)地夸大了。
6、數(shù)據(jù)分析的過(guò)程
與商業(yè)大數(shù)據(jù)相比,工業(yè)大數(shù)據(jù)更重視可靠性和精確性。在很多情況下,猜出一個(gè)結(jié)論并不難,難的是論證一個(gè)結(jié)論。一般來(lái)說(shuō),凡是可靠的知識(shí),都應(yīng)該能夠被機(jī)理和數(shù)據(jù)雙重認(rèn)證。
大數(shù)據(jù)分析的一個(gè)重要特征是:傳統(tǒng)概率理論的假設(shè)往往不成立。例如:大數(shù)定理的條件往往不成立、模型的結(jié)構(gòu)往往未知、因果關(guān)系不是天然清晰、自變量的誤差往往不能忽略、數(shù)據(jù)分布往往是沒(méi)有規(guī)律的。所以,為了得到可靠的結(jié)果,人們工作的重點(diǎn)很可能是驗(yàn)證這些條件、構(gòu)造這些條件。從某種意義上說(shuō),數(shù)據(jù)分析的過(guò)程,主要是排除干擾的過(guò)程、特別是排除系統(tǒng)干擾的過(guò)程。而且,如果完全依照邏輯、用純粹數(shù)學(xué)的辦法加以論證,則數(shù)據(jù)需求量會(huì)遭遇“組合爆炸”,永遠(yuǎn)是不夠的。這時(shí),已有的領(lǐng)域知識(shí)就是降低數(shù)據(jù)需求量的一種手段。要記?。呵蟮每煽啃允且粋€(gè)過(guò)程而不是結(jié)果、可能永遠(yuǎn)沒(méi)有終點(diǎn);分析的過(guò)程只是不斷增加證據(jù)而已。這個(gè)過(guò)程,是修正人的認(rèn)識(shí)的過(guò)程;所以,錯(cuò)誤或不恰當(dāng)?shù)恼J(rèn)識(shí)常常是分析過(guò)程中最大的干擾——這個(gè)干擾一旦去除,我們可能就發(fā)現(xiàn)了真正的知識(shí)。
數(shù)據(jù)量大的直接好處,是排除隨機(jī)性干擾。但排除系統(tǒng)性干擾卻不那么容易,數(shù)據(jù)量大是必要條件但不充分,需要深入的方法研究才能解決問(wèn)題。
系統(tǒng)性的干擾往往體現(xiàn)在:對(duì)主體進(jìn)行分組,所體現(xiàn)的規(guī)律是不同的。比如,身高和體重的統(tǒng)計(jì)關(guān)系,男女是不同的、不同民族是有差異的、可能與年齡有關(guān)。如果不進(jìn)行分類(lèi)研究,統(tǒng)計(jì)的結(jié)果就會(huì)與樣本的選取有很大關(guān)系。但分類(lèi)研究也會(huì)遇到一個(gè)困難:遭遇組合爆炸,數(shù)據(jù)再多都不夠用。這時(shí),“領(lǐng)域知識(shí)”就會(huì)發(fā)生作用:
認(rèn)定一個(gè)結(jié)論成立的辦法,是確認(rèn)它的“可重復(fù)性”。在許多情況下,“可重復(fù)性”指的是在各種分組下都成立的結(jié)論:最好能在不同時(shí)間分組中也能成立。分組越多、分組的維度越多、結(jié)論的可靠性越高。
但具有“可重復(fù)性”的結(jié)論,往往只在一定的范圍內(nèi)成立。在很多情況下,“明確結(jié)論成立的范圍”也是數(shù)據(jù)分析的重要內(nèi)容。
如何分組、如何確定范圍、如何構(gòu)筑邏輯鏈條、數(shù)據(jù)結(jié)果的解讀、數(shù)據(jù)結(jié)果與領(lǐng)域知識(shí)的融合,都是重要的能力。事實(shí)上,根據(jù)領(lǐng)域知識(shí),常常用于構(gòu)造證據(jù)鏈、進(jìn)行有效的數(shù)據(jù)選取和分組。
在精密論證時(shí),我們就會(huì)發(fā)現(xiàn):基礎(chǔ)數(shù)據(jù)的質(zhì)量很重要。因?yàn)樵S多干擾就來(lái)源于數(shù)據(jù)本身。從某種意義上說(shuō),數(shù)據(jù)的采集方法和環(huán)境不同,就是不同的數(shù)據(jù)。
6、關(guān)于預(yù)測(cè)數(shù)字
許多問(wèn)題分析的目的得到一個(gè)數(shù)字:如鋼的強(qiáng)度、用電量、人口數(shù)量、鋼產(chǎn)量。這類(lèi)問(wèn)題的特點(diǎn)之一是:最終的結(jié)果是各種影響因素相加得到的。
對(duì)于這種問(wèn)題,我的觀點(diǎn)是:要想得到可靠的結(jié)果,一定要拆成若干子問(wèn)題來(lái)分析。其中,各個(gè)子問(wèn)題要盡可能利用規(guī)律性的結(jié)果來(lái)分析。我認(rèn)為:把人的認(rèn)識(shí)和數(shù)據(jù)用到極致的時(shí)候,才能得到最好的結(jié)果。隨便地建立回歸模型是不懂?dāng)?shù)據(jù)的表現(xiàn)。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10