
在企業(yè)管理信息化的大背景下,數(shù)據(jù)分析技術(shù)已經(jīng)成為企業(yè)應(yīng)用關(guān)注的一個(gè)焦點(diǎn),但由于歷史原因,大部分人對(duì)傳統(tǒng)的統(tǒng)計(jì)分析和新起的數(shù)據(jù)挖掘都不太了解,存在著許多模糊認(rèn)識(shí)。這里先談?wù)剬?duì)統(tǒng)計(jì)方法的兩種常見的誤解。
對(duì)統(tǒng)計(jì)分析的兩種誤解
統(tǒng)計(jì)學(xué)有很強(qiáng)的數(shù)學(xué)背景,所以常見的誤解是:統(tǒng)計(jì)學(xué)家約等于數(shù)學(xué)家,數(shù)學(xué)家約等于陳景潤,陳景潤約等于歌德巴赫,于是統(tǒng)計(jì)學(xué)家約等于歌德巴赫。問題來了,歌德巴赫和企業(yè)的數(shù)據(jù)管理有什么關(guān)系呢?對(duì)于統(tǒng)計(jì)學(xué)來說,這種誤解實(shí)在是極大的不幸。著名統(tǒng)計(jì)學(xué)家George Box有句名言:所有的模型都是錯(cuò)誤的,而其中有些模型是有用的。這種話表面上看來是很放肆的,但統(tǒng)計(jì)學(xué)家們?cè)谔幚韺?shí)際問題的時(shí)候,所采取的就是這種實(shí)用主義態(tài)度。統(tǒng)計(jì)學(xué)家是一群跟數(shù)據(jù)打交道的工程師,工程師們也要使用大量的數(shù)學(xué)公式和計(jì)算,但決不是坐在屋子里證明高深的數(shù)學(xué)定理或者哥德巴赫猜想的怪才。
還有一種誤解是:統(tǒng)計(jì)好象和會(huì)計(jì)連在一起。說這種話的人其本意是指企業(yè)里統(tǒng)計(jì)員的工作和會(huì)計(jì)的工作差不多,統(tǒng)計(jì)員和會(huì)計(jì)的工作為統(tǒng)計(jì)分析提供了數(shù)據(jù)基礎(chǔ)。但我們一般說到的統(tǒng)計(jì)分析卻是指基于數(shù)理統(tǒng)計(jì)發(fā)展起來的諸多方法。這樣看來,把統(tǒng)計(jì)和會(huì)計(jì)混為一談是有些低估統(tǒng)計(jì)分析的難度和潛力了。簡單說來,會(huì)計(jì)系統(tǒng)把營業(yè)活動(dòng)轉(zhuǎn)化為數(shù)據(jù),在數(shù)據(jù)編碼和標(biāo)準(zhǔn)化方面都有獨(dú)到之處,它為企業(yè)管理提供了大量的基礎(chǔ)數(shù)據(jù),會(huì)計(jì)系統(tǒng)構(gòu)成了定量管理的基礎(chǔ)設(shè)施;統(tǒng)計(jì)方法如果要在企業(yè)的管理實(shí)踐中發(fā)揮更大的作用,就應(yīng)該學(xué)習(xí)會(huì)計(jì)的這種標(biāo)準(zhǔn)化思路,讓自己更便于使用,更加貼近用戶的理解,一句話,變得更加“傻瓜化”。
再看企業(yè)決策支持系統(tǒng)
從企業(yè)決策支持系統(tǒng)的角度來評(píng)估各種量化管理方法的意義,這時(shí)實(shí)施一種具體的統(tǒng)計(jì)方法或者數(shù)據(jù)挖掘技術(shù),實(shí)際上就相當(dāng)于實(shí)施一個(gè)項(xiàng)目。量化管理方法很多,而統(tǒng)計(jì)方法是一個(gè)大類,尤其適用于在不確定環(huán)境和信息不充分下的決策。
企業(yè)在選用系統(tǒng)的時(shí)候,該怎么辦?一個(gè)通用的問題處理模型就能夠說明,通用的問題處理模型包括:問題、可用的資源和技術(shù)、成本,綜合考慮這三個(gè)方面的作用就能夠達(dá)成一個(gè)相對(duì)合理的解決方案。這個(gè)通用的問題處理模型當(dāng)然適用于企業(yè)尋找信息化途徑的努力。
從一個(gè)統(tǒng)一的角度來看,企業(yè)定量管理的基礎(chǔ)是數(shù)據(jù)的收集和處理系統(tǒng),一般叫作決策支持系統(tǒng)。用這個(gè)金字塔圖可以清楚地看到逐級(jí)提煉的過程(從噪音到數(shù)據(jù)、信息、知識(shí)和智慧)的提煉過程。決策所依賴的,至少是知識(shí)這個(gè)層次的加工結(jié)果,而未加工的原材料就是所謂的噪音。從這個(gè)廣義的模型出發(fā),我們可以把會(huì)計(jì)看作一個(gè)信息系統(tǒng),各個(gè)層次之間的交界處需要采用特定的方法來完成提煉,而每個(gè)界面上可以運(yùn)用的技術(shù)都是不一樣的。
一個(gè)信息系統(tǒng)可以包括會(huì)計(jì)系統(tǒng)、數(shù)據(jù)庫體系和數(shù)據(jù)分析體系,有一種常見的誤解認(rèn)為統(tǒng)計(jì)方法只涉及從數(shù)據(jù)以后開始的分析工作。其實(shí),巧婦難為無米之炊,統(tǒng)計(jì)方法的運(yùn)用效果取決于基礎(chǔ)數(shù)據(jù),而收集何種基礎(chǔ)數(shù)據(jù),怎樣節(jié)省收集數(shù)據(jù)的成本,如何降低數(shù)據(jù)收集過程中的誤差,都需要一定的理論指導(dǎo),統(tǒng)計(jì)學(xué)為回答這些問題提供了許多很有效的解決方案。
和實(shí)際的礦山一樣,開掘銀礦、煤礦和金礦所用的技術(shù)是完全不一樣的。完成從噪音到智慧的過程包括其中的中間產(chǎn)物,也有一個(gè)對(duì)癥下藥的問題,再考慮到實(shí)施的成本和數(shù)據(jù)分析的難度(比如數(shù)據(jù)量,數(shù)據(jù)維數(shù)等等),數(shù)據(jù)處理很容易被人理解為一種藝術(shù)。說統(tǒng)計(jì)分析和數(shù)據(jù)挖掘帶有藝術(shù)色彩應(yīng)該基本正確,這就象淘金和看病一樣,不一定最貴的藥就最好。比如對(duì)統(tǒng)計(jì)方法和統(tǒng)計(jì)軟件的選用,就是有區(qū)別的。小型企業(yè)的信息化,基本上依賴ACCESS數(shù)據(jù)庫和EXCEL界面就可以完成;大型企業(yè)的信息化則需要和專業(yè)的管理軟件公司合作才能完成。早期信息化的成本和失敗率往往都比較高,這和病急亂投醫(yī)的情形差不多。
有些人生富貴病,典型癥狀就是一定要吃貴重的藥,否則病好不了,這種現(xiàn)象在企業(yè)信息化中也能看到。打個(gè)比方,美國企業(yè)的信息化接近于堅(jiān)持鍛煉,中國企業(yè)的信息化則更像病后康復(fù)――有了健康人的示范效應(yīng),中國的企業(yè)就特別著急,不注意信息系統(tǒng)和自身管理實(shí)踐的融合,只買貴的、不買對(duì)的,結(jié)果是交了不少學(xué)費(fèi)。筆者希望對(duì)數(shù)據(jù)分析的運(yùn)用不要陷入同樣的誤區(qū)。
計(jì)算機(jī)扮演的角色
從以往的情況來看,統(tǒng)計(jì)方法的大規(guī)模推廣依賴于計(jì)算能力的不斷增強(qiáng)或者說計(jì)算成本的大幅下降。芯片制造技術(shù)和軟件工程的迅猛發(fā)展給人們留下了深刻印象,但是數(shù)據(jù)量的增長卻始終走在計(jì)算機(jī)的增長前面。這種力不從心的感覺是歷史上的常態(tài)。完全手工計(jì)算的時(shí)候,人們會(huì)認(rèn)為多元線性回歸的計(jì)算是很恐怖的;有手搖計(jì)算機(jī)的時(shí)候,作主成分分析是非??植赖模滑F(xiàn)在,海量數(shù)據(jù)來了,雖然擁有20年前無法想象的計(jì)算能力,有關(guān)的分析工作還是讓人頭痛不已。但是,計(jì)算機(jī)還是讓統(tǒng)計(jì)學(xué)跟在后面,不斷開拓自己的領(lǐng)地。所以,統(tǒng)計(jì)學(xué)應(yīng)該感謝計(jì)算機(jī),是計(jì)算機(jī)讓統(tǒng)計(jì)學(xué)變成了真正的實(shí)用學(xué)科。
另一方面,計(jì)算機(jī)學(xué)科又在不斷侵入統(tǒng)計(jì)的領(lǐng)域,模糊統(tǒng)計(jì)學(xué)的邊界。很多人都在比較自由地利用計(jì)算機(jī),“自以為是”地進(jìn)行數(shù)據(jù)分析或者所謂的、不嚴(yán)密的統(tǒng)計(jì)分析,他們往往不把“統(tǒng)計(jì)專家”的意見放在眼里。有很多大量使用統(tǒng)計(jì)方法來分析問題的人甚至沒有接受過足夠的統(tǒng)計(jì)學(xué)科訓(xùn)練。對(duì)于許多計(jì)算數(shù)學(xué)方面的專家來說,統(tǒng)計(jì)學(xué)家的權(quán)威地位是比較古怪的東西。
偏偏還有許多統(tǒng)計(jì)方法的發(fā)展歷程是這樣的:實(shí)際應(yīng)用部門的人提出了一種經(jīng)驗(yàn)方法,然后其他非統(tǒng)計(jì)專業(yè)的人開始模仿并推廣,最后統(tǒng)計(jì)學(xué)家跟在后面,努力說明這種方法在統(tǒng)計(jì)意義下的合理性并把這種方法整理得更符合學(xué)院派的需要。得到廣泛應(yīng)用的方法就會(huì)進(jìn)入統(tǒng)計(jì)教科書,成為統(tǒng)計(jì)學(xué)的組成部分。有些時(shí)候,統(tǒng)計(jì)學(xué)落在了應(yīng)用的后面。
現(xiàn)在,依賴嚴(yán)格數(shù)學(xué)假設(shè)和推理的統(tǒng)計(jì)分析方法依然是統(tǒng)計(jì)學(xué)的主流。但是面對(duì)外行們的自由行動(dòng),統(tǒng)計(jì)學(xué)家比較無奈。數(shù)據(jù)挖掘正在充當(dāng)新的入侵者甚至是競爭者,統(tǒng)計(jì)學(xué)家應(yīng)該區(qū)分自己的理論和實(shí)際應(yīng)用,結(jié)果統(tǒng)計(jì)學(xué)家內(nèi)部開始分化,放下架子的人越來越多,這是好事。但是,許多來自計(jì)算科學(xué)的數(shù)據(jù)挖掘專家為了凸顯自己的革命者形象,會(huì)宣稱自己并非統(tǒng)計(jì)學(xué)家,甚至強(qiáng)調(diào)無須懂得統(tǒng)計(jì)學(xué),這就有些虛無主義,做過了頭。
結(jié)語
我們可以把眼光放得遠(yuǎn)一點(diǎn),從數(shù)據(jù)轉(zhuǎn)化來看,會(huì)計(jì)做得很好;從對(duì)數(shù)據(jù)質(zhì)量的描述和要求來看,也是會(huì)計(jì)做得更規(guī)范,那么各種數(shù)據(jù)分析方法都可以從中吸取經(jīng)驗(yàn)。而分析數(shù)據(jù)的經(jīng)驗(yàn)是統(tǒng)計(jì)方法更加豐富,新起的數(shù)據(jù)分析方法一定要?jiǎng)澢褰缇€的話,就不能充分利用已有的經(jīng)驗(yàn),顯然會(huì)付出更多的不必要的成本。而從企業(yè)信息化的需求來看,將企業(yè)的決策支持系統(tǒng)看作一個(gè)整體,然后盡量從企業(yè)的一體化視圖出發(fā)來選擇和運(yùn)用已有的各種量化管理方法。一句話,就是不要神化任何量化管理方法才是正途。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10