
大數(shù)據(jù)思維的核心是落實(shí)到價(jià)值上_數(shù)據(jù)分析師培訓(xùn)
數(shù)據(jù)現(xiàn)在是個(gè)熱點(diǎn)詞匯,關(guān)于有了大數(shù)據(jù),如何發(fā)揮大數(shù)據(jù)的價(jià)值,議論紛紛,而筆者以為,似乎這有點(diǎn)搞錯(cuò)了原因與結(jié)果,就象關(guān)聯(lián)關(guān)系,有A的時(shí)候,B與之關(guān)聯(lián),而有B的時(shí)候,A卻未必關(guān)聯(lián),筆者還是從通常的4個(gè)V來(lái)描述一下我所認(rèn)為的大數(shù)據(jù)思維。
首先是大數(shù)據(jù)的量,數(shù)據(jù)量足夠大,達(dá)到了統(tǒng)計(jì)性意義,才有價(jià)值 。 筆者看過(guò)的一個(gè)典型的案例就是,例如傳統(tǒng)的,收集幾千條數(shù)據(jù),很難發(fā)現(xiàn)血緣關(guān)系對(duì)遺傳病的影響,而一旦達(dá)到2萬(wàn)條以上,那么發(fā)現(xiàn)這種影響就會(huì)非常明顯。那 么對(duì)于我們?cè)谑占瘑?wèn)題時(shí),是為了發(fā)現(xiàn)隱藏的知識(shí)去收集數(shù)據(jù),還是不管有沒(méi)有價(jià)值地收集,這還是值得商榷的。其實(shí)收集數(shù)據(jù),對(duì)于數(shù)據(jù)本身,還是可以劃分出一 些標(biāo)準(zhǔn),確立出層級(jí),結(jié)合需求、目標(biāo)來(lái)收集,當(dāng)然有人會(huì)說(shuō),這樣的話,將會(huì)導(dǎo)致巨大的偏差,例如說(shuō)喪失了數(shù)據(jù)的完整性,有一定的主觀偏向,但是筆者以為, 這樣至少可以讓收集到的數(shù)據(jù)的價(jià)值相對(duì)較高。
第二是大數(shù)據(jù)的種類, 也可以說(shuō)成數(shù)據(jù)的維度,對(duì)于一個(gè)對(duì)象,采取標(biāo)簽化的方式,進(jìn)行標(biāo)記,針對(duì)需求進(jìn)行種類的擴(kuò)充,和數(shù)據(jù)的量一樣,筆者認(rèn)為同樣是建議根據(jù)需求來(lái)確立,但是對(duì) 于標(biāo)簽,有一個(gè)通常采取的策略,那就是推薦標(biāo)簽和自定義標(biāo)簽的問(wèn)題,分類法其實(shí)是人類文明的一大創(chuàng)舉,采取推薦標(biāo)簽的方式,可以大幅度降低標(biāo)簽的總量,而 減少后期的規(guī)約工作,數(shù)據(jù)收集時(shí)擴(kuò)充量、擴(kuò)充維度,但是在數(shù)據(jù)進(jìn)入應(yīng)用狀態(tài)時(shí),我們是希望處理的是小數(shù)據(jù)、少維度,而通過(guò)這種推薦、可選擇的方式,可以在 標(biāo)準(zhǔn)化基礎(chǔ)上的自定義,而不是毫無(wú)規(guī)則的擴(kuò)展,甚至用戶的自定義標(biāo)簽給予一定的限制,這樣可以使維度的價(jià)值更為顯現(xiàn)。
第三是關(guān)于時(shí)效性, 現(xiàn)在進(jìn)入了讀秒時(shí)代,那么在很短的時(shí)間進(jìn)行問(wèn)題分析、關(guān)聯(lián)推薦、決策等等,需要的數(shù)據(jù)量和數(shù)據(jù)種類相比以前,往往更多,換個(gè)說(shuō)法,因?yàn)榇髷?shù)據(jù)時(shí)代時(shí)效性要 求高了,所以處理數(shù)據(jù)的方式變了,以前可能多人處理,多次處理,現(xiàn)在必須變得單人處理、單次處理,那么相應(yīng)的信息系統(tǒng)、工作方式、甚至企業(yè)的組織模式,管 理績(jī)效都需要改變,例如筆者曾經(jīng)工作的企業(yè),上了ERP系統(tǒng),設(shè)計(jì)師意見(jiàn)很大,說(shuō)一個(gè)典型案例,以往發(fā)一張變更單,發(fā)出去工作結(jié)束,而上了ERP系統(tǒng)以 后,就必須為這張變更單設(shè)定物料代碼,設(shè)置需要查詢物料的存儲(chǔ),而這些是以前設(shè)計(jì)師不管的,又沒(méi)有為設(shè)計(jì)師為這些增加的工作支付獎(jiǎng)勵(lì),甚至因?yàn)槲锪系娜鄙?而導(dǎo)致變更單不能發(fā)出,以至于設(shè)計(jì)師工作沒(méi)有完成,導(dǎo)致被處罰。但是我們從把工作一次就做完,提升企業(yè)的工作效率角度,這樣的設(shè)計(jì)變更與物料集成的方式顯 然是必須的。那么作為一個(gè)工作人員,如何讓自己的工作更全面,更完整,避免王府,讓整個(gè)企業(yè)工作更具有時(shí)間的競(jìng)爭(zhēng)力,提高數(shù)據(jù)的數(shù)量、種類、處理能力是必 須的。
第四關(guān)于大數(shù)據(jù)價(jià)值, 一種說(shuō)法是大數(shù)據(jù)有大價(jià)值,還有一種是相對(duì)于以往的結(jié)構(gòu)化數(shù)據(jù)、少量數(shù)據(jù),現(xiàn)在是大數(shù)據(jù)了,所以大數(shù)據(jù)的單位價(jià)值下降。筆者以為這兩種說(shuō)法都正確,這是一 個(gè)從總體價(jià)值來(lái)看,一個(gè)從單元數(shù)據(jù)價(jià)值來(lái)看的問(wèn)題。而筆者提出一個(gè)新的關(guān)于大數(shù)據(jù)價(jià)值的觀點(diǎn),那就是真正發(fā)揮大數(shù)據(jù)的價(jià)值的另外一個(gè)思路。這個(gè)思路就是針 對(duì)企業(yè)的問(wèn)題,首先要說(shuō)什么是問(wèn)題,筆者說(shuō)的問(wèn)題不是一般意義上的問(wèn)題,因?yàn)橐徽f(shuō)問(wèn)題,大家都以為不好、錯(cuò)誤等等,而筆者的問(wèn)題的定義是指狀態(tài)與其期望狀 態(tài)的差異,包括三種模式,第一是通常意義的問(wèn)題,例如失火了,必須立即撲救,其實(shí)這是三種模式中最少的一種;第二種模式是希望保持狀態(tài),第三種模式是期望 的狀態(tài),這是比原來(lái)的狀態(tài)高一個(gè)層級(jí)的。
我們針對(duì)問(wèn)題,提出一系列解決方案,這些解決方案往往有多種,例如員工 的培訓(xùn),例如設(shè)備的改進(jìn),例如組織的方式的變化,當(dāng)然解決方案包括信息化手段、大數(shù)據(jù)手段,我們一樣需要權(quán)衡大數(shù)據(jù)的方法是不是一種相對(duì)較優(yōu)的方法,如果 是,那么用這種手段去解決,那么也就是有價(jià)值了。例如筆者知道的一個(gè)案例,一個(gè)企業(yè)某產(chǎn)品部件偶爾會(huì)出現(xiàn)問(wèn)題,企業(yè)經(jīng)歷數(shù)次后決定針對(duì)設(shè)備上了一套工控系 統(tǒng),記錄材料的溫度,結(jié)果又一次出現(xiàn)問(wèn)題時(shí),進(jìn)行分析認(rèn)為,如果工人正常上班操作,不應(yīng)該有這樣的數(shù)據(jù)記錄,而經(jīng)過(guò)與值班工人的質(zhì)詢,值班工人承認(rèn)其上晚 班時(shí)睡覺(jué),沒(méi)有及時(shí)處理。再往后,同樣的問(wèn)題再?zèng)]有再次發(fā)生。
總結(jié)起來(lái),筆者以為大數(shù)據(jù)思維的核心還是要落實(shí)到 價(jià)值上,面向問(wèn)題,收集足夠量的數(shù)據(jù),足夠維度的數(shù)據(jù),達(dá)到具有統(tǒng)計(jì)學(xué)意義,也可以滿足企業(yè)生產(chǎn)、客戶需求、甚至競(jìng)爭(zhēng)的時(shí)效要求,而不是一味為了大數(shù)據(jù)而 大數(shù)據(jù),這樣才是一種務(wù)實(shí)、有效的正確思維方式,是一線大數(shù)據(jù)的有效的項(xiàng)目推進(jìn)方式,在這樣的思維模式基礎(chǔ)上,采取滾雪球方式,把大數(shù)據(jù)逐步展開(kāi),才真正 贏來(lái)大數(shù)據(jù)百花齊放的春天
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11