
大數(shù)據(jù)時代:數(shù)據(jù)就是一切(2)_數(shù)據(jù)分析師培訓(xùn)
在大數(shù)據(jù)時代,不光能夠把數(shù)據(jù)用來賺錢和做生意,實際上這些數(shù)據(jù)還能用到一些意想不到的地方,還能為我們的一些生活,為我們的政府決策等等都帶來一些很重要的影響?!标愑钚卤硎?,近年來,他和復(fù)旦大學(xué)的團隊做得一個研究,就是基于電商的大數(shù)據(jù)來研究出生月份與創(chuàng)業(yè)的關(guān)系。
他介紹,研究中他們使用了一個電商的平臺。用賣家和買家的比例作為基數(shù),通過電商平臺上賣家和買家的比例來看哪個月份的人更容易創(chuàng)業(yè)。
“結(jié)果確實是驗證了我們的想法,9月份出生的是創(chuàng)業(yè)比例最高的,9月份正好是在班里面年紀(jì)比較大的人。”陳宇新認(rèn)為會出現(xiàn)這樣傾向的原因是,通常我國的小學(xué)生都是8月31日之前出生的前一年入學(xué),8月31日以后出生的在后一年入學(xué)。所以如果你是9月份、10月份出生的人,你在班級里面年紀(jì)會偏大一些,年紀(jì)偏大的人從小到大在班里面都容易成為leader, 就證明確實我們教育中的8月31日這條線確實對孩子的成長和未來有影響。 “我們?yōu)槭裁醋鲞@個呢?并不是說做這個好玩?!彼硎荆F(xiàn)在有很多家長都是削尖腦袋,或者是想辦法走后門,讓自己9月份之后出生的孩子能夠提前上學(xué),否則覺得很虧。甚至有的年輕父母會選擇提前剖腹產(chǎn),讓孩子出生在8月份,不要落到9月份,這樣的話小孩就不輸在起跑線上。
陳宇新認(rèn)為,“小孩可能早上學(xué)了,但是可能就失去了成為創(chuàng)業(yè)領(lǐng)袖,成為企業(yè)家的機會,這種希望就會減少?!?/span>
因此,他認(rèn)為,大數(shù)據(jù)研究對家長的選擇,對教育的政策制定者也會有幫助。在大數(shù)據(jù)時代,大數(shù)據(jù)不但對企業(yè)的利潤產(chǎn)生影響,還能對政府的決策,對生活的方方面面都可以產(chǎn)生積極的幫助和影響。
我們看到越來越多的用戶在做大數(shù)據(jù)的投資,我們看到他們在做大數(shù)據(jù)投資的過程當(dāng)中面臨著很多的挑戰(zhàn)?!卑俜贮c集團運營副總裁韓志勇表示?!暗谝粋€挑戰(zhàn)是數(shù)據(jù)的挑戰(zhàn)?!?/span>
他認(rèn)為,如果把企業(yè)所有的數(shù)據(jù)資產(chǎn)按照所有權(quán)進行一個分類,一般分為三類:一是第一方數(shù)據(jù),就是企業(yè)自己在日常的生產(chǎn)經(jīng)營過程當(dāng)中所得到的數(shù)據(jù),這個數(shù)據(jù)的所有權(quán)百分之百歸企業(yè)所有。比如說我們企業(yè)ERP里面的數(shù)據(jù),你的訂單的數(shù)據(jù),所有的呼叫中心用戶的維修記錄等等,都是在日常生活過程當(dāng)中產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)的所有權(quán)歸企業(yè)方所有,所以叫第一方數(shù)據(jù);二是第二方數(shù)據(jù),是由企業(yè)和合作伙伴共享的數(shù)據(jù)?,F(xiàn)在越來越多的商家會在天貓、淘寶、1號店和京東上開店。開店的這些數(shù)據(jù)就是由雙方共享的數(shù)據(jù),這個數(shù)據(jù)由雙方共有;三是第三方數(shù)據(jù),包括第三方公開的數(shù)據(jù)源能夠提供數(shù)據(jù)。
“現(xiàn)在中國很多企業(yè)在做數(shù)據(jù)分析和數(shù)據(jù)研究的時候,用的僅僅是第一方的數(shù)據(jù),更多的是關(guān)注在自己企業(yè)內(nèi)部產(chǎn)生的數(shù)據(jù),這是傳統(tǒng)我們看到所有的BW、BI這樣的工具做的事情。而一個更殘酷的事實是說,即使是第一方的數(shù)據(jù),我們的企業(yè)其實用得都非常少,我們用得是什么數(shù)據(jù)?我們一般只關(guān)注交易數(shù)據(jù),事務(wù)性的數(shù)據(jù)。”他認(rèn)為,國內(nèi)很多企業(yè)的日志性的數(shù)據(jù)和過程性的數(shù)據(jù)都沒有記錄,也沒有去研究。根據(jù)百分點的研究,一個企業(yè)完整的數(shù)據(jù)資產(chǎn)里面,現(xiàn)在能夠被有效利用的不超過5%,而超過80%企業(yè)的數(shù)據(jù)資產(chǎn)其實是游離于企業(yè)之外的。
“第二個挑戰(zhàn),沒有方法?!表n志勇認(rèn)為,從數(shù)據(jù)的采集、數(shù)據(jù)的處理和數(shù)據(jù)的分析這三個角度來看,在大數(shù)據(jù)時代,現(xiàn)在越來越多的企業(yè)面臨這樣一些問題,很多企業(yè)建了大數(shù)據(jù)Hadoop平臺,但是這個Hadoop平臺如何和原有的數(shù)據(jù)銜接?能夠快速、便捷的把數(shù)據(jù)導(dǎo)入并且加以應(yīng)用?如何能夠?qū)崟r的采集線上的數(shù)據(jù)?對于第二方和第三方的數(shù)據(jù)有沒有有效的手段獲取?在數(shù)據(jù)處理上,我們不同來源的數(shù)據(jù),這些數(shù)據(jù)到底能不能整合?
他認(rèn)為,對于企業(yè)來說第三個挑戰(zhàn)是缺少工具。
“因為越來越多的企業(yè)在進行大數(shù)據(jù)分析和大數(shù)據(jù)挖掘的時候發(fā)現(xiàn),他們傳統(tǒng)的數(shù)據(jù)挖掘的工具其實是滿足不了他們的需求?!痹谒磥?,用機器識別,是我們傳統(tǒng)的數(shù)據(jù)分析工具欠缺的。我們傳統(tǒng)的數(shù)據(jù)分析工具都是基于報表,基于格式化的工具做的,對于非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)都會出問題。
他認(rèn)為,“實時計算是大數(shù)據(jù)非常典型的特征,我們說在海量數(shù)據(jù)里面商機稍縱即逝,任何一個人,一個頁面大概三秒鐘就要關(guān)掉,我們需要在三秒鐘的時間里面判斷出來這個人到底喜歡不喜歡,在這三秒鐘的時間里面能夠影響他。甚至于說我們互聯(lián)網(wǎng)廣告的展示,從識別一個人到投放廣告就100毫秒的時間,這100毫秒的時間里面怎么完成所有計算過程?對實時計算工具要求非常難,是傳統(tǒng)的挖掘工具解決不了的?!?/span>
韓軍:數(shù)據(jù)給電子商務(wù)帶來很多價值
“我們當(dāng)時不知道大數(shù)據(jù)這個名詞的時候,我們做了一個系統(tǒng),叫PI系統(tǒng)。后來在一次會議上分享,說你這就是一個大數(shù)據(jù)的案例?!?1號店的CTO韓軍這樣描述1號店最早的數(shù)據(jù)運用?!皩嶋H上我們這個系統(tǒng)就是從網(wǎng)上扒了很多數(shù)據(jù),還有網(wǎng)下,包括超市門店的數(shù)據(jù),把這些數(shù)據(jù)進行處理,然后和我們內(nèi)部的數(shù)據(jù)進行對比,最后把這個數(shù)據(jù)輸出,其中之一就是價格,我們會智能定價,其實就是這么一個系統(tǒng)?!?/span>
在他看來,電子商務(wù)相對來講對數(shù)據(jù)的需求是非常旺盛的。實際上電商本身天然就是一個數(shù)據(jù)處理的公司,因為電商和傳統(tǒng)的商業(yè)很大的不同,有大量的中間數(shù)據(jù)。傳統(tǒng)商業(yè)的數(shù)據(jù)就是小票,從用戶瀏覽到最后訂單生成,到客戶投訴,包括退換貨等等,所有的數(shù)據(jù)都存儲在系統(tǒng)里面。其實電子商務(wù)就是比傳統(tǒng)的商務(wù)多了很多的數(shù)據(jù),而這些數(shù)據(jù)給電子商務(wù)帶來了很多的價值,電商就可以利用這些數(shù)據(jù)進行自己的一些處理。
韓軍用1號店的數(shù)據(jù)運用舉例,他們是把用戶的一些人口統(tǒng)計信息,興趣圖譜、標(biāo)簽、消費類型、忠誠度、購買頻次、購買時間、訪問時長、訪問深度等等數(shù)據(jù)全部進行一個整理,這就可以得到1號店所用的用戶畫像,把用戶畫像再輸出,就產(chǎn)生了一個循環(huán)的過程?!?號店的特色就是我們對電子商務(wù)的理解更深刻,所以我們有一些針對電子商務(wù)所特定的場景分析和了解,形成我們1號店所特有的分析模型?!?/span>
他認(rèn)為,對這些數(shù)據(jù)進行分析之后,實際上最后是需要應(yīng)用場景的。他介紹,在1號店里有一個全自動的運營決策,這就是一個數(shù)據(jù)服務(wù)的應(yīng)用場景。
他舉了一個簡單的例子,其實是一個銷量的預(yù)計。根據(jù)數(shù)據(jù)的分析,銷售的預(yù)測,對于缺貨率的分析和對手動態(tài)的分析。當(dāng)然也包括地域分析,不同的地域銷售是不一樣的。像一升裝的歐德堡牛奶,上海倉庫將來在某一個時間點上會出現(xiàn)缺貨,所以形成一個決策,就是說調(diào)撥100箱牛奶,補貨1千箱牛奶。對另外一個品牌的牛奶進行促銷,從用戶的注意點,從歐德堡轉(zhuǎn)換到另外一個品牌。
“因為按照預(yù)測,歐德堡很快就要缺貨,所以是多方位的決策體系。等歐德堡牛奶補貨回來以后,可以再做歐德堡的促銷。這樣的話,使得缺貨對生意的影響最小,銷售有回升?!?/span>
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10