
在2011年、2012年大數(shù)據(jù)概念火了之后,可以說這幾年許多傳統(tǒng)企業(yè)也好,互聯(lián)網(wǎng)企業(yè)也好,都把自己的業(yè)務給大數(shù)據(jù)靠一靠,并且提的比較多的大數(shù)據(jù)思維。
那么大數(shù)據(jù)思維是怎么回事?我們來看兩個例子:
首先,我們來看一下輸入法的例子。
我2001年上大學,那時用的輸入法比較多的是智能ABC,還有微軟拼音,還有五筆。那時候的輸入法比現(xiàn)在來說要慢的很多,許多時候輸一個詞都要選好幾次,去選詞還是調整才能把這個字打出來,效率是非常低的。
到了2002年,2003年出了一種新的輸出法——紫光拼音,感覺真的很快,鍵盤沒有按下去字就已經跳出來了。但是,后來很快發(fā)現(xiàn)紫光拼音輸入法也有它的問題,比如當時互聯(lián)網(wǎng)發(fā)展已經比較快了,會經常出現(xiàn)一些新的詞匯,這些詞匯在它的詞庫里沒有的話,就很難敲出來這個詞。
在2006年左右,搜狗輸入法出現(xiàn)了。搜狗輸入法基于搜狗本身是一個搜索,它積累了一些用戶輸入的檢索詞這些數(shù)據(jù),用戶用輸入法時候產生的這些詞的信息,將它們進行統(tǒng)計分析,把一些新的詞匯逐步添加到詞庫里去,通過云的方式進行管理。
比 如,去年流行一個詞叫“然并卵”,這樣的一個詞如果用傳統(tǒng)的方式,因為它是一個重新構造的詞,在輸入法是沒辦法通過拼音“ran bing luan”直接把它找出來的。然而,在大數(shù)據(jù)思維下那就不一樣了,換句話說,我們先不知道有這么一個詞匯,但是我們發(fā)現(xiàn)有許多人在輸入了這個詞匯,于是, 我們可以通過統(tǒng)計發(fā)現(xiàn)最近新出現(xiàn)的一個高頻詞匯,把它加到司庫里面并更新給所有人,大家在使用的時候可以直接找到這個詞了。
再 來看一個地圖的案例,在這種電腦地圖、手機地圖出現(xiàn)之前,我們都是用紙質的地圖。這種地圖差不多就是一年要換一版,因為許多地址可能變了,并且在紙質地圖 上肯定是看不出來,從一個地方到另外一個地方怎么走是最好的?中間是不是堵車?這些都是有需要有經驗的各種司機才能判斷出來。
在有了百度地圖這樣的產品就要好很多,比如:它能告訴你這條路當前是不是堵的?或者說能告訴你半個小時之后它是不是堵的?它是不是可以預測路況情況?
此 外,你去一個地方它可以給你規(guī)劃另一條路線,這些就是因為它采集到許多數(shù)據(jù)。比如:大家在用百度地圖的時候,有GPS地位信息,基于你這個位置的移動信 息,就可以知道路的擁堵情況。另外,他可以收集到很多用戶使用的情況,可以跟交管局或者其他部門來采集一些其他攝像頭、地面的傳感器采集的車輛的數(shù)量的數(shù) 據(jù),就可以做這樣的判斷了。
這里,我們來看一看紙質的地圖跟新的手機地圖之間,智能ABC輸入法跟搜狗輸入法都有什么區(qū)別?
這 里面最大的差異就是有沒有用上新的數(shù)據(jù)。這里就引來了一個概念——數(shù)據(jù)驅動。有了這些數(shù)據(jù),基于數(shù)據(jù)上統(tǒng)計也好,做其他挖掘也好,把一個產品做的更加智 能,變得更加好,這個跟它對應的就是之前可能沒有數(shù)據(jù)的情況,可能是拍腦袋的方式,或者說我們用過去的,我們想清楚為什么然后再去做這個事情。這些相比之 下數(shù)據(jù)驅動這種方式效率就要高很多,并且有許多以前解決不了的問題它就能解決的非常好。
對于數(shù)據(jù)驅動這一點,可能有些人從沒有看數(shù)的習慣到了看數(shù)的習慣那是一大進步,是不是能看幾個數(shù)這就叫數(shù)據(jù)驅動了呢?這還遠遠不夠,這里來說一下什么是數(shù)據(jù)驅動?或者現(xiàn)有的創(chuàng)業(yè)公司在進行數(shù)據(jù)驅動這件事情上存在的一些問題。
一種情況大家在公司里面有一個數(shù)據(jù)工程師,他的工作職責就是跑數(shù)據(jù)。
不 管是市場也好,產品也好,運營也好,老板也好,大家都會有各種各樣的數(shù)據(jù)需求,但都會提給他。然而,這個資源也是有限的,他的工作時間也是有限的,只能一 個一個需求去處理,他本身工作很忙,大家提的需求之后可能并不會馬上就處理,可能需要等待一段時間。即使處理了這個需求,一方面他可能數(shù)據(jù)準備的不全,他 需要去采集一些數(shù)據(jù),或做一些升級,他要把數(shù)據(jù)拿過來。拿過來之后又在這個數(shù)據(jù)上進行一些分析,這個過程本身可能兩三天時間就過去了,如果加上等待的時間 更長。
對于有些人來說,這個等待周期太長,整個時機可能就錯過了。比如,你重要的就 是考察一個節(jié)日或者一個開學這樣一個時間點,然后想搞一些運營相關的事情,這個時機可能就錯過去了,許多人等不到了,有些同學可能就干脆還是拍腦袋,就不 等待這個數(shù)據(jù)了。這個過程其實就是說效率是非常低的,并不是說拿不到這個數(shù)據(jù),而是說效率低的情況下我們錯過了很多機會。
對于還有一些公司來說,之前可能連個數(shù)都沒有,現(xiàn)在有了一個儀表盤,有了儀表盤可以看到公司上個季度、昨天總體的這些數(shù)據(jù),還是很不錯的。
對老板來說肯定還是比較高興,但是,對于市場、運營這些同學來說可能就還不夠。
比 如,我們發(fā)現(xiàn)某一天的用戶量跌了20%,這個時候肯定不能放著不管,需要查一查這個問題出在哪。這個時候,只看一個宏觀的數(shù)那是遠遠不夠的,我們一般要對 這個數(shù)據(jù)進行切分,按地域、按渠道,按不同的方式去追查,看到底是哪少了,是整體少了,還是某一個特殊的渠道獨特的地方它這個數(shù)據(jù)少了,這個時候單單靠一 個儀表盤是不夠的。
理想狀態(tài)的數(shù)據(jù)驅動應該是怎么樣的?就是一個自助式的數(shù)據(jù)分析,讓業(yè)務人員每一個人都能自己去進行數(shù)據(jù)分析,掌握這個數(shù)據(jù)。
前 面我講到一個模式,我們源頭是一堆雜亂的數(shù)據(jù),中間有一個工程師用來跑這個數(shù)據(jù),然后右邊是接各種業(yè)務同學提了需求,然后排隊等待被處理,這種方式效率是 非常低的。理想狀態(tài)來說,我們現(xiàn)象大數(shù)據(jù)源本身整好,整全整細了,中間提供強大的分析工具,讓每一個業(yè)務員都能直接進行操作,大家并發(fā)的去做一些業(yè)務上的 數(shù)據(jù)需求,這個效率就要高非常多。
大數(shù)據(jù)分析這件事用一種非技術的角度來看的話,就可以分成金字塔,自底向上的是三個部分,第一個部分是數(shù)據(jù)采集,第二個部分是數(shù)據(jù)建模,第三個部分是數(shù)據(jù)分析,我們來分別看一下。
首先來說一下數(shù)據(jù)采集,我在百度干了有七年是數(shù)據(jù)相關的事情。我最大的心得——數(shù)據(jù)這個事情如果想要更好,最重要的就是數(shù)據(jù)源,數(shù)據(jù)源這個整好了之后,后面的事情都很輕松。
用一個好的查詢引擎、一個慢的查詢引擎無非是時間上可能消耗不大一樣,但是數(shù)據(jù)源如果是差的話,后面用再復雜的算法可能都解決不了這個問題,可能都是很難得到正確的結論。
我覺得好的數(shù)據(jù)處理流程有兩個基本的原則,一個是全,一個是細。
全:
就 是說我們要拿多種數(shù)據(jù)源,不能說只拿一個客戶端的數(shù)據(jù)源,服務端的數(shù)據(jù)源沒有拿,數(shù)據(jù)庫的數(shù)據(jù)源沒有拿,做分析的時候沒有這些數(shù)據(jù)你可能是搞歪了。另外, 大數(shù)據(jù)里面講的是全量,而不是抽樣。不能說只抽了某些省的數(shù)據(jù),然后就開始說全國是怎么樣??赡苡行┦》浅L厥?,比如新疆、西藏這些地方客戶端跟內地可能 有很大差異的。
細:
其 實就是強調多維度,在采集數(shù)據(jù)的時候盡量把每一個的維度、屬性、字段都給它采集過來。比如:像where、who、how這些東西給它替補下來,后面分析 的時候就跳不出這些能夠所選的這個維度,而不是說開始的時候也圍著需求。根據(jù)這個需求確定了產生某些數(shù)據(jù),到了后面真正有一個新的需求來的時候,又要采集 新的數(shù)據(jù),這個時候整個迭代周期就會慢很多,效率就會差很多,盡量從源頭抓的數(shù)據(jù)去做好采集。
有了數(shù)據(jù)之后,就要對數(shù)據(jù)進行加工,不能把原始的數(shù)據(jù)直接報告給上面的業(yè)務分析人員,它可能本身是雜亂的,沒有經過很好的邏輯的。
這里就牽扯到數(shù)據(jù)建框,首先,提一個概念就是數(shù)據(jù)模型。許多人可能對數(shù)據(jù)模型這個詞產生一種畏懼感,覺得模型這個東西是什么高深的東西,很復雜,但其實這個事情非常簡單。
我春節(jié)期間在家干過一件事情,我自己家里面家譜在文革的時候被燒了,后來家里的長輩說一定要把家譜這些東西給存檔一下,因為我會電腦,就幫著用電腦去理了一下這些家族的數(shù)據(jù)這些關系,整個族譜這個信息。
我們現(xiàn)實是一個個的人,家譜里面的人,通過一個樹型的結構,還有它們之間數(shù)據(jù)關系,就能把現(xiàn)實實體的東西用幾個簡單圖給表示出來,這里就是一個數(shù)據(jù)模型。
數(shù)據(jù)模型就是對現(xiàn)實世界的一個抽象化的數(shù)據(jù)的表示。我們這些創(chuàng)業(yè)公司經常是這么一個情況,我們現(xiàn)在這種業(yè)務,一般前端做一個請求,然后對請求經過處理,再更新到數(shù)據(jù)庫里面去,數(shù)據(jù)庫里面建了一系列的數(shù)據(jù)表,數(shù)據(jù)表之間都是很多的依賴關系。
比如,就像我圖片里面展示的這樣,這些表一個業(yè)務項發(fā)展差不多一年以上它可能就牽扯到幾十張甚至上百張數(shù)據(jù)表,然后把這個表直接提供給業(yè)務分析人員去使用,理解起來難度是非常大的。
這個數(shù)據(jù)模型是用于滿足你正常的業(yè)務運轉,為產品正常的運行而建的一個數(shù)據(jù)模型。但是,它并不是一個針對分析人員使用的模型。如果,非要把它用于數(shù)據(jù)分析那就帶來了很多問題。比如:它理解起來非常麻煩。
另外,數(shù)據(jù)分析很依賴表之間的這種格子,比如:某一天我們?yōu)榱颂嵘阅?,對某一表進行了拆分,或者加了字段、刪了某個字短,這個調整都會影響到你分析的邏輯。
這里,最好要針對分析的需求對數(shù)據(jù)重新進行解碼,它內容可能是一致的,但是我們的組織方式改變了一下。就拿用戶行為這塊數(shù)據(jù)來說,就可以對它進行一個抽象,然后重新把它作為一個判斷表。
用 戶在產品上進行的一系列的操作,比如瀏覽一個商品,然后誰瀏覽的,什么時間瀏覽的,他用的什么操作系統(tǒng),用的什么瀏覽器版本,還有他這個操作看了什么商 品,這個商品的一些屬性是什么,這個東西都給它進行了一個很好的抽象。這種抽樣的很大的好處很容易理解,看過去一眼就知道這表是什么,對分析來說也更加方 便。
在數(shù)據(jù)分析方,特別是針對用戶行為分析方面,目前比較有效的一個模型就是多維數(shù)據(jù)模型,在線分析處理這個模型,它里面有這個關鍵的概念,一個是維度,一個是指標。
維度比如城市,然后北京、上海這些一個維度,維度西面一些屬性,然后操作系統(tǒng),還有IOS、安卓這些就是一些維度,然后維度里面的屬性。
通過維度交叉,就可以看一些指標問題,比如用戶量、銷售額,這些就是指標。比如,通過這個模型就可以看來自北京,使用IOS的,他們的整體銷售額是怎么樣的。
這里只是舉了兩個維度,可能還有很多個維度??傊ㄟ^維度組合就可以看一些指標的數(shù),大家可以回憶一下,大家常用的這些業(yè)務的數(shù)據(jù)分析需求是不是許多都能通過這種簡單的模式給抽樣出來。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03