
吃飯、睡覺、旅行、走路、購物,所有純物理性的行為都成為可被記錄數(shù)據(jù)的組成部分,這些看似與我們的生活、工作、賺錢等無關(guān)的行為,正成為新時(shí)期的價(jià)值瑰寶,谷歌、亞馬遜、Facebook、百度、阿里巴巴等均陷在其中而不能自拔。
近期,騰訊、搜房、浪潮集團(tuán)、易觀等紛紛與統(tǒng)計(jì)局簽署了大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議,再加上去年簽署的11家公司,越來越多的互聯(lián)網(wǎng)公司、傳統(tǒng)企業(yè)數(shù)據(jù)正被納入新構(gòu)建的大數(shù)據(jù)“基地”當(dāng)中。
不少人對大數(shù)據(jù)的概念有很大誤解,甚至有不少公司搭上“大數(shù)據(jù)”的概念來玩資本運(yùn)作。大數(shù)據(jù)并不僅僅是“大”,但它首先得“Bigger”,擁有足夠量級(jí)的數(shù)據(jù)才能被稱作大數(shù)據(jù),所以你看到僅僅分析幾百人的數(shù)據(jù)就說自己是大數(shù)據(jù)的公司基本上都是騙子。我不認(rèn)為當(dāng)前有多少公司量級(jí)的數(shù)據(jù)能夠是“Bigger”的。對于用戶級(jí)市場,至少該產(chǎn)品的用戶量達(dá)到億級(jí),達(dá)到該產(chǎn)業(yè)用戶量的前幾名;對于企業(yè)級(jí)市場,也至少得擁有足夠量級(jí)的企業(yè)用戶,才算得上擁有大數(shù)據(jù)的基礎(chǔ),再加上用戶使用各個(gè)產(chǎn)品的習(xí)慣大不相同,所以當(dāng)前的大數(shù)據(jù)絕對是缺憾的,抽樣數(shù)據(jù)并不準(zhǔn)確不是么?多談無益,故本文純從數(shù)據(jù)來分析。
數(shù)據(jù)的記錄
數(shù)字產(chǎn)品的出現(xiàn),迅速讓用戶的個(gè)人信息能夠被記錄,電腦、智能手機(jī)、可穿戴設(shè)備、智能硬件、未來的智能電視等正成為數(shù)據(jù)記錄的新工具,其中較為熱門的是圍繞醫(yī)療需求來建立相關(guān)的數(shù)據(jù)記錄,睡眠、血壓、體重等產(chǎn)品較多,雖然這些產(chǎn)品的用戶量并不“多”,但是硬件廠商們依然樂此不彼的做著這一切。
要想讓數(shù)據(jù)能夠真正的發(fā)揮作用,首先這些數(shù)據(jù)肯定得被記錄,必須有了記錄才會(huì)有相關(guān)的模型分析,否則都是紙上談兵。比如用戶的睡眠時(shí)間、用戶的出行時(shí)間、用戶每天所攝入食物的卡路里、用戶吃飯的消費(fèi)金額等等,所有出現(xiàn)的物理性數(shù)據(jù),只有被記錄了這些數(shù)據(jù)才會(huì)有價(jià)值,沒有記錄,這些都是“廢物”,沒人會(huì)重視這些物理性動(dòng)作的價(jià)值。
數(shù)據(jù)如何才能被記錄?首先得有工具,拿醫(yī)療為例,我們在醫(yī)院看病,醫(yī)生會(huì)使用相關(guān)儀器記錄用戶的心跳周期;我們?nèi)ゲ蛷d吃飯,餐廳會(huì)記錄每桌顧客的消費(fèi)記錄以及用戶最愛點(diǎn)的菜品;我們在網(wǎng)上使用搜索引擎,搜索引擎會(huì)記錄用戶的搜索習(xí)慣。醫(yī)療器械、ERP系統(tǒng)、電腦等成為了數(shù)據(jù)記錄的工具。
數(shù)據(jù)被記錄是用戶被動(dòng)選擇的結(jié)果,如果用戶不去醫(yī)院檢查,那么數(shù)據(jù)就不會(huì)被記錄,用戶去了B餐廳而不是A餐廳消費(fèi),A餐廳也無法獲取到用戶的喜愛。所以,可穿戴設(shè)備、智能硬件等都試圖讓用戶能夠主動(dòng)將自身的數(shù)據(jù)被記錄,應(yīng)該說這也是UGC模式的一種,用戶自愿將自身的數(shù)據(jù)提供到平臺(tái)上去,供平臺(tái)進(jìn)行分析。
被動(dòng)和主動(dòng)的區(qū)別是非常大的,被動(dòng)就意味著有用戶的數(shù)據(jù)會(huì)流失掉,當(dāng)流失掉的這部分用戶足夠多以后,新的數(shù)據(jù)模型就無法完成。記錄是數(shù)據(jù)的基礎(chǔ),接下來就是連接。
連接
用戶不可能一直在某個(gè)餐廳消費(fèi),也不可能一直在某一個(gè)地方睡眠,至于可穿戴設(shè)備,用戶也很難做到每天都按時(shí)去佩戴,讓自身的數(shù)據(jù)可以記錄。單個(gè)用戶某一行為被不同商家記錄,而這些商家記錄的數(shù)據(jù)是分離的、獨(dú)立的,無法形成連貫性,當(dāng)這些被記錄的數(shù)據(jù)到了一定時(shí)間滯后,肯定是面臨被丟棄的命運(yùn)。讓數(shù)據(jù)能夠同平臺(tái)的相互連接,要比單個(gè)“獨(dú)霸”有用的多。
另一方面,就是數(shù)據(jù)和用戶的連接,如何讓用戶的數(shù)據(jù)能夠被主動(dòng)貢獻(xiàn)出來,并通過互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)相互連接,形成數(shù)字存儲(chǔ)而不是紙質(zhì)記錄,這是當(dāng)前圍繞數(shù)據(jù)進(jìn)行創(chuàng)業(yè)者的思考。
跨界連接是最困難的,就像拼圖一樣,如何通過混亂的形體組合,形成有效的畫面。比如餐飲和超市購物、搜索和社交、電商和社交等,這些數(shù)據(jù)得形成有效的連接。單一的從搜索行為就分析出用戶的購物行為或者其他行為是有失偏頗的,搜索的需求太單一,并不能是用戶整個(gè)的行為特征。只有綜合用戶搜索、購物、社交等多個(gè)使用行為,才能有效的分析出用戶的某個(gè)行為特征。
有效的價(jià)值轉(zhuǎn)化
從記錄→連接→價(jià)值轉(zhuǎn)化,這肯定是一個(gè)漫長的過程,要知道先祖?zhèn)冇昧藬?shù)千年的時(shí)間也僅將少量的數(shù)據(jù)形成轉(zhuǎn)化并遺傳下來?;ヂ?lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)在國內(nèi)的發(fā)展還不足20年,而數(shù)據(jù)從被重視到被記錄到被連接,就更是一個(gè)漫長的過程,目前市場上的智能手環(huán)、智能手表、無線路由器、盒子等產(chǎn)品雖然都不盡人意,但是其無一不在讓數(shù)據(jù)變的有效的道路上奮斗著。
將用戶的搜索數(shù)據(jù)記錄并有效價(jià)值轉(zhuǎn)化,最早的案例是谷歌當(dāng)年預(yù)測流感病毒,當(dāng)然,已有不少互聯(lián)網(wǎng)公司都有將用戶數(shù)據(jù)記錄、連接并實(shí)現(xiàn)有效的價(jià)值轉(zhuǎn)化。互聯(lián)網(wǎng)公司離數(shù)字存儲(chǔ)最近,占據(jù)著有利條件,能夠更敏銳也是正常。
不過,僅僅有互聯(lián)網(wǎng)的數(shù)據(jù)是不完全的,用戶在線下的數(shù)據(jù),用戶在生活中的數(shù)據(jù),在更多不使用互聯(lián)網(wǎng)情況時(shí)使用的數(shù)據(jù),我把它稱之為物理數(shù)據(jù),這部分?jǐn)?shù)據(jù)是現(xiàn)實(shí)生活當(dāng)中的數(shù)據(jù),其價(jià)值要高于互聯(lián)網(wǎng)絡(luò)上的數(shù)據(jù)的,互聯(lián)網(wǎng)公司們正在吸收著這些數(shù)據(jù)。
數(shù)據(jù)的有效轉(zhuǎn)化,可以體現(xiàn)在幾個(gè)方面,一是預(yù)防,針對企業(yè)級(jí)的。應(yīng)該說每個(gè)行業(yè)都有泡沫的存在,就算沒有泡沫,也會(huì)有倒閉的風(fēng)險(xiǎn),通過對相關(guān)數(shù)據(jù)的分析,可以對未知的風(fēng)險(xiǎn)起到一定的預(yù)防措施,即使不能避免,至少能更大程度上的減少損失,并能夠助力公司挺過這場風(fēng)暴。
一是隱性價(jià)值,針對用戶級(jí)的。比如時(shí)間成本,通過地圖工具和當(dāng)?shù)毓幌到y(tǒng)對接,讓用戶實(shí)時(shí)了解公交車的到站時(shí)間,節(jié)約用戶等待公交車的時(shí)間,海量用戶的時(shí)間成本加起來,肯定是一筆不菲的價(jià)值。再比如健康預(yù)防,越來越多的慢性病開始向用戶滲透,通過對相關(guān)數(shù)據(jù)記錄、連接,讓用戶能夠盡早預(yù)防慢性病的發(fā)生,比如肥胖的問題(健康產(chǎn)品的前提是有高質(zhì)量的醫(yī)療體系在背后支撐)。
讓所有可能有價(jià)值的數(shù)據(jù)都被記錄、連接,再將這些數(shù)據(jù)分析之后,實(shí)現(xiàn)有效的價(jià)值轉(zhuǎn)化,互聯(lián)網(wǎng)公司、傳統(tǒng)企業(yè)、統(tǒng)計(jì)機(jī)構(gòu)、用戶,所有人都是這場風(fēng)暴的參與者。我們應(yīng)該給予正在為這場大風(fēng)暴做貢獻(xiàn)的企業(yè)和創(chuàng)業(yè)團(tuán)隊(duì),可能有人被“掉隊(duì)”,也有人可能在這場風(fēng)暴中崛起。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03