
白話大數(shù)據(jù),幾分鐘看懂什么是大數(shù)據(jù)
這個(gè)時(shí)代,你在外面混,無論是技術(shù)還是產(chǎn)品還是運(yùn)營還是商務(wù),如果嘴里說不出“大數(shù)據(jù)”“云存儲(chǔ)”“云計(jì)算”,真不好意思在同行面前抬頭。但是,到底什么才是大數(shù)據(jù)?是Hadoop那頭玩具小象?是千萬級別的用戶信息還是動(dòng)輒XXXTB的數(shù)據(jù)量?
其實(shí),大數(shù)據(jù)不是一門技術(shù),而是一種技能,從數(shù)據(jù)中去發(fā)現(xiàn)價(jià)值挖掘價(jià)值的技能。
一.大數(shù)據(jù)的四大誤區(qū)
01大數(shù)據(jù)就是數(shù)據(jù)大
“光大是不夠的!”當(dāng)我擲地有聲用這句話開場時(shí),正好一個(gè)妹子推門而入,聽到這句話,微微一怔,低頭坐下。
如今在很多場合,一提起大數(shù)據(jù),基本都會(huì)說“日處理數(shù)據(jù)量XXGB,上傳圖片XXGB,并發(fā)數(shù)XXX”“Hadoop集群擁有XXXX節(jié)點(diǎn),總存儲(chǔ)XXPB”……諸如此類的技術(shù)語言。但是不是數(shù)據(jù)大了,就可以達(dá)到大數(shù)據(jù)的境界,可以一起達(dá)到人生的大和諧了?
數(shù)據(jù)再大,不去使用,呆在機(jī)房里偏安一隅,那絕不是大數(shù)據(jù),而是敗家子。在這個(gè)問題上,傳統(tǒng)的門戶網(wǎng)站基本上就屬于坐擁金山卻無錢上青樓。無論搜狐新浪網(wǎng)易,每天的用戶數(shù)以億計(jì),但是除了簡單的廣告呈現(xiàn),并沒有通過對數(shù)據(jù)的分析產(chǎn)生更多的價(jià)值。之所以沒有提企鵝,是因?yàn)樗麄兪掷镉凶铨嫶蟮腝Q用戶,沒推廣但不代表沒有做,例如當(dāng)年推出QQ圈子的那種驚艷感,現(xiàn)在想起來還觸目驚心。
而對于中小網(wǎng)站來說,不用盲目追求先進(jìn)技術(shù)牛逼架構(gòu)。首先需考慮的是商業(yè)運(yùn)作和推廣,只有用戶量飆升見紅的情況下,再去考慮技術(shù)升級。給君一個(gè)雙選題,A.日登陸用戶1000人,架構(gòu)完全參照美國亞馬遜從不宕機(jī),B.日登陸用戶10萬人,每天因?yàn)楦卟l(fā)不得不宕機(jī)三次。你會(huì)選什么?
你不覺得“我那個(gè)網(wǎng)站因?yàn)橛脩籼嗵珶崆橛皱礄C(jī)了”這句話又驕傲又裝逼么?
02懂大數(shù)據(jù)就必須要懂技術(shù)
“我不懂技術(shù),我能學(xué)會(huì)大數(shù)據(jù)嗎?”
大數(shù)據(jù)更多的是一種能力,而非技能,這種能力能從無盡的數(shù)據(jù)里看出商機(jī)看出價(jià)值。諸葛亮懂兵法,他知道該在哪里伏兵該在哪里生火,他不必知道關(guān)羽是如何耍大刀,也不必知道張飛殺人時(shí),蛇矛是扎還是砍。
03所有公司都必須懂大數(shù)據(jù)
我承認(rèn)如果賣煎餅果子的大媽能開發(fā)一個(gè)APP,拿到客戶對煎餅里薄脆是否爽口,辣椒醬是否夠味的直接意見,那么很有利于產(chǎn)品的改進(jìn)。但是你會(huì)為一個(gè)3元錢的煎餅去下載一個(gè)8M的APP嗎?
而在移動(dòng)互聯(lián)網(wǎng)大會(huì)上,Evernote的CEO Phil Libin明確說自己產(chǎn)品的商業(yè)模式就是向用戶收費(fèi),讓他們甘心為產(chǎn)品體驗(yàn)付費(fèi),而不玩當(dāng)下流行的大數(shù)據(jù)那一套。
知道自己能玩什么很常見,而知道自己不能玩不必玩什么更可貴。
04數(shù)據(jù)越多越好
從陳冠希到李宗瑞,無不透露出濃濃的收藏癖。那些被大家藏在硬盤深處的姑娘們,真的有重見天日的一天嗎?無論東京熱還是加勒比,由來只有新人亞買碟,有誰聽得舊人COME ON?
而搜一搜“存款 貶值”的關(guān)鍵詞,從“五十年前的百萬變13塊”,到“一萬元存一年賠19元”都可以看出,錢必須要用才有價(jià)值,數(shù)據(jù)也是一樣。
只有不停的使用數(shù)據(jù),挖掘數(shù)據(jù)背后的關(guān)系和價(jià)值,才能如滾雪球一般,使數(shù)據(jù)之間的相互關(guān)系更豐富更完善。
二.大數(shù)據(jù)的核心思想
01有什么不重要,怎么用才重要
在會(huì)上,無奈的發(fā)現(xiàn)每當(dāng)舉男女之間的例子,眾人理解能力就飆升,而講偏產(chǎn)品技術(shù)方面時(shí),下面就一臉木然昏昏欲睡。(諸位?。?!你們是來聽色情講座呢?)
Netflix公司利用大數(shù)據(jù)來拍《紙牌屋》的勵(lì)志故事大家都聽過無數(shù)遍。Netflix是美國最大的DVD與網(wǎng)絡(luò)視頻租賃網(wǎng)站,他們在國內(nèi)有2700萬用戶,全球有3300萬。他們從流媒體視頻用戶處收集到的數(shù)據(jù)是異常驚人的,每一次搜索,每一次暫停,每一次積極或者消極的評價(jià),還有自己的位置數(shù)據(jù)設(shè)備數(shù)據(jù)社交媒體數(shù)據(jù),在分析完這些數(shù)據(jù)之后,發(fā)現(xiàn)自己的這些觀眾都喜歡演員凱文-史派西,還喜歡導(dǎo)演大衛(wèi)-芬奇,并且喜歡1990年的英國同名電視劇。三項(xiàng)綜合在一起,Netflix就下定決心拍攝《紙牌屋》,并將數(shù)據(jù)分析運(yùn)用得淋漓盡致。在Netflix的觀影頁面上,提供暫停后截圖的功能,他們就依靠這種數(shù)據(jù)來判斷觀眾更喜歡哪種布景和畫面。
當(dāng)然,這三個(gè)因素其實(shí)都有不穩(wěn)定性,例如凱文-史派西也曾拍過只被評了4.2分的《弗雷德圣誕老人》,大衛(wèi)-芬奇首次執(zhí)導(dǎo)的《異形3》也成系列中口碑最差的一部。但是從概率上來說,這三個(gè)成功因素都包括的劇集更靠譜。
另外國政通推出的“同名同姓”應(yīng)用,雖然看起來比較偏娛樂化實(shí)用性不強(qiáng),但是這背后的那些身份數(shù)據(jù)是可以進(jìn)行各種二次利用。每次看到類似應(yīng)用,我總會(huì)把前同事“操瑞士”的奇葩名字輸進(jìn)去,現(xiàn)在只有這款應(yīng)用準(zhǔn)確的找到了全國只有1個(gè)操瑞士,并且是安徽人。呼叫瑞士大使館迅速鎖定他的位置吧!
所以大數(shù)據(jù)的核心并不是擁有數(shù)據(jù),而是拿數(shù)據(jù)去做了什么。也就是說你不能僅僅占有人家的身子,也要占據(jù)人家的心靈。
02對數(shù)據(jù)的容錯(cuò)性更強(qiáng),來源更加多樣化
一個(gè)500M的用戶數(shù)據(jù)excel表算不算大數(shù)據(jù)?曾經(jīng)在做某款產(chǎn)品的用戶篩選時(shí),這么一個(gè)excel成功拖死我電腦三次,我當(dāng)時(shí)憤怒的說:“KAO,這SB大數(shù)據(jù)!”現(xiàn)在想起來,我冤枉了大數(shù)據(jù)君,您受苦了。
真正的大數(shù)據(jù),應(yīng)該是從不同維度,不同途徑過來的各種格式數(shù)據(jù)碎片,并不限于文字/視頻/聲音/位置/圖片等。只有將不同維度的數(shù)據(jù)放在一起判斷,得出來的趨勢才有可能更真實(shí)。雷同的數(shù)據(jù)積累的再多,超過某一個(gè)限度之后,我們再從新樣本上獲得的有用信息就越來越少,就如同經(jīng)濟(jì)學(xué)上的邊際效應(yīng)遞減一樣。而用簡單點(diǎn)兒的話解釋就是如果你已經(jīng)交往過五個(gè)IT碼農(nóng),那么第六個(gè)其實(shí)也不會(huì)新鮮到哪里去,倒不如重新調(diào)整方向,換個(gè)高富帥找點(diǎn)兒不同的刺激。
多樣化的來源同樣可以避免陷在一個(gè)死胡同里出不來。例如以前經(jīng)常說的“三年自然災(zāi)害”,如果僅僅去查詢這三年的天氣狀況和死亡人數(shù)的關(guān)系。那么可能最后得出結(jié)論是“晴朗天氣比陰天更容易致人死亡”。但實(shí)際上如果去結(jié)合《人民日報(bào)》畝產(chǎn)十萬斤的相關(guān)翔實(shí)公正報(bào)道再加上那些年中國糧食對外進(jìn)出口情況,那么就會(huì)得出更有建設(shè)性的結(jié)論。在一90后妹子的追問下,只說了四個(gè)數(shù)字。1958年,中國出口糧食288.34萬噸,進(jìn)口22.35萬噸。困難時(shí)期第一年,1959年,中國出口415.75萬噸,進(jìn)口0.20萬噸,那年,聽說大家都好餓。別不多說,免得喝茶。
再舉個(gè)例子,這兩天淘寶首頁給我推送的個(gè)性化廣告除了情趣用品就是“花花公子”服飾大優(yōu)惠,我不就是為了找素材和配圖搜了一下“情趣用品”么?你們沒完沒了的給我推送這個(gè),節(jié)操何在?如果你們能拿到我小學(xué)老師的評語,初中老師的評語和操行評定,高中老師的評語和操行評定,通過對多個(gè)來源不同的數(shù)據(jù)源分析,那么你們給我推送的一定會(huì)是《鋼鐵是怎么煉成的》《雷鋒日記》等好書。(大學(xué)老師的評語就算了,那廝打CS被我蹂躪了太久容易懷恨在心。)
03擁有大數(shù)據(jù)的身,也要有大數(shù)據(jù)的心
以往的數(shù)據(jù)分析,更多的是精確的樣本/深度的數(shù)據(jù)挖掘,“精確”就是其代名詞。不符合規(guī)格的樣本過濾掉,然后再深度挖掘數(shù)據(jù)字段間的關(guān)系,得出幾個(gè)精確無比數(shù)字去做PPT,或者從一系列數(shù)據(jù)里精準(zhǔn)的找到某個(gè)正一臉猥瑣偷拍姑娘的人。
但是大數(shù)據(jù)更多的是通過對各種數(shù)據(jù)分析得出某種趨勢,這種趨勢不必過于精確,但是能讓相關(guān)決策人有底氣去做某項(xiàng)決定。大數(shù)據(jù)不重要,重要的是使用大數(shù)據(jù)的人。
因?yàn)槟呐旅嫦蛲耆嗤臄?shù)據(jù)源,不同的人得出的結(jié)論或者決定也可能是截然不同的。三國赤壁大戰(zhàn),當(dāng)龐統(tǒng)獻(xiàn)計(jì)“若以大船小船各皆配搭,或三十為一排,或五十為一排,首尾用鐵環(huán)連鎖,上鋪闊板,休言人可渡,馬亦可走矣”時(shí),同時(shí)聽到這話的兩個(gè)人,曹操下席而謝,“非先生良謀,安能破東吳耶!”,而徐庶卻私下里扯住龐統(tǒng)“你好大膽,只恐燒不盡絕?!庇纱丝梢姡耙匀藶楸尽笔嵌嗝淳俚囊痪鋸U話?。?
無論你NB還是SB,數(shù)據(jù)總在那里,不離不棄。
04強(qiáng)調(diào)趨勢和未來
大數(shù)據(jù),更多的應(yīng)該是分析過去,提醒現(xiàn)在,展望未來。無法用到實(shí)踐中去的大數(shù)據(jù)都是耍流氓,無論這個(gè)結(jié)果是造福了全人類,還是幫助網(wǎng)站提高1%轉(zhuǎn)化率,這都是有用的。
上圖這充滿著暴力氣息的玩意是當(dāng)年冷戰(zhàn)期間美國和蘇聯(lián)研發(fā)的高速列車,他們將轟炸機(jī)上的渦輪直接裝在了火車頂上。其中美國的M-497號(hào)在1966年俄亥俄州的鐵軌上跑出了295.54公里/小時(shí)。雖然幾十年后,才有了現(xiàn)代高速鐵路,但是如果沒有最初的這種野蠻實(shí)驗(yàn),恐怕現(xiàn)在自主研發(fā)的高鐵也沒有那么充足的底氣。
談趨勢談大數(shù)據(jù),怎么能不提谷歌的流感趨勢呢?谷歌分析自己上億次的搜索查詢,近乎實(shí)時(shí)的提供全球許多國家和地區(qū)的流感疫情評估,從截圖可以看出,谷歌的趨勢曲線跟美國官方公布的數(shù)據(jù)重合度非常高,但是后者在時(shí)間和效率上完全無法比擬谷歌趨勢。
如果你在準(zhǔn)備出差的時(shí)候,發(fā)現(xiàn)你要去的地方正爆發(fā)鼠疫,我想大部分人肯定就哭著喊著辭職不去了。
再例如2012年美國某著名避孕套品牌發(fā)布校園性健康報(bào)告,報(bào)告表明在美國大學(xué)生中,25%得了性病,其中排名第一的是尖銳濕疣,得病率最高的學(xué)校是位于科羅拉多州的美國空軍學(xué)院(U.S. AIR FORCE ACADEMY)。然后緊接著,無聊的我又從學(xué)院官網(wǎng)中看到學(xué)校男生占比78.1%,女生占比21.9%。
從這些數(shù)據(jù)至少我們可以分析出一個(gè)結(jié)果:跟海歸一夜情之前,請查一下學(xué)位證。
三.大數(shù)據(jù)應(yīng)用瞎想
01醫(yī)療服務(wù)
通過一系列的病歷等數(shù)據(jù),得出某一類人的健康趨勢,例如“做IT8年”“每天加班6小時(shí)”“病中還堅(jiān)持工作”“每天吃盒飯”“每天一包煙提神”“每天一杯咖啡提神”將這些標(biāo)簽具體到某一群人,然后個(gè)性化的推送一條如上圖的信息。
還有人要加班嗎?
02罪案預(yù)警
通過對全市的歷史罪案以及出警紀(jì)錄得出城市各種罪案高發(fā)區(qū)域,例如剁手區(qū)/掏包區(qū)/性侵區(qū)……等等,每天發(fā)布提醒,推送到市民的手機(jī)/平板等所有終端。我相信性侵區(qū)的流氓早晚會(huì)不堪重負(fù)而投案自首的。
03大齡青年相親
此想法如果搭配上類似Google Glass的可穿戴設(shè)備就更棒了,在上百人的男女相親大會(huì)上,你帶著功能齊全的眼鏡四處看妞,系統(tǒng)自動(dòng)分析各種數(shù)據(jù),幫你找到最搭配的另一半,按照匹配度自動(dòng)走在一起。當(dāng)然,如果那時(shí)紅外線透視功能很發(fā)達(dá),能加入匹配度最高可以付費(fèi)看裸體的VIP功能就更棒了。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10