
你用Python做過什么有趣的數(shù)據(jù)挖掘項目?
大概一年多以前,和幾個小伙伴均認(rèn)同一個趨勢:覺得通過技術(shù)手段獲取網(wǎng)上越來越豐富的數(shù)據(jù),并基于這些數(shù)據(jù)做分析及可視化,必能產(chǎn)生有價值的結(jié)果,幫助大家改善生活。(被叫爛了,所以用低調(diào)的方式來解釋我們的初心)
第一步:開工,為基金服務(wù)
恰巧和幾個基金的朋友(包括對沖基金和 VC/PE 基金)聊到這個趨勢,他們非常認(rèn)同這個觀點并愿意付費,認(rèn)為可以用這種實時且定量的方式來跟蹤一些上市公司或者私有公司旗下的產(chǎn)品,來確定誰是有價值的投資目標(biāo)。于是立馬獲得訂單并促使我們開干,因為考慮到 Python 靈活及各類爬蟲庫的優(yōu)勢,最終選用 Python 來做數(shù)據(jù)獲取的主體架構(gòu);也有新潮的小伙伴使用 Go,同時用 Go 搭建了一個很酷的框架來制造分布式的智能爬蟲,應(yīng)對各種反爬策略。抓取數(shù)據(jù)主要來自于如下網(wǎng)站:
■各應(yīng)用商店:獲取 App 的下載量及評論
■大眾點評及美團網(wǎng):餐飲及各類線下門店消費及評價情況
■汽車之家及易車:汽車的相關(guān)數(shù)據(jù)
■58 及搜房;房屋租售數(shù)據(jù)
■新浪 : 的各種發(fā)言及輿論
■財經(jīng)數(shù)據(jù):雪球及各類財經(jīng)網(wǎng)站
■宏觀數(shù)據(jù)網(wǎng)站:天氣、12306 火車、機票網(wǎng)站
最初的產(chǎn)品純粹是為基金服務(wù)。下圖是在各個維度找出最有價值的 App,各種量級范圍內(nèi)在 30 天 /7 天增長最快及評價最好榜單。(順便吹一下牛,我們這個榜單很早就發(fā)現(xiàn)小紅書 App 的快速增長趨勢以及在年輕人中的極佳口碑)
下圖是對某個 App 的下載量跟蹤,幫著基金做盡職調(diào)查。
下圖是某上市公司的門店變化情況,幫著基金跟蹤 TA 的增長情況。
下圖是國內(nèi)各個機場的實時流量,幫著基金跟蹤國內(nèi)出行的實時情況,或許能從一個側(cè)面反映經(jīng)濟是否正在走入下行通道。
第二步:擴展思路,開源和分享
為 基金服務(wù),雖然給錢爽快,但是也讓方向越走越窄。首先,基金希望信息是獨享的和封閉的,投資就是投資人之間的零和博弈,公開的信息就迅速會一錢不值,基金 最在乎的就是信息的獨享及提前量,所以各個基金都希望我們呈現(xiàn)的數(shù)據(jù)及分析結(jié)果能夠獨家。這樣迅速讓我們的方向收窄以及工作的趣味性降低,其次,畢竟對于 基金而言,能分析的投資對象及方向是非常有限的。而且現(xiàn)階段,大部分對沖基金里面的分析員的能力其實很弱:這些分析員里面能用 VBA 或者能在 Excel 里面使用矩陣及向量乘法的人幾乎可以驚為天人;能寫 offset 函數(shù)的人,就應(yīng)該直接提拔了;大部分人停留在一個個數(shù)網(wǎng)頁找數(shù)據(jù)的階段。所以和他們起來十分費勁,除了提供一些粗暴的數(shù)據(jù),并不能產(chǎn)生太有價值的結(jié)果。
在 這段迷茫期,本來充滿激情的數(shù)據(jù)分析工作,讓大家味如爵蠟,感覺自己變成了一個外包公司。不過互聯(lián)網(wǎng)大法好,做技術(shù)做互聯(lián)網(wǎng)的核心思路是分享和開源,我們 很快回歸到這一點。并且這一點最終讓我們做出了改變。有些分析雖然基金不買單,但是對一般的老百姓、對一般的媒體是有價值的,于是我們試著把這些數(shù)據(jù)分析 及結(jié)果寫出來,發(fā)布到知乎上供大家參考。
知乎是個好平臺,堅持創(chuàng)作好內(nèi)容遲早就會被發(fā)掘出來。很快一篇用數(shù)據(jù)分析黃燜雞米飯為什么火遍全國的回答(黃燜雞米飯是怎么火起來的? - 何明科的回答)被知乎日報采用了。
這次被 “寵幸” 讓團隊興奮不已,從而堅定了決心,徹底調(diào)整了整個思路,回到初心:不以解決基金關(guān)注的問題為核心,而以解決用戶最關(guān)注的生活問題為核心。堅持以數(shù)據(jù)說話的套路,創(chuàng)作了許多點贊很多的文章并多次被知乎日報采用,并專注在如下的領(lǐng)域:
■汽車。比如:一年當(dāng)中買車的最佳時間為何時? - 何明科的回答,什么樣的車可以被稱為神車? - 何明科的回答
■餐飲。比如:為什么麥當(dāng)勞和肯德基都開始注重現(xiàn)磨咖啡的推廣,其優(yōu)勢與星巴克等傳統(tǒng)咖啡行業(yè)相比在哪里? - 何明科的回答
■消費品。比如:口罩(http://zhuanlan.zhihu.com/hemingke/20391296),尿不濕(http://zhuanlan.zhihu.com/hemingke/20385894)
■招聘。比如:互聯(lián)網(wǎng)人士年底怎么找工作(http://zhuanlan.zhihu.com/hemingke/20450600)
■房地產(chǎn),這個虐心的行業(yè)。比如:深圳的房地產(chǎn)走勢(http://zhuanlan.zhihu.com/hemingke/20135185)
■投融資。比如:用 Python 抓取投資條款的數(shù)據(jù)并做 NLP 以及數(shù)據(jù)分析:http://zhuanlan.zhihu.com/hemingke/20514731
還共享了一些和屌絲青年生活最相關(guān)的分析及數(shù)據(jù)。下圖是深圳市早晨高峰時段某類人群出行的熱點圖,通過熱點分析,試圖找出這類人群的居住和上班的聚集區(qū)。
下圖反映了在各時間段在深圳科技園附近下車的人群密度。
寫這些報告,團隊沒有掙到一分錢,但是整個成就感和滿意度大大上升。同時,在 Python 及各種技術(shù)上的積累也提高頗多,數(shù)據(jù)量級的積累也越發(fā)豐富,數(shù)據(jù)相關(guān)的各項技術(shù)也在不斷加強。同時,順勢擴大了數(shù)據(jù)源:京東、淘寶等數(shù)據(jù)也納入囊中。
第三步:擴展客戶
在知乎上寫這些報告,除了收獲知名度,還收獲意外之喜,一些知名品牌的消費品公司、汽車公司及互聯(lián)網(wǎng)公司,主動找我們做一些數(shù)據(jù)抓取及分析。整個團隊沒有一個 BD,也從來不請客戶吃飯。于是我們順勢做了如下的網(wǎng)站以及一個成熟的 Dashboard 框架(開發(fā)數(shù)據(jù)監(jiān)控的 Dashboard 超有效率),目前主要監(jiān)控和分析母嬰、白酒、汽車及房地產(chǎn)四大行業(yè),都是一些愿意花錢進(jìn)行深度了解用戶以及行業(yè)趨勢的公司。收入自動上門,很開心!
下圖是抓取汽車之家的數(shù)據(jù),做出 BBA(奔馳寶馬奧迪)這三大豪華品牌的交叉關(guān)注度,幫助品牌及 4A 公司了解他們用戶的忠誠度以及品牌之間遷移的難度。
下圖是抓取新浪微博的數(shù)據(jù),分析廣東白酒的消費場所。
下圖是抓取新浪微博的數(shù)據(jù),分析廣東白酒和各類食品的相關(guān)度。
除 去為以上的品牌合作,我們數(shù)據(jù)風(fēng)的文章也越來越受歡迎,曾經(jīng)一周上了四次知乎日報。另外也有越來越多的知名媒體及出版社找到我們,雖然告知他們我們不寫軟 文而只堅持按照數(shù)據(jù)結(jié)果來發(fā)表文章,他們依然表示歡迎。原來非五毛獨立立場的數(shù)據(jù)風(fēng)也能被媒體喜歡。自此,我們不斷成為易車首頁經(jīng)常推薦的專欄。
第四步:嘗試功能化平臺化產(chǎn)品
降低與高大上基金的合作強度,轉(zhuǎn)而與更接地氣的各類品牌合作,讓我們團隊更貼近客戶、更貼近真實需求。于是基于這些需求,我們開始嘗試將之前在 方面的積累給產(chǎn)品化,特別是能做出一些平臺級的產(chǎn)品,于是我們開發(fā)出兩款產(chǎn)品:第一款:選址應(yīng)用選址是現(xiàn)在許多公司頭疼的難題,以前完全是拍腦袋。因此我們開發(fā)出這樣一套工具,幫助公司能夠更理性更多維度得選址。下圖,我們抓取多個數(shù)據(jù)源并完成拼接,根據(jù) 的快遞地址,勾畫出某時尚品牌用戶的住址,幫助其選址在北京開門店。
下圖,我們抓取多個數(shù)據(jù)源并完成拼接,根據(jù)大型超市及便利店與某類型餐館在廣州地區(qū)的重合情況,幫助某飲料品牌選定最應(yīng)該進(jìn)入的零售店面。
第二款:數(shù)據(jù)可視化我們在工作中也深刻覺得以前制作圖表和展示數(shù)據(jù)的方式太 low、太繁瑣,我們希望去改變這個現(xiàn)狀,于是開發(fā)了一套基于 Web 來制作圖表的工具文圖。遠(yuǎn)有 Excel/Powerpoint 對標(biāo),近有 Tableau 對標(biāo)。下圖是文圖豐富的案例庫及模板庫。
下圖是使用界面及圖表類型。
下一步的工作:與微信的整合,一鍵生成適合于微信傳播的截圖以及公眾號格式文章,便于在社交媒體的傳播收集更多數(shù)據(jù),目前已經(jīng)覆蓋 40 多家網(wǎng)站,涵蓋衣食住行等多個方面將數(shù)據(jù) SaaS 化和開源,便于各類公司及用戶使用。(咨詢投行等 Professional Service 人士一定會懂的,你們每年不知道要重復(fù)多少遍更新各類宏觀微觀的經(jīng)濟和行業(yè)數(shù)據(jù),現(xiàn)在只需要調(diào)用 KPI)最后,希望有一天它能部分替代已經(jīng)在江湖上混跡二三十年的 PowerPoint 及 Excel。
第五步:……
不可知的未來才是最有趣的。借用并篡改我們投資人的一句話:technology is fun, data is cool and science is sexy。初心未變,希望用數(shù)據(jù)用技術(shù)幫助更多的人生活得更美好。
從文中,大家可以看到一個 小團隊艱辛的摸索過程。從一開始的一個想法,希望通過技術(shù)和科學(xué)改變世界,到碰巧能賺錢,到因為賺錢快而迷失了方向,到最后回歸初心,做自己最喜歡的事情。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03