99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀你用Python做過什么有趣的數(shù)據(jù)挖掘項目?
你用Python做過什么有趣的數(shù)據(jù)挖掘項目?
2016-04-06
收藏

你用Python做過什么有趣的數(shù)據(jù)挖掘項目?

大概一年多以前,和幾個小伙伴均認(rèn)同一個趨勢:覺得通過技術(shù)手段獲取網(wǎng)上越來越豐富的數(shù)據(jù),并基于這些數(shù)據(jù)做分析及可視化,必能產(chǎn)生有價值的結(jié)果,幫助大家改善生活。(大數(shù)據(jù)被叫爛了,所以用低調(diào)的方式來解釋我們的初心)

第一步:開工,為基金服務(wù)

恰巧和幾個基金的朋友(包括對沖基金和 VC/PE 基金)聊到這個趨勢,他們非常認(rèn)同這個觀點并愿意付費,認(rèn)為可以用這種實時且定量的方式來跟蹤一些上市公司或者私有公司旗下的產(chǎn)品,來確定誰是有價值的投資目標(biāo)。于是立馬獲得訂單并促使我們開干,因為考慮到 Python 靈活及各類爬蟲庫的優(yōu)勢,最終選用 Python 來做數(shù)據(jù)獲取的主體架構(gòu);也有新潮的小伙伴使用 Go,同時用 Go 搭建了一個很酷的框架來制造分布式的智能爬蟲,應(yīng)對各種反爬策略。抓取數(shù)據(jù)主要來自于如下網(wǎng)站:

各應(yīng)用商店:獲取 App 的下載量及評論

大眾點評及美團網(wǎng):餐飲及各類線下門店消費及評價情況

汽車之家及易車:汽車的相關(guān)數(shù)據(jù)

58 及搜房;房屋租售數(shù)據(jù)

新浪微博用戶的各種發(fā)言及輿論

財經(jīng)數(shù)據(jù):雪球及各類財經(jīng)網(wǎng)站

宏觀數(shù)據(jù)網(wǎng)站:天氣、12306 火車、機票網(wǎng)站

最初的產(chǎn)品純粹是為基金服務(wù)。下圖是在各個維度找出最有價值的 App,各種量級范圍內(nèi)在 30 /7 天增長最快及評價最好榜單。(順便吹一下牛,我們這個榜單很早就發(fā)現(xiàn)小紅書 App 的快速增長趨勢以及在年輕人中的極佳口碑)

下圖是對某個 App 的下載量跟蹤,幫著基金做盡職調(diào)查。

下圖是某上市公司的門店變化情況,幫著基金跟蹤 TA 的增長情況。

下圖是國內(nèi)各個機場的實時流量,幫著基金跟蹤國內(nèi)出行的實時情況,或許能從一個側(cè)面反映經(jīng)濟是否正在走入下行通道。

第二步:擴展思路,開源和分享

為 基金服務(wù),雖然給錢爽快,但是也讓方向越走越窄。首先,基金希望信息是獨享的和封閉的,投資就是投資人之間的零和博弈,公開的信息就迅速會一錢不值,基金 最在乎的就是信息的獨享及提前量,所以各個基金都希望我們呈現(xiàn)的數(shù)據(jù)及分析結(jié)果能夠獨家。這樣迅速讓我們的方向收窄以及工作的趣味性降低,其次,畢竟對于 基金而言,能分析的投資對象及方向是非常有限的。而且現(xiàn)階段,大部分對沖基金里面的分析員的數(shù)據(jù)分析能力其實很弱:這些分析員里面能用 VBA 或者能在 Excel 里面使用矩陣及向量乘法的人幾乎可以驚為天人;能寫 offset 函數(shù)的人,就應(yīng)該直接提拔了;大部分人停留在一個個數(shù)網(wǎng)頁找數(shù)據(jù)的階段。所以和他們起來十分費勁,除了提供一些粗暴的數(shù)據(jù),并不能產(chǎn)生太有價值的結(jié)果。

在 這段迷茫期,本來充滿激情的數(shù)據(jù)分析工作,讓大家味如爵蠟,感覺自己變成了一個外包公司。不過互聯(lián)網(wǎng)大法好,做技術(shù)做互聯(lián)網(wǎng)的核心思路是分享和開源,我們 很快回歸到這一點。并且這一點最終讓我們做出了改變。有些分析雖然基金不買單,但是對一般的老百姓、對一般的媒體是有價值的,于是我們試著把這些數(shù)據(jù)分析 及結(jié)果寫出來,發(fā)布到知乎上供大家參考。

知乎是個好平臺,堅持創(chuàng)作好內(nèi)容遲早就會被發(fā)掘出來。很快一篇用數(shù)據(jù)分析黃燜雞米飯為什么火遍全國的回答(黃燜雞米飯是怎么火起來的? - 何明科的回答)被知乎日報采用了。

這次被寵幸讓團隊興奮不已,從而堅定了決心,徹底調(diào)整了整個思路,回到初心:不以解決基金關(guān)注的問題為核心,而以解決用戶最關(guān)注的生活問題為核心。堅持以數(shù)據(jù)說話的套路,創(chuàng)作了許多點贊很多的文章并多次被知乎日報采用,并專注在如下的領(lǐng)域:

汽車。比如:一年當(dāng)中買車的最佳時間為何時? - 何明科的回答,什么樣的車可以被稱為神車? - 何明科的回答

餐飲。比如:為什么麥當(dāng)勞和肯德基都開始注重現(xiàn)磨咖啡的推廣,其優(yōu)勢與星巴克等傳統(tǒng)咖啡行業(yè)相比在哪里? - 何明科的回答

消費品。比如:口罩(http://zhuanlan.zhihu.com/hemingke/20391296),尿不濕(http://zhuanlan.zhihu.com/hemingke/20385894

招聘。比如:互聯(lián)網(wǎng)人士年底怎么找工作(http://zhuanlan.zhihu.com/hemingke/20450600

房地產(chǎn),這個虐心的行業(yè)。比如:深圳的房地產(chǎn)走勢(http://zhuanlan.zhihu.com/hemingke/20135185

投融資。比如:用 Python 抓取投資條款的數(shù)據(jù)并做 NLP 以及數(shù)據(jù)分析http://zhuanlan.zhihu.com/hemingke/20514731

還共享了一些和屌絲青年生活最相關(guān)的分析及數(shù)據(jù)。下圖是深圳市早晨高峰時段某類人群出行的熱點圖,通過熱點分析,試圖找出這類人群的居住和上班的聚集區(qū)。

下圖反映了在各時間段在深圳科技園附近下車的人群密度。

寫這些報告,團隊沒有掙到一分錢,但是整個成就感和滿意度大大上升。同時,在 Python 及各種技術(shù)上的積累也提高頗多,數(shù)據(jù)量級的積累也越發(fā)豐富,數(shù)據(jù)相關(guān)的各項技術(shù)也在不斷加強。同時,順勢擴大了數(shù)據(jù)源:京東、淘寶等數(shù)據(jù)也納入囊中。

第三步:擴展客戶

在知乎上寫這些報告,除了收獲知名度,還收獲意外之喜,一些知名品牌的消費品公司、汽車公司及互聯(lián)網(wǎng)公司,主動找我們做一些數(shù)據(jù)抓取及分析。整個團隊沒有一個 BD,也從來不請客戶吃飯。于是我們順勢做了如下的網(wǎng)站以及一個成熟的 Dashboard 框架(開發(fā)數(shù)據(jù)監(jiān)控的 Dashboard 超有效率),目前主要監(jiān)控和分析母嬰、白酒、汽車及房地產(chǎn)四大行業(yè),都是一些愿意花錢進(jìn)行深度了解用戶以及行業(yè)趨勢的公司。收入自動上門,很開心!

下圖是抓取汽車之家的數(shù)據(jù),做出 BBA(奔馳寶馬奧迪)這三大豪華品牌的交叉關(guān)注度,幫助品牌及 4A 公司了解他們用戶的忠誠度以及品牌之間遷移的難度。

下圖是抓取新浪微博的數(shù)據(jù),分析廣東白酒的消費場所。

下圖是抓取新浪微博的數(shù)據(jù),分析廣東白酒和各類食品的相關(guān)度。

除 去為以上的品牌合作,我們數(shù)據(jù)風(fēng)的文章也越來越受歡迎,曾經(jīng)一周上了四次知乎日報。另外也有越來越多的知名媒體及出版社找到我們,雖然告知他們我們不寫軟 文而只堅持按照數(shù)據(jù)結(jié)果來發(fā)表文章,他們依然表示歡迎。原來非五毛獨立立場的數(shù)據(jù)風(fēng)也能被媒體喜歡。自此,我們不斷成為易車首頁經(jīng)常推薦的專欄。

第四步:嘗試功能化平臺化產(chǎn)品

降低與高大上基金的合作強度,轉(zhuǎn)而與更接地氣的各類品牌合作,讓我們團隊更貼近客戶、更貼近真實需求。于是基于這些需求,我們開始嘗試將之前在數(shù)據(jù)方面的積累給產(chǎn)品化,特別是能做出一些平臺級的產(chǎn)品,于是我們開發(fā)出兩款產(chǎn)品:第一款:選址應(yīng)用選址是現(xiàn)在許多公司頭疼的難題,以前完全是拍腦袋。因此我們開發(fā)出這樣一套工具,幫助公司能夠更理性更多維度得選址。下圖,我們抓取多個數(shù)據(jù)源并完成拼接,根據(jù)用戶的快遞地址,勾畫出某時尚品牌用戶的住址,幫助其選址在北京開門店。

下圖,我們抓取多個數(shù)據(jù)源并完成拼接,根據(jù)大型超市及便利店與某類型餐館在廣州地區(qū)的重合情況,幫助某飲料品牌選定最應(yīng)該進(jìn)入的零售店面。

第二款:數(shù)據(jù)可視化我們在工作中也深刻覺得以前制作圖表和展示數(shù)據(jù)的方式太 low、太繁瑣,我們希望去改變這個現(xiàn)狀,于是開發(fā)了一套基于 Web 來制作圖表的工具文圖。遠(yuǎn)有 Excel/Powerpoint 對標(biāo),近有 Tableau 對標(biāo)。下圖是文圖豐富的案例庫及模板庫。

下圖是使用界面及圖表類型。

下一步的工作:與微信的整合,一鍵生成適合于微信傳播的截圖以及公眾號格式文章,便于在社交媒體的傳播收集更多數(shù)據(jù),目前已經(jīng)覆蓋 40 多家網(wǎng)站,涵蓋衣食住行等多個方面將數(shù)據(jù) SaaS 化和開源,便于各類公司及用戶使用。(咨詢投行等 Professional Service 人士一定會懂的,你們每年不知道要重復(fù)多少遍更新各類宏觀微觀的經(jīng)濟和行業(yè)數(shù)據(jù),現(xiàn)在只需要調(diào)用 KPI)最后,希望有一天它能部分替代已經(jīng)在江湖上混跡二三十年的 PowerPoint Excel。

第五步:……

不可知的未來才是最有趣的。借用并篡改我們投資人的一句話:technology is fun, data is cool and science is sexy。初心未變,希望用數(shù)據(jù)用技術(shù)幫助更多的人生活得更美好。

從文中,大家可以看到一個創(chuàng)業(yè)小團隊艱辛的摸索過程。從一開始的一個想法,希望通過技術(shù)和科學(xué)改變世界,到碰巧能賺錢,到因為賺錢快而迷失了方向,到最后回歸初心,做自己最喜歡的事情。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }