
如何用人工智能從新型數(shù)據(jù)中來尋找Alpha
隨著移動(dòng)互聯(lián)網(wǎng),小型衛(wèi)星普及等,資產(chǎn)管理公司,尤其對(duì)沖基金公司開始利用人工智能從新型數(shù)據(jù)中來尋找Alpha。
本期精編版嘉賓演講為合一創(chuàng)投首席數(shù)據(jù)科學(xué)家吳海山博士帶來的分享,看了他講的內(nèi)容你會(huì)發(fā)現(xiàn),原來數(shù)據(jù)分析還可以有這樣一種不一樣的形式……
關(guān)注公眾號(hào)CDA數(shù)據(jù)分析師(ID:cdacdacda)并回復(fù)“吳海山”領(lǐng)取吳海山博士現(xiàn)場(chǎng)演講視頻和PPT。
現(xiàn)場(chǎng)紀(jì)實(shí)
首先非常感謝CDAS主辦方CDA數(shù)據(jù)分析師的邀請(qǐng),能夠在今天和大家分享一下我之前做的一些與數(shù)據(jù)分析相關(guān)的工作。先簡(jiǎn)單跟大家分享一下我來合一的很重要的動(dòng)機(jī)。之前在中國(guó)高校演講和交流中,我發(fā)現(xiàn)數(shù)據(jù)科學(xué)和大數(shù)據(jù)已經(jīng)成為很多中國(guó)學(xué)校的課程,有些學(xué)校已經(jīng)開設(shè)大數(shù)據(jù)專業(yè),甚至成立了數(shù)據(jù)科學(xué)研究院或者數(shù)據(jù)科學(xué)這個(gè)專業(yè)。但是一直沒有很好的教材和線下組織,能夠讓學(xué)生接受到更多的業(yè)界里和數(shù)據(jù)科學(xué)、數(shù)據(jù)挖掘、數(shù)據(jù)分析相關(guān)的進(jìn)展。有一次我碰到人大的趙總,發(fā)現(xiàn)CDAS是一個(gè)很好的組織,我認(rèn)為它對(duì)數(shù)據(jù)挖掘能起很大的作用。所以我義不容辭很愿意來這里跟大家分享一下。
我介紹一下自己,我現(xiàn)在合一創(chuàng)投工作,創(chuàng)始人是優(yōu)酷的創(chuàng)始人。加入合一之前我在百度研究院大數(shù)據(jù)實(shí)驗(yàn)室做人工智能和數(shù)據(jù)相關(guān)的研究。我今天和大家分享的課題是,用人工智能和新型數(shù)據(jù)在金融投資里如何尋找新的Alpha?當(dāng)時(shí)我選擇這個(gè)課題的方向也是有原因的,剛才拉鉤網(wǎng)張總介紹到,現(xiàn)在能夠促使大家學(xué)習(xí)數(shù)據(jù)分析的很重要的動(dòng)機(jī):我學(xué)習(xí)這個(gè),我的工資可能會(huì)高一些,這個(gè)是很直接的數(shù)據(jù)。還有人說,如果我學(xué)會(huì)了數(shù)據(jù)分析,我能夠用數(shù)據(jù)幫我來賺錢,也是一個(gè)很重要的動(dòng)機(jī)。所以我今天分享如何用新型的數(shù)據(jù)幫我們做投資,幫助我們從數(shù)據(jù)里找到屬于我們的財(cái)富。
首先說一下什么叫新型數(shù)據(jù)?大家做投資,做股票、債券也好,或者其他的投資收益也好,一個(gè)很重要的信息是怎么看市場(chǎng)的變化,去分析市場(chǎng)的趨勢(shì)。大家可以回想一下,從歷史上來看人類是如何在金融市場(chǎng)上分析信息的變化,來做決策的。大家如果看《人類簡(jiǎn)史》的話能夠想起來,17世紀(jì)-18世紀(jì)英國(guó)女皇投資了東印度公司,東印度公司去全世界殖民地也好,或者販賣煙草、茶葉也好,整個(gè)公司業(yè)績(jī)的表現(xiàn)很大程度上取決于有沒有海盜,而該信息的傳播直接影響這家公司財(cái)富的表現(xiàn)。當(dāng)時(shí)市場(chǎng)信息的傳達(dá)沒有這種變化,完全是靠著口頭傳播或書信傳播,效率是非常非常低的。所以最先獲取信息的人,在市場(chǎng)上就會(huì)有信息優(yōu)勢(shì)。上個(gè)世紀(jì)隨著電話、報(bào)紙的發(fā)展,其實(shí)市場(chǎng)的信息已經(jīng)開始通過報(bào)紙、電話,甚至電報(bào)傳播。
20世紀(jì)70年代我們有了新型的資訊終端和軟件,我們可以在終端上快速了解市場(chǎng)上發(fā)生的變化,幫助我們做決策。但是這個(gè)平臺(tái)有一個(gè)弊端,如上面發(fā)布的信息是公開的,像CPI反映通貨膨脹,政府一個(gè)月(每個(gè)月)公布一次,如七月份今天剛剛結(jié)束,到八月中旬公開CPI指數(shù),在市場(chǎng)上有半個(gè)月延遲,這對(duì)決策的價(jià)值已經(jīng)很小。還有其他指數(shù),像GDP是每個(gè)月甚至每年更新一次,頻率很低。另外,我們分析某公司和某企業(yè)時(shí),證券公司的分析員,會(huì)如何分析一個(gè)公司呢?實(shí)地去考察。如投資水泥公司,礦產(chǎn)公司的股票,我們是在考察,去看看這個(gè)礦產(chǎn)變化怎么樣的,工人數(shù)量有沒有增多。這個(gè)效率也是很低的,比如我下面有一千家水泥公司,我不可能一年,我就是一天去一個(gè)的話,一年也就去360個(gè),所以這個(gè)不具有可擴(kuò)展性?,F(xiàn)在隨著手機(jī)互聯(lián)網(wǎng)的發(fā)展和物聯(lián)網(wǎng)的發(fā)展,我們有了新型的數(shù)據(jù),能夠幫助我們自動(dòng)的去分析,去實(shí)時(shí)的監(jiān)測(cè)市場(chǎng)的變化來幫助我們做市場(chǎng)的決策。比如說我們現(xiàn)在有各種各樣的傳感器,比如手機(jī),我每天在手機(jī)上都留下了大家上了什么網(wǎng)站,買過什么地方,所有信息都可以聚合起來分析市場(chǎng)的變化。所以我們可以通過這種方式來去對(duì)金融市場(chǎng)的信號(hào)來做一個(gè)實(shí)時(shí)的分析。
這些新型的數(shù)據(jù)包括哪些呢?第一個(gè),我剛才講的手機(jī)傳感器數(shù)據(jù),它能獲取哪些數(shù)據(jù)?如定位、WIFI連接,這些數(shù)據(jù)能夠?qū)崟r(shí)看到這個(gè)市場(chǎng)消費(fèi)的變化,比如把所有去過某個(gè)酒店用戶的聚合起來,我就知道酒店消費(fèi)、餐飲行業(yè)等一系列就業(yè)的變化。另外就是微型衛(wèi)星,以前發(fā)射一個(gè)衛(wèi)星,這個(gè)衛(wèi)星特別大,發(fā)射成本也特別高,一個(gè)衛(wèi)星可能要幾億美元。現(xiàn)在互聯(lián)網(wǎng)的發(fā)展也在改變太空行業(yè),像美國(guó)有一家公司,它是已經(jīng)發(fā)射了大概150顆微型衛(wèi)星。這個(gè)衛(wèi)星大概也就這么大。這個(gè)衛(wèi)星的好處是基本上可以每天實(shí)時(shí)的最地球進(jìn)行觀測(cè)。我們以前觀測(cè)一個(gè)東西的時(shí)候要先打電話或者進(jìn)行預(yù)約,說能不能看中國(guó)大飯店的一個(gè)區(qū)域,如果那天正好下雨還看不到。但是這個(gè)可以對(duì)全球?qū)崿F(xiàn)7×24小時(shí)的變化,這個(gè)數(shù)據(jù)對(duì)我們做金融分析價(jià)值非常大的。尤其像農(nóng)作物、房地產(chǎn)、港口貿(mào)易。我分享幾個(gè)案例,是怎么用衛(wèi)星圖像來做金融市場(chǎng)分局分析的。
還有物聯(lián)網(wǎng)數(shù)據(jù),大家知道現(xiàn)在基本上很多傳感器上,很多設(shè)備上都已經(jīng)裝了傳感器,我們可能機(jī)器人身上有些傳感器,我們家庭用的智能家居身上有傳感器。這些傳感器可以記錄,比如物流車上的流動(dòng),可以記錄工業(yè)機(jī)器人運(yùn)行的數(shù)據(jù),還可以看智能家居的變化。通過這些傳感器的數(shù)據(jù),我們可以實(shí)時(shí)分析物流上的變化,可以看到用電量的變化等等。還有一個(gè)是大家可能無時(shí)無刻看到的攝像頭的數(shù)據(jù),這個(gè)數(shù)據(jù)有哪些作用呢?比如大家去停車場(chǎng)停車的時(shí)候有一個(gè)設(shè)備,是計(jì)費(fèi)的。這樣可以看今天來中國(guó)大飯店開會(huì)的,或者去某個(gè)商場(chǎng)消費(fèi)的客流量和車流量的變化,可以具體識(shí)別某個(gè)車型的型號(hào)。通過這種方式可以大概的估算一下,豐田汽車銷售是什么樣子的。所以這些來分析線下商場(chǎng)的商品消費(fèi),像汽車消費(fèi)。
還有像日常生活中每天能接觸到的就是支付終端的信息,像去某些地方消費(fèi),POS機(jī)信息也可以記錄消費(fèi)者刷卡數(shù)據(jù),甚至購(gòu)房、購(gòu)車數(shù)據(jù),都可以分析整體線下消費(fèi)的趨勢(shì)。
另外,現(xiàn)在越來越普及的,比如像大疆的無人機(jī),這個(gè)無人機(jī)能實(shí)時(shí)拍攝,像農(nóng)業(yè)的圖像,像房產(chǎn)現(xiàn)在正在建筑的一些工程施工的圖像。通過這些數(shù)據(jù)我們能來分析一些農(nóng)業(yè)、地產(chǎn),或者建設(shè)工程實(shí)地進(jìn)展的變化。
這里顯示的圖是說哪些公司正在搜集和分析這些數(shù)據(jù)。我舉個(gè)例子,左邊這個(gè)是全部用來分析衛(wèi)星圖像的,就是剛才講的美國(guó)的那家公司,這是Google投的一家公司,這個(gè)主要是為對(duì)沖基金公司來做服務(wù)的。還有像可以通過簽到的數(shù)據(jù)發(fā)現(xiàn)線索下某個(gè)餐飲店銷量的變化,他們用這個(gè)變化分析某個(gè)公司的財(cái)務(wù)的表現(xiàn),結(jié)果是非常的準(zhǔn)。還一個(gè)比較有意思的,這個(gè)公司是用來搜集用戶信用卡刷卡數(shù)據(jù),通過這個(gè)數(shù)據(jù)聚合來具體分析,比如說沃爾瑪每天的銷量,來通過這個(gè)看線下實(shí)時(shí)銷售變化。會(huì)發(fā)現(xiàn)很多創(chuàng)業(yè)公司去來分析相關(guān)的數(shù)據(jù),或者說叫一些新型的數(shù)據(jù)。我覺得這個(gè)趨勢(shì)在美國(guó)已經(jīng)發(fā)生,我覺得它在中國(guó)也正在發(fā)生,我認(rèn)為接下來一段時(shí)間中國(guó)越來越多的公司通過新型數(shù)據(jù)分析為金融投資市場(chǎng)做決策。
這是金融市場(chǎng)信息擴(kuò)散的一個(gè)表,左邊的是任何人都能看到的金融市場(chǎng)的一些數(shù)據(jù),比如像每個(gè)公司發(fā)布財(cái)報(bào)的信息,每個(gè)公司股價(jià)的歷史信息,這個(gè)信息是每個(gè)人都能獲取,每個(gè)人都能來分析,它能在市場(chǎng)產(chǎn)生Alpha的價(jià)格就很小了;但是新型的數(shù)據(jù),像我提到的衛(wèi)星圖像的,甚至像微博等等數(shù)據(jù)都能用來分析做投資。還有一些數(shù)據(jù)是剛興起的,就是我剛才講的,像物聯(lián)網(wǎng)數(shù)據(jù),包括無人機(jī)的數(shù)據(jù),還有小型衛(wèi)星Google地圖的數(shù)據(jù),這些信息我認(rèn)為在接下來的市場(chǎng)能夠產(chǎn)生Alpha的價(jià)值是非常大的。在座的各位如果想從事金融行業(yè)和數(shù)據(jù)行業(yè),我覺得這塊大家可以重點(diǎn)來關(guān)注的。
我現(xiàn)在分享一下我之前做過的用新型數(shù)據(jù)來做投資的案例。第一個(gè),我們用定位的數(shù)據(jù)。這個(gè)是我們展示了手機(jī)定位數(shù)據(jù)一天的在除夕這一天全國(guó)用定位的可視化結(jié)果。大家看定位數(shù)據(jù)的本身,我們下面是沒有放任何地圖,這個(gè)可視化的定位數(shù)據(jù)本身已經(jīng)能展示整個(gè)中國(guó)的輪廓,如果我們?cè)俜糯笠幌?,還能夠看到具體的空間上的構(gòu)造,比如看到黃河的輪廓,還有海河輪廓。發(fā)現(xiàn)人的定位數(shù)據(jù)的足跡可以非常好的刻畫空間上的信息。這個(gè)對(duì)金融投資價(jià)值是非常大的。這是靜態(tài)的。
還有一個(gè)展示北京一天二十四小時(shí)的動(dòng)態(tài)變化。
還有一個(gè)沒有提到的,就是用人工智能的數(shù)據(jù)分析線下消費(fèi)的數(shù)據(jù)。我剛才提到一個(gè)指數(shù),叫CPI指數(shù)來衡量通貨膨脹的,這個(gè)數(shù)據(jù)一般是政府,像國(guó)家統(tǒng)計(jì)局每個(gè)月都會(huì)有調(diào)查員實(shí)地的調(diào)查考察和分析。美國(guó)有一家公司,它用圖像分析的方式來去看市場(chǎng)上價(jià)格變化,怎么做呢?比如大家每天去超市買東西,買完東西以后如果用手機(jī)拍下小票的照片,或者能夠在超市看到價(jià)格的圖片,拍上去后后面會(huì)用人工智能的方式分析這個(gè)圖片,它后面會(huì)找到價(jià)格的信息。它通過這種方式可以實(shí)時(shí)看任何一個(gè)國(guó)家線下消費(fèi)數(shù)據(jù),這樣可以看到每天的通貨膨脹的變化。這個(gè)數(shù)據(jù)已經(jīng)被世界銀行和很多組織來應(yīng)用這個(gè)數(shù)據(jù)。
還有用衛(wèi)星圖像分析,大家看這是用衛(wèi)星圖像捕捉到地球上某個(gè)國(guó)家,某個(gè)區(qū)域儲(chǔ)存石油的儲(chǔ)油罐的圖片。他們會(huì)有一些算法,能夠根據(jù)圖片識(shí)別出儲(chǔ)油罐陰影面積的大小來算高度,進(jìn)而通過這種方式算五可能的儲(chǔ)油量的變化。通過這種方式可以每天掃一遍全球儲(chǔ)油量的變化,這對(duì)全球石油交易非常有用的。還有用衛(wèi)星圖像看區(qū)域經(jīng)濟(jì)發(fā)展的,像我剛才講的世界銀行,世界銀行想去為非洲不發(fā)達(dá)國(guó)家貸款,它面臨的問題是到底貸多少款給他們,像有些國(guó)家長(zhǎng)期處于戰(zhàn)亂無法獲取這個(gè)信息。但是可以通過衛(wèi)星圖像,像這個(gè)地方樓型建筑比較好,可以認(rèn)為比較發(fā)達(dá),還有些房屋是破破爛爛的,所以斯坦福大學(xué)建立了一套方法,根據(jù)衛(wèi)星圖像來進(jìn)行分析來為世界銀行提供服務(wù)。
還可以看一個(gè)零售商的變化,以美國(guó)為例,美國(guó)超市都建在郊區(qū),大家買東西都把車停在商場(chǎng)的旁邊。如果通過衛(wèi)星圖像和機(jī)器學(xué)習(xí)的方式,識(shí)別每天商場(chǎng)旁邊停多少車,就可以測(cè)算出來每天有多少人來超市。
我們做的工作是用衛(wèi)星圖像和結(jié)合其他的數(shù)據(jù)去識(shí)別空間區(qū)域的功能。第一,我們左邊是衛(wèi)星圖像,然后又結(jié)合路網(wǎng)的信息,比如我們這個(gè)區(qū)域是一個(gè)路,然后再結(jié)合剛才說的手機(jī)移動(dòng)數(shù)據(jù)定位,然后我們自動(dòng)識(shí)別這個(gè)區(qū)域是工行,這個(gè)區(qū)域是寫字樓。這是我們叫全卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)算法,我就不展開說了,大家可以在我們網(wǎng)站上看到這個(gè)算法。這個(gè)是我們識(shí)別出來的幾個(gè)案例,這兩個(gè)案例都是我們識(shí)別出來的功能上的區(qū)域,這個(gè)邊界是通過算法識(shí)別出來的功能邊界。這個(gè)是通過深度學(xué)習(xí)再結(jié)合衛(wèi)星圖像去識(shí)別空間區(qū)域功能。還有一個(gè)移動(dòng)手機(jī)定位的數(shù)據(jù),我把這兩個(gè)數(shù)據(jù)結(jié)合起來,比如左邊的圖是上海的一個(gè)地圖,右邊兩個(gè):藍(lán)色的區(qū)域代表了我們用剛才的算法去識(shí)別的工廠,下面的區(qū)域是我們用這個(gè)算法來識(shí)別的商場(chǎng)寫字樓。我們有了這兩個(gè)區(qū)域之后,我們?cè)俳Y(jié)合用戶的定位數(shù)據(jù),比如這是一個(gè)用戶的線下移動(dòng)的規(guī)矩,用有機(jī)算法來算出用戶去什么地方消費(fèi),在什么地方驅(qū)逐。把這些信息聚合起來可以實(shí)時(shí)看某個(gè)區(qū)域的勞動(dòng)力的變化。尤其是對(duì)證券和投行的分析師,他們調(diào)研的時(shí)候工廠必須去考察,但是現(xiàn)在有了衛(wèi)星圖像可以識(shí)別這個(gè)區(qū)域,和有多少人在這兒工作,就可以識(shí)別出來這個(gè)區(qū)域的勞動(dòng)力觀察,就不用去現(xiàn)場(chǎng)考察了。
這個(gè)圖可以看到勞動(dòng)力在第六年有明顯的下滑,這個(gè)倒閉的其中一個(gè)是蘇州的工廠。下面兩個(gè)是反過來的,有很多人搬到這里工作,或者說這個(gè)公司融資完之后開始大規(guī)模的擴(kuò)張,會(huì)發(fā)現(xiàn)勞動(dòng)力也有大幅度提升。通過這種方式我就可以實(shí)時(shí)來看全國(guó)的各個(gè)工業(yè)園區(qū)勞動(dòng)力的變化。如果說把勞動(dòng)力數(shù)量聚合起來,就可以來看基本上整個(gè)中國(guó)范圍內(nèi)宏觀的就業(yè)趨勢(shì)的變化。大家知道衡量宏觀經(jīng)濟(jì)還有一個(gè)指標(biāo),叫失業(yè)率。失業(yè)率在中國(guó)每年政府工作公布的數(shù)字都是在4%。我們的數(shù)據(jù)其實(shí)發(fā)現(xiàn),可能結(jié)果不一定是這個(gè)樣子的,我們這個(gè)給出來是一個(gè),我們發(fā)現(xiàn)就業(yè)園區(qū)就業(yè)的趨勢(shì)其實(shí)整體來講是有一定的下滑的。但是正如剛才拉鉤網(wǎng)展示的數(shù)據(jù)發(fā)現(xiàn),其實(shí)我們發(fā)現(xiàn)新興工業(yè)園區(qū),尤其像高科技園區(qū),或者像生物制藥園區(qū),它的就業(yè)趨勢(shì)是上升的。所以說新興工業(yè)園區(qū)就業(yè)趨勢(shì)我們認(rèn)為是比較好的。
這是我們給出了全國(guó)非常大的四千個(gè)商業(yè)中心的數(shù)據(jù),我們剛才講通過衛(wèi)星數(shù)據(jù)可以識(shí)別商場(chǎng)的邊界,可以通過定位數(shù)據(jù)識(shí)別到每天有多少人來這里消費(fèi)。把兩個(gè)聚合起來可以看到全國(guó)范圍宏觀的線下整體消費(fèi)趨勢(shì)。這里其實(shí)包括了很多像銀泰或者萬達(dá)很多商超聚合的結(jié)果。我們也可以看具體的某個(gè)公司的趨勢(shì)來做分析的。
剛才講到通過衛(wèi)星圖像來獲取一個(gè)區(qū)域邊界,再通過定位的方式聚合,來去看這個(gè)區(qū)域的消費(fèi)和就業(yè)。還一個(gè)方式,比如銀泰商場(chǎng)有一個(gè)海底撈,如何看海底撈里具體的消費(fèi)呢?我們有一個(gè)深度學(xué)習(xí)的算法,能夠自動(dòng)識(shí)別預(yù)測(cè)用戶是不是到訪這樣一個(gè)具體地點(diǎn)的概率。大體就是我們會(huì)用很多種數(shù)據(jù),像定位數(shù)據(jù)、簽到等數(shù)據(jù),然后結(jié)合貝音絲深度學(xué)習(xí)的算法來預(yù)測(cè)客戶到訪海底撈的概率。有了這個(gè)到訪概率我們算法的準(zhǔn)確度非常高。所以如果能預(yù)測(cè)某個(gè)客戶具體到訪每個(gè)地方的話,就可以看用戶到某個(gè)地點(diǎn)的客流量的變化,這是我們預(yù)測(cè)的用戶到訪大中華區(qū)中國(guó)大陸的30個(gè)蘋果旗艦店的客流量的變化。通過客流的變化預(yù)測(cè)蘋果公司在大中華區(qū)財(cái)務(wù)營(yíng)收的變化。前兩次我們模型的誤差都非常低,在2015年Q4預(yù)測(cè)的結(jié)果可能要上升15%,它們財(cái)報(bào)結(jié)果是14%。另外一次我們認(rèn)為它2016年結(jié)果要下滑25%,它們財(cái)報(bào)是26%。這個(gè)其實(shí)從另外一個(gè)側(cè)面證明了,通過簽到的數(shù)據(jù),WIFI定位的數(shù)據(jù)去預(yù)測(cè)一個(gè)公司的營(yíng)收結(jié)果是靠譜的。
還有預(yù)測(cè)電影院的票房收入,我們可以通過歷史的時(shí)間序列建一個(gè)模型去預(yù)測(cè)。我們現(xiàn)在是把用戶去到訪電影院或者搜索電影院,或者簽到電影院數(shù)量作為一個(gè)特征去預(yù)測(cè)電影票收入,我們發(fā)現(xiàn)這個(gè)模型準(zhǔn)確度提升的非常高。紅色的結(jié)果是我們使用了新型數(shù)據(jù)預(yù)測(cè)結(jié)果,藍(lán)色的結(jié)果是我們只用時(shí)間序列預(yù)測(cè),發(fā)現(xiàn)誤差降低非常多。如果我們預(yù)測(cè)比較準(zhǔn),可以預(yù)測(cè)電影院營(yíng)收的狀況。這個(gè)B,我們預(yù)測(cè)了保利的電影院,我們預(yù)測(cè)的誤差非常小。我們對(duì)新型數(shù)據(jù)預(yù)測(cè)這家連鎖電影院票房結(jié)果是非常準(zhǔn)的。但是用同樣的方法預(yù)測(cè)另外一家電影院,發(fā)現(xiàn)曾經(jīng)有一段時(shí)間預(yù)測(cè)的誤差特別高,像8-9月份。我們模型預(yù)測(cè)的票房收入可能會(huì)比較少,但是它報(bào)出來的電影票房非常高。后來我們調(diào)查,因?yàn)檫@個(gè)電影院上映了《捉妖記》,進(jìn)行了電影票房的作弊。
我們看一下具體行業(yè)的,這個(gè)是汽車的,這個(gè)是我們用新型數(shù)據(jù)到訪4S店的數(shù)據(jù),這樣可以看出來汽車銷量變化。為了證明我們結(jié)果是靠譜的,我們把我們數(shù)據(jù),藍(lán)色的線和汽車工業(yè)協(xié)會(huì)的線做了對(duì)比,我們發(fā)現(xiàn)我們的趨勢(shì)跟它們非常吻合的。但是我們的結(jié)果好處是,新型數(shù)據(jù)可以實(shí)時(shí)分析這個(gè)市場(chǎng)的變化。所以我們結(jié)果對(duì)分析市場(chǎng)變化是有很大的優(yōu)勢(shì)的。
第二個(gè)產(chǎn)業(yè),是線下餐飲行業(yè)的變化,我們把所有的到訪,像麥當(dāng)勞、全聚德等店的到訪,我們做了中國(guó)線下餐飲消費(fèi)指數(shù)。為了證明我們這個(gè)比較靠譜,我們和另外一家公司的指數(shù)對(duì)比,是銀聯(lián),大家在POS機(jī)上刷卡的指數(shù),我們發(fā)現(xiàn)在2016年之前整體是非常吻合的,但是我們的結(jié)果在2016年之后線下餐飲行業(yè)的趨勢(shì)下滑非常嚴(yán)重的。后來我們調(diào)研分析我們認(rèn)為我們結(jié)果更靠譜,因?yàn)橛绕涫窍裢赓u行業(yè),其實(shí)在很大程度上影響了線下很多餐飲行業(yè)的變化,很多人可能就直接叫外賣,不用去餐飲店吃了。
還有一個(gè)應(yīng)用就是對(duì)房地產(chǎn)投資的。大家知道這種情況在中國(guó)是非常常見的,就是中國(guó)有很多空的樓盤沒有人住。很多媒體開始報(bào)道哪些地方是鬼城。但是沒有一家用數(shù)據(jù)的方式幫助我們分析這個(gè)城市是否空的很厲害,到底空的多厲害?我們剛才講過我們可以用用戶手機(jī)定位的數(shù)據(jù)和手機(jī)圖像的數(shù)據(jù),我們可以通過機(jī)器學(xué)習(xí)和人工智能算法去識(shí)別,從而我們發(fā)現(xiàn)中國(guó)很多的空置率,這是我們給出九個(gè)空城特別多的區(qū)域。這個(gè)是鄂爾多斯,這個(gè)城市非常有意思,之前大家說鄂爾多斯是空城,這個(gè)空在什么地方呢,其實(shí)大家沒有概念的。我們發(fā)現(xiàn)一個(gè)非常有意思的現(xiàn)象,是鄂爾多斯的新城區(qū)空的很厲害,就是左下角這個(gè),跟媒體報(bào)道是比較一致的。還有右上角發(fā)現(xiàn)主城區(qū)的郊區(qū)空置的樓盤也很多。這個(gè)城市很有意思,就是很多由于原來逐漸衰敗的城市除了新城區(qū)衰落,其實(shí)郊區(qū)的一些房子入住率也是比較低的,很重要的原因就是這個(gè)地方的就業(yè)率開始下降,很多真開始搬到其他地方去居住和工作了。但是我們也發(fā)現(xiàn)一個(gè)比較意思的現(xiàn)象,是之前媒體報(bào)道特別多的城市是鄭州的新區(qū),但是我們數(shù)據(jù)發(fā)現(xiàn)現(xiàn)在越來越多的年輕人愿意去新區(qū)工作。我們認(rèn)為鄭州新區(qū)不能再是傳說中的空城。這是我們用數(shù)據(jù)發(fā)現(xiàn)中國(guó)房地產(chǎn)的變化。
我們的研究也獲得了很多國(guó)內(nèi)外知名媒體的報(bào)道,這是一些報(bào)道我們相關(guān)研究的媒體。
非常感謝大家在周末時(shí)間來到CDAS現(xiàn)場(chǎng),非常高興能與大家分享之前做的研究。謝謝。
CDA堅(jiān)持打造高端數(shù)據(jù)分析學(xué)習(xí)社區(qū)和數(shù)據(jù)分析認(rèn)證
CDA 數(shù)據(jù)分析師,作為國(guó)內(nèi)領(lǐng)先的數(shù)據(jù)分析師人才教育品牌,一直致力于打造中國(guó)最棒的數(shù)據(jù)分析學(xué)習(xí)社區(qū)。旨在加強(qiáng)國(guó)內(nèi)外乃至全球范圍內(nèi)正規(guī)化、科學(xué)化、專業(yè)化的數(shù)據(jù)分析人才隊(duì)伍建設(shè),進(jìn)一步提升數(shù)據(jù)分析師的職業(yè)素養(yǎng)與能力水平,促進(jìn)數(shù)據(jù)分析行業(yè)的高質(zhì)量持續(xù)快速發(fā)展。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10