
通過(guò)大數(shù)據(jù)技術(shù)實(shí)現(xiàn)企業(yè)運(yùn)營(yíng)效率的提升是我們當(dāng)前的一個(gè)重要目標(biāo),但這項(xiàng)工作并不是每個(gè)企業(yè)都那么容易上手。在1月21日的“10億說(shuō) TalkingData移動(dòng)互聯(lián)網(wǎng)產(chǎn)業(yè)指數(shù)數(shù)據(jù)報(bào)告發(fā)布會(huì)”上,多名業(yè)內(nèi)專家及TalkingData高層為我們分享了釋放大數(shù)據(jù)價(jià)值現(xiàn)存的一些坑,以及我們可以怎么解決。
所謂10億說(shuō),是指TalkingData的平臺(tái)現(xiàn)在已經(jīng)覆蓋了10.6億的移動(dòng)智能設(shè)備,包括iOS、Android的系統(tǒng)平臺(tái),包括智能手機(jī)、平板、智能電視等等不同的設(shè)備形態(tài)。
專家說(shuō):真正的分析還在嬰兒期
全國(guó)手機(jī)媒體委員會(huì)、中國(guó)手機(jī)移動(dòng)互聯(lián)產(chǎn)業(yè)聯(lián)盟秘書長(zhǎng)吳紅曉,中國(guó)工程院院士、中國(guó)移動(dòng)互聯(lián)發(fā)展指數(shù)專家組首席科學(xué)家倪光南,以及北京大學(xué)新媒體研究院副院長(zhǎng)劉德寰在發(fā)布會(huì)上分享了他們對(duì)大數(shù)據(jù)的觀點(diǎn),從不同的角度指出了目前大數(shù)據(jù)應(yīng)用面臨的許多挑戰(zhàn)。
吳紅曉:
目前很多單一的數(shù)據(jù)庫(kù)的量都已經(jīng)很大,已經(jīng)超過(guò)了幾個(gè)PB的規(guī)模,但是同時(shí)數(shù)據(jù)的規(guī)模越大,處理的難度也越來(lái)越大。有兩方面的挑戰(zhàn):
倪光南:
劉德寰:
整個(gè)中國(guó)云計(jì)算和大數(shù)據(jù)研發(fā)過(guò)程當(dāng)中有幾個(gè)很大的問(wèn)題:
Talking Data說(shuō):大數(shù)據(jù)全面解析2014移動(dòng)互聯(lián)網(wǎng)
長(zhǎng)期以來(lái)鉆研的分布式的運(yùn)算架構(gòu)、海量的數(shù)據(jù)處理和數(shù)據(jù)挖掘的算法,TalkingData使用自研的一個(gè)移動(dòng)大數(shù)據(jù)的統(tǒng)計(jì)分析平臺(tái),將這10億部智能終端的數(shù)據(jù)作為數(shù)據(jù)藍(lán)本,從多個(gè)維度對(duì)移動(dòng)互聯(lián)網(wǎng)用戶的數(shù)據(jù)進(jìn)行對(duì)比分析,給出整個(gè)行業(yè)觀察的結(jié)果。
TalkingData數(shù)據(jù)平臺(tái)部總監(jiān)陶京琪在發(fā)布會(huì)上詳細(xì)講解這份2014年TalkingData移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)報(bào)告。報(bào)告圍繞“移動(dòng)互聯(lián)網(wǎng)行業(yè)概況”、“移動(dòng)互聯(lián)網(wǎng)用戶行為”、“移動(dòng)應(yīng)用整體盤點(diǎn)”、“移動(dòng)互聯(lián)網(wǎng)用戶線下消費(fèi)習(xí)慣”等不同主題,多維度分析了2014年中國(guó)移動(dòng)產(chǎn)業(yè)的整體發(fā)展?fàn)顩r。(如果您對(duì)這份報(bào)告感興趣,可通過(guò)訪問(wèn)TalkingData官方網(wǎng)站免費(fèi)下載)
報(bào)告顯示,移動(dòng)互聯(lián)網(wǎng)已經(jīng)度過(guò)了需求集中于通訊與社交方面的“萌芽期”和以購(gòu)物與娛樂(lè)為代表的“初步發(fā)展期”,邁入到“高速發(fā)展期”,這一時(shí)期,出行、醫(yī)療、教育、餐飲等與生活密切相關(guān)的細(xì)分領(lǐng)域應(yīng)用紛紛涌現(xiàn),多元化生活服務(wù)為用戶帶來(lái)極大便利,線上與線下聯(lián)動(dòng)(O2O)成趨勢(shì)。典型應(yīng)用的不斷涌現(xiàn),也讓O2O行業(yè)迎來(lái)用戶增長(zhǎng)與資本市場(chǎng)融資雙重?zé)岢保苿?dòng)端的消費(fèi)閉環(huán)正逐漸形成。
對(duì)話Talking Data:技術(shù)、數(shù)據(jù)源與中立是關(guān)鍵
在發(fā)布會(huì)之后,TalkingData COO 徐懿、TalkingData產(chǎn)品副總裁閆輝、TalkingData售前總監(jiān)戴民和TalkingData數(shù)據(jù)平臺(tái)部總監(jiān)陶京琪一同接受了CSDN記者的采訪,更深入地解析了TalkingData的大數(shù)據(jù)實(shí)踐經(jīng)驗(yàn),如何破解前述專家提到的問(wèn)題,以及TalkingData的技術(shù)能為企業(yè)和開發(fā)者帶來(lái)什么。
TalkingData認(rèn)為,大數(shù)據(jù)最重要的,是運(yùn)用分析結(jié)果為整個(gè)企業(yè)運(yùn)營(yíng)服務(wù)。然而,單個(gè)企業(yè)的數(shù)據(jù),不足以反應(yīng)整個(gè)行業(yè)的動(dòng)態(tài),我們更需要的通過(guò)對(duì)整個(gè)行業(yè)的數(shù)據(jù)的分析來(lái)獲得最優(yōu)決策的依據(jù)——這與舍恩伯格“不是隨機(jī)數(shù)據(jù),而是全體數(shù)據(jù)”的思想相吻合。也并不是所有全體數(shù)據(jù)都靠譜,TalkingData還強(qiáng)調(diào),目前只有中立的第三方平臺(tái)才能保證數(shù)據(jù)分析結(jié)果的參考價(jià)值。當(dāng)然,實(shí)現(xiàn)整個(gè)行業(yè)數(shù)據(jù)的中立分析,其基礎(chǔ)還是要有一個(gè)可靠的大數(shù)據(jù)技術(shù)平臺(tái),能夠容納收集整個(gè)行業(yè)的數(shù)據(jù)量及其多樣性,有數(shù)據(jù)互聯(lián)互通的統(tǒng)一接口,還要能保證分析的實(shí)時(shí)性、有效性。
問(wèn):如何理解中國(guó)大數(shù)據(jù)應(yīng)用還處在起步階段?
答:很多企業(yè)沒(méi)有辦法把存儲(chǔ)的數(shù)據(jù)用到平常的銷售優(yōu)化、服務(wù)優(yōu)化上來(lái),因?yàn)樗麄冞€不具備這樣的分析能力。大數(shù)據(jù)使用里面最關(guān)鍵的一點(diǎn),就是怎么樣把業(yè)務(wù)變成是大數(shù)據(jù)驅(qū)動(dòng)的。從這點(diǎn)上來(lái)講,無(wú)論是在傳統(tǒng)的行業(yè)里,即使是在互聯(lián)網(wǎng)行業(yè)里,大數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)這件事情都還在起步階段。
以手游為例,很多游戲的運(yùn)營(yíng)還是靠具體負(fù)責(zé)人拍腦袋決做決策,而不是利用收集的大數(shù)據(jù)發(fā)現(xiàn)一些規(guī)律性的東西讓運(yùn)營(yíng)更加順暢——譬如有效預(yù)知和挽救可能會(huì)流失的用戶,保持游戲的收入。數(shù)據(jù)量并不一定要多大,但是后面流失的模型是基于很多游戲,包括他自己的游戲,也包括其他的游戲,在很多游戲里面我們算出來(lái)一個(gè)模型,把這個(gè)模型用回到這個(gè)游戲里面,對(duì)游戲運(yùn)營(yíng)做指導(dǎo)。
TalkingData針對(duì)于此的做法,首先是做一些行業(yè)標(biāo)準(zhǔn)的東西,很容易把大家孤立的數(shù)據(jù)全部打通,或者匯總在一個(gè)DMP數(shù)據(jù)管理平臺(tái)里面,對(duì)于企業(yè)來(lái)講,先幫他建立第一方的數(shù)據(jù),讓他把數(shù)據(jù)能夠管理起來(lái),對(duì)用戶做一個(gè)畫像。第二,他的數(shù)據(jù)有可能跟第三方的數(shù)據(jù)進(jìn)行打通,他可以利用很多第三方的數(shù)據(jù)。
所以說(shuō),大數(shù)據(jù)的應(yīng)用范圍可能會(huì)比我們?cè)瓉?lái)簡(jiǎn)單的理解我有一大堆數(shù)據(jù)怎么去處理它,比這個(gè)更高級(jí)一點(diǎn),更多的現(xiàn)在會(huì)產(chǎn)生在不同的領(lǐng)域跨界的一些數(shù)據(jù)的應(yīng)用上面。
問(wèn):TalkingData的技術(shù)有什么獨(dú)特的技術(shù)?
答:從數(shù)據(jù)的分析、挖掘角度來(lái)說(shuō),大家都是用OLAP模型,按照指標(biāo)維度存起來(lái),然后反復(fù)的切割、切片、抽取,這種技術(shù)模型大家基本上都是相似的。我們也采用了如Hadoop、Hive、Storm、Spark等開源的技術(shù)。但我們?cè)诖髷?shù)據(jù)行業(yè),在技術(shù)上還是小有貢獻(xiàn)的,因?yàn)槲覀儼炎约旱挠?jì)算引擎和推薦的算法,還有一些挖掘算法,以及我們的存儲(chǔ)模型,都有一些開源系統(tǒng),我們內(nèi)部有個(gè)代號(hào)叫派系統(tǒng),這樣的系統(tǒng)也經(jīng)常跟市場(chǎng)上做技術(shù)框架的系統(tǒng)做交流和切磋。比如有一個(gè)系統(tǒng)開源的叫麒麟系統(tǒng),都是做大數(shù)據(jù)運(yùn)算的。我們也不能自己說(shuō)自己談得上領(lǐng)先,但是總是愿意去分享自己在這塊的知識(shí)。
問(wèn):我們能為企業(yè)開發(fā)者提供哪些方便?
答:所有的生意都是要解決兩個(gè)問(wèn)題:怎么獲得客人,以及怎么經(jīng)營(yíng)他們。基于此,我們用全行業(yè)的大數(shù)據(jù)平臺(tái)幫助企業(yè)找到客戶。第二個(gè)方面,我們提供一整套基于大數(shù)據(jù)的從分析到運(yùn)營(yíng)的閉環(huán)產(chǎn)品,支持企業(yè)根據(jù)客戶的特點(diǎn)來(lái)經(jīng)營(yíng)客戶,來(lái)獲得更好的收益。這主要包括:
問(wèn):很多大數(shù)據(jù)平臺(tái)也都提供了用戶畫像技術(shù)?
答:傳統(tǒng)上做用戶畫像大都有忽悠的嫌疑,比如用戶的性別、年齡段、所屬省市,參考意義不大。我們的用戶畫像是更偏向于實(shí)際執(zhí)行的興趣,針對(duì)移動(dòng)產(chǎn)品,我們從喜歡用哪些App,可以分析出哪些用戶的興趣與我們的定位更加貼合。知道用戶喜歡逛哪些商場(chǎng)、買哪些商品,和知道他生活在哪個(gè)省市的意義不可同日而語(yǔ)。
問(wèn):我們會(huì)提供本地部署的方案,還是通過(guò)純SaaS平臺(tái)收集和分析數(shù)據(jù)并反饋結(jié)果?
答:我們的客戶有兩類,一類如招商銀行這樣的大客戶,對(duì)私密性要求比較高,就要部署一個(gè)全維的第一方DMP平臺(tái)到銀行內(nèi)部,所有的數(shù)據(jù)只能進(jìn)不能出,公開的非商業(yè)性數(shù)據(jù),則可以直接從我們官網(wǎng)獲得報(bào)告;對(duì)于第二類客戶,數(shù)據(jù)可以直接上傳到我們的平臺(tái)上。
以招商銀行(掌上生活和手機(jī)銀行業(yè)務(wù)額)為例:
問(wèn):數(shù)據(jù)出來(lái)可能有的是可信的,有的是不可信的,數(shù)據(jù)最終呈現(xiàn)的結(jié)果會(huì)有誤差嗎?
答:首先從行業(yè)視角看,還是從運(yùn)營(yíng)分析的視角看,一些大型公司都推出了這樣的平臺(tái),它也是幫助開發(fā)者去做運(yùn)營(yíng)分析和運(yùn)營(yíng)工具,從單向的去分析這個(gè)市場(chǎng)來(lái)說(shuō),大家出的數(shù)據(jù)都是幫一個(gè)移動(dòng)端的創(chuàng)業(yè)團(tuán)隊(duì)去做他的業(yè)務(wù)分析,這種數(shù)據(jù)的出入性當(dāng)然不會(huì)特別大。但是從全行業(yè)的視角去看這個(gè)事情,可能是不太一樣的。比如百度要去發(fā)一個(gè)報(bào)告的話,它結(jié)合的不光是它從中立市場(chǎng)采集的數(shù)據(jù),更多的是來(lái)源于百度的搜索、百度的地圖抓取的各種各樣的數(shù)據(jù),所以它對(duì)中立數(shù)據(jù)的采用可能只是它的一小塊。作為一個(gè)行業(yè)性的數(shù)據(jù)報(bào)告來(lái)說(shuō),它會(huì)不會(huì)更側(cè)重百度一些呢,有可能它自己不這么認(rèn)為,但是它的樣本本身都是偏自己的。同樣,騰訊也是一樣的,他們?cè)赥OP50應(yīng)用里面占了很大的份額,他覺(jué)得他的用戶量已經(jīng)普及到一個(gè)程度,本身他做出來(lái)一個(gè)他認(rèn)為中立的報(bào)告,結(jié)果也是比較偏他的用戶群,就會(huì)有一定的偏差。比如有一個(gè)客戶,也用了我們的統(tǒng)計(jì)分析的產(chǎn)品,只是分析他個(gè)人業(yè)務(wù)的,也用了百度的,也用了騰訊的,數(shù)據(jù)量會(huì)有多大差別嗎,當(dāng)然不會(huì),因?yàn)榇蠹易龅氖且粯拥幕睢?/span>
問(wèn):我們?nèi)绾谓鉀Q數(shù)據(jù)來(lái)源的問(wèn)題?
答:TalkingData是行業(yè)中唯一一個(gè)中立的大數(shù)據(jù)平臺(tái),我們本身提供SDK插件這種服務(wù),所以我們掌握了比較準(zhǔn)確的一手?jǐn)?shù)據(jù),直接去采集和獲取。采集當(dāng)中,我們很在意開發(fā)者和最終用戶的感受,所以會(huì)跟大家協(xié)商更好的用戶許可協(xié)議,以及在不侵犯隱私的情況下,拿到一些大家會(huì)在意的數(shù)據(jù),這是第一方面。另外,我們會(huì)采用一些數(shù)據(jù)交換和合作的方式,獲取更多元的數(shù)據(jù)。這些數(shù)據(jù)一樣是需要合規(guī)、合法,不侵犯任何合作方利益的情況下,可以去拿得到這樣的數(shù)據(jù)。還有一方面的數(shù)據(jù),我們會(huì)在線下做很多布局,包括到店的信息,去布Wi-Fi點(diǎn),采集線下的數(shù)據(jù),拿這樣的數(shù)據(jù)可以跟線上數(shù)據(jù)打通和做很多匹配??傊畷?huì)形成一個(gè)全行業(yè)遍布的數(shù)據(jù)網(wǎng),讓它更全面、更嚴(yán)重。
問(wèn):如何規(guī)避數(shù)據(jù)隱私的問(wèn)題?
答:解決數(shù)據(jù)隱私是數(shù)據(jù)服務(wù)公司安身立命的基礎(chǔ),數(shù)據(jù)的收集和使用一定要注意合法性的問(wèn)題:
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04