
通過大數(shù)據(jù)技術(shù)實現(xiàn)企業(yè)運營效率的提升是我們當前的一個重要目標,但這項工作并不是每個企業(yè)都那么容易上手。在1月21日的“10億說 TalkingData移動互聯(lián)網(wǎng)產(chǎn)業(yè)指數(shù)數(shù)據(jù)報告發(fā)布會”上,多名業(yè)內(nèi)專家及TalkingData高層為我們分享了釋放大數(shù)據(jù)價值現(xiàn)存的一些坑,以及我們可以怎么解決。
所謂10億說,是指TalkingData的平臺現(xiàn)在已經(jīng)覆蓋了10.6億的移動智能設(shè)備,包括iOS、Android的系統(tǒng)平臺,包括智能手機、平板、智能電視等等不同的設(shè)備形態(tài)。
專家說:真正的分析還在嬰兒期
全國手機媒體委員會、中國手機移動互聯(lián)產(chǎn)業(yè)聯(lián)盟秘書長吳紅曉,中國工程院院士、中國移動互聯(lián)發(fā)展指數(shù)專家組首席科學家倪光南,以及北京大學新媒體研究院副院長劉德寰在發(fā)布會上分享了他們對大數(shù)據(jù)的觀點,從不同的角度指出了目前大數(shù)據(jù)應用面臨的許多挑戰(zhàn)。
吳紅曉:
目前很多單一的數(shù)據(jù)庫的量都已經(jīng)很大,已經(jīng)超過了幾個PB的規(guī)模,但是同時數(shù)據(jù)的規(guī)模越大,處理的難度也越來越大。有兩方面的挑戰(zhàn):
倪光南:
劉德寰:
整個中國云計算和大數(shù)據(jù)研發(fā)過程當中有幾個很大的問題:
Talking Data說:大數(shù)據(jù)全面解析2014移動互聯(lián)網(wǎng)
長期以來鉆研的分布式的運算架構(gòu)、海量的數(shù)據(jù)處理和數(shù)據(jù)挖掘的算法,TalkingData使用自研的一個移動大數(shù)據(jù)的統(tǒng)計分析平臺,將這10億部智能終端的數(shù)據(jù)作為數(shù)據(jù)藍本,從多個維度對移動互聯(lián)網(wǎng)用戶的數(shù)據(jù)進行對比分析,給出整個行業(yè)觀察的結(jié)果。
TalkingData數(shù)據(jù)平臺部總監(jiān)陶京琪在發(fā)布會上詳細講解這份2014年TalkingData移動互聯(lián)網(wǎng)數(shù)據(jù)報告。報告圍繞“移動互聯(lián)網(wǎng)行業(yè)概況”、“移動互聯(lián)網(wǎng)用戶行為”、“移動應用整體盤點”、“移動互聯(lián)網(wǎng)用戶線下消費習慣”等不同主題,多維度分析了2014年中國移動產(chǎn)業(yè)的整體發(fā)展狀況。(如果您對這份報告感興趣,可通過訪問TalkingData官方網(wǎng)站免費下載)
報告顯示,移動互聯(lián)網(wǎng)已經(jīng)度過了需求集中于通訊與社交方面的“萌芽期”和以購物與娛樂為代表的“初步發(fā)展期”,邁入到“高速發(fā)展期”,這一時期,出行、醫(yī)療、教育、餐飲等與生活密切相關(guān)的細分領(lǐng)域應用紛紛涌現(xiàn),多元化生活服務為用戶帶來極大便利,線上與線下聯(lián)動(O2O)成趨勢。典型應用的不斷涌現(xiàn),也讓O2O行業(yè)迎來用戶增長與資本市場融資雙重熱潮,移動端的消費閉環(huán)正逐漸形成。
對話Talking Data:技術(shù)、數(shù)據(jù)源與中立是關(guān)鍵
在發(fā)布會之后,TalkingData COO 徐懿、TalkingData產(chǎn)品副總裁閆輝、TalkingData售前總監(jiān)戴民和TalkingData數(shù)據(jù)平臺部總監(jiān)陶京琪一同接受了CSDN記者的采訪,更深入地解析了TalkingData的大數(shù)據(jù)實踐經(jīng)驗,如何破解前述專家提到的問題,以及TalkingData的技術(shù)能為企業(yè)和開發(fā)者帶來什么。
TalkingData認為,大數(shù)據(jù)最重要的,是運用分析結(jié)果為整個企業(yè)運營服務。然而,單個企業(yè)的數(shù)據(jù),不足以反應整個行業(yè)的動態(tài),我們更需要的通過對整個行業(yè)的數(shù)據(jù)的分析來獲得最優(yōu)決策的依據(jù)——這與舍恩伯格“不是隨機數(shù)據(jù),而是全體數(shù)據(jù)”的思想相吻合。也并不是所有全體數(shù)據(jù)都靠譜,TalkingData還強調(diào),目前只有中立的第三方平臺才能保證數(shù)據(jù)分析結(jié)果的參考價值。當然,實現(xiàn)整個行業(yè)數(shù)據(jù)的中立分析,其基礎(chǔ)還是要有一個可靠的大數(shù)據(jù)技術(shù)平臺,能夠容納收集整個行業(yè)的數(shù)據(jù)量及其多樣性,有數(shù)據(jù)互聯(lián)互通的統(tǒng)一接口,還要能保證分析的實時性、有效性。
問:如何理解中國大數(shù)據(jù)應用還處在起步階段?
答:很多企業(yè)沒有辦法把存儲的數(shù)據(jù)用到平常的銷售優(yōu)化、服務優(yōu)化上來,因為他們還不具備這樣的分析能力。大數(shù)據(jù)使用里面最關(guān)鍵的一點,就是怎么樣把業(yè)務變成是大數(shù)據(jù)驅(qū)動的。從這點上來講,無論是在傳統(tǒng)的行業(yè)里,即使是在互聯(lián)網(wǎng)行業(yè)里,大數(shù)據(jù)驅(qū)動業(yè)務這件事情都還在起步階段。
以手游為例,很多游戲的運營還是靠具體負責人拍腦袋決做決策,而不是利用收集的大數(shù)據(jù)發(fā)現(xiàn)一些規(guī)律性的東西讓運營更加順暢——譬如有效預知和挽救可能會流失的用戶,保持游戲的收入。數(shù)據(jù)量并不一定要多大,但是后面流失的模型是基于很多游戲,包括他自己的游戲,也包括其他的游戲,在很多游戲里面我們算出來一個模型,把這個模型用回到這個游戲里面,對游戲運營做指導。
TalkingData針對于此的做法,首先是做一些行業(yè)標準的東西,很容易把大家孤立的數(shù)據(jù)全部打通,或者匯總在一個DMP數(shù)據(jù)管理平臺里面,對于企業(yè)來講,先幫他建立第一方的數(shù)據(jù),讓他把數(shù)據(jù)能夠管理起來,對用戶做一個畫像。第二,他的數(shù)據(jù)有可能跟第三方的數(shù)據(jù)進行打通,他可以利用很多第三方的數(shù)據(jù)。
所以說,大數(shù)據(jù)的應用范圍可能會比我們原來簡單的理解我有一大堆數(shù)據(jù)怎么去處理它,比這個更高級一點,更多的現(xiàn)在會產(chǎn)生在不同的領(lǐng)域跨界的一些數(shù)據(jù)的應用上面。
問:TalkingData的技術(shù)有什么獨特的技術(shù)?
答:從數(shù)據(jù)的分析、挖掘角度來說,大家都是用OLAP模型,按照指標維度存起來,然后反復的切割、切片、抽取,這種技術(shù)模型大家基本上都是相似的。我們也采用了如Hadoop、Hive、Storm、Spark等開源的技術(shù)。但我們在大數(shù)據(jù)行業(yè),在技術(shù)上還是小有貢獻的,因為我們把自己的計算引擎和推薦的算法,還有一些挖掘算法,以及我們的存儲模型,都有一些開源系統(tǒng),我們內(nèi)部有個代號叫派系統(tǒng),這樣的系統(tǒng)也經(jīng)常跟市場上做技術(shù)框架的系統(tǒng)做交流和切磋。比如有一個系統(tǒng)開源的叫麒麟系統(tǒng),都是做大數(shù)據(jù)運算的。我們也不能自己說自己談得上領(lǐng)先,但是總是愿意去分享自己在這塊的知識。
問:我們能為企業(yè)開發(fā)者提供哪些方便?
答:所有的生意都是要解決兩個問題:怎么獲得客人,以及怎么經(jīng)營他們?;诖?,我們用全行業(yè)的大數(shù)據(jù)平臺幫助企業(yè)找到客戶。第二個方面,我們提供一整套基于大數(shù)據(jù)的從分析到運營的閉環(huán)產(chǎn)品,支持企業(yè)根據(jù)客戶的特點來經(jīng)營客戶,來獲得更好的收益。這主要包括:
問:很多大數(shù)據(jù)平臺也都提供了用戶畫像技術(shù)?
答:傳統(tǒng)上做用戶畫像大都有忽悠的嫌疑,比如用戶的性別、年齡段、所屬省市,參考意義不大。我們的用戶畫像是更偏向于實際執(zhí)行的興趣,針對移動產(chǎn)品,我們從喜歡用哪些App,可以分析出哪些用戶的興趣與我們的定位更加貼合。知道用戶喜歡逛哪些商場、買哪些商品,和知道他生活在哪個省市的意義不可同日而語。
問:我們會提供本地部署的方案,還是通過純SaaS平臺收集和分析數(shù)據(jù)并反饋結(jié)果?
答:我們的客戶有兩類,一類如招商銀行這樣的大客戶,對私密性要求比較高,就要部署一個全維的第一方DMP平臺到銀行內(nèi)部,所有的數(shù)據(jù)只能進不能出,公開的非商業(yè)性數(shù)據(jù),則可以直接從我們官網(wǎng)獲得報告;對于第二類客戶,數(shù)據(jù)可以直接上傳到我們的平臺上。
以招商銀行(掌上生活和手機銀行業(yè)務額)為例:
問:數(shù)據(jù)出來可能有的是可信的,有的是不可信的,數(shù)據(jù)最終呈現(xiàn)的結(jié)果會有誤差嗎?
答:首先從行業(yè)視角看,還是從運營分析的視角看,一些大型公司都推出了這樣的平臺,它也是幫助開發(fā)者去做運營分析和運營工具,從單向的去分析這個市場來說,大家出的數(shù)據(jù)都是幫一個移動端的創(chuàng)業(yè)團隊去做他的業(yè)務分析,這種數(shù)據(jù)的出入性當然不會特別大。但是從全行業(yè)的視角去看這個事情,可能是不太一樣的。比如百度要去發(fā)一個報告的話,它結(jié)合的不光是它從中立市場采集的數(shù)據(jù),更多的是來源于百度的搜索、百度的地圖抓取的各種各樣的數(shù)據(jù),所以它對中立數(shù)據(jù)的采用可能只是它的一小塊。作為一個行業(yè)性的數(shù)據(jù)報告來說,它會不會更側(cè)重百度一些呢,有可能它自己不這么認為,但是它的樣本本身都是偏自己的。同樣,騰訊也是一樣的,他們在TOP50應用里面占了很大的份額,他覺得他的用戶量已經(jīng)普及到一個程度,本身他做出來一個他認為中立的報告,結(jié)果也是比較偏他的用戶群,就會有一定的偏差。比如有一個客戶,也用了我們的統(tǒng)計分析的產(chǎn)品,只是分析他個人業(yè)務的,也用了百度的,也用了騰訊的,數(shù)據(jù)量會有多大差別嗎,當然不會,因為大家做的是一樣的活。
問:我們?nèi)绾谓鉀Q數(shù)據(jù)來源的問題?
答:TalkingData是行業(yè)中唯一一個中立的大數(shù)據(jù)平臺,我們本身提供SDK插件這種服務,所以我們掌握了比較準確的一手數(shù)據(jù),直接去采集和獲取。采集當中,我們很在意開發(fā)者和最終用戶的感受,所以會跟大家協(xié)商更好的用戶許可協(xié)議,以及在不侵犯隱私的情況下,拿到一些大家會在意的數(shù)據(jù),這是第一方面。另外,我們會采用一些數(shù)據(jù)交換和合作的方式,獲取更多元的數(shù)據(jù)。這些數(shù)據(jù)一樣是需要合規(guī)、合法,不侵犯任何合作方利益的情況下,可以去拿得到這樣的數(shù)據(jù)。還有一方面的數(shù)據(jù),我們會在線下做很多布局,包括到店的信息,去布Wi-Fi點,采集線下的數(shù)據(jù),拿這樣的數(shù)據(jù)可以跟線上數(shù)據(jù)打通和做很多匹配??傊畷纬梢粋€全行業(yè)遍布的數(shù)據(jù)網(wǎng),讓它更全面、更嚴重。
問:如何規(guī)避數(shù)據(jù)隱私的問題?
答:解決數(shù)據(jù)隱私是數(shù)據(jù)服務公司安身立命的基礎(chǔ),數(shù)據(jù)的收集和使用一定要注意合法性的問題:
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10