
大數(shù)據(jù)只做三件事:用戶(hù)、信息、關(guān)系理解
大數(shù)據(jù)這個(gè)概念提了好多年。每次提到大數(shù)據(jù)的時(shí)候,都是個(gè)性化、精準(zhǔn)化,大家能想到的就是這些。在很多年前,IBM和很多大互聯(lián)網(wǎng)公司都在提這個(gè)話題。但是它真正產(chǎn)品化或者商業(yè)化的價(jià)值,是在2011、2012年以后才有了爆發(fā)性的增長(zhǎng)。
它有一些原因:
第一個(gè)是這兩年確實(shí)是隨著社會(huì)化媒體的普及、數(shù)據(jù)的量爆發(fā)式的增長(zhǎng)。大家每天在網(wǎng)上分享的文字、圖片、視頻,它的數(shù)據(jù)的規(guī)模要超過(guò)我們歷史上任何時(shí)期。有價(jià)值的信息也越來(lái)越多。歷史上,很多年前大家上互聯(lián)網(wǎng),信息無(wú)非就是各種網(wǎng)頁(yè),小網(wǎng)站、大網(wǎng)站。信息的價(jià)值不像現(xiàn)在這么充分。現(xiàn)在太多的信息反映了各位的動(dòng)機(jī)或者各位的興趣特征。比如說(shuō)我兒子三歲,我經(jīng)常會(huì)發(fā)我兒子的照片,發(fā)一些養(yǎng)孩子的心理感受。結(jié)果他就曝露了我興趣的方向。這對(duì)我們數(shù)據(jù)的應(yīng)用會(huì)很有幫助。不像以前你頂多看各種各樣的網(wǎng)頁(yè),各家的網(wǎng)頁(yè)也沒(méi)有辦法統(tǒng)一做大數(shù)據(jù)的分析。
還有一個(gè)比較重要的一點(diǎn),也是我感觸比較深的一點(diǎn)是開(kāi)放。我們以前提到個(gè)性化,大家聽(tīng)過(guò)最多的有關(guān)大數(shù)據(jù)的案例就是沃爾瑪?shù)哪虿粷?,那就是大?shù)據(jù)的雛形,如果我們把這個(gè)數(shù)據(jù)運(yùn)用到網(wǎng)站說(shuō),大家想到最多的就是隱私。因?yàn)槟愕呐d趣愛(ài)好觸犯了我的隱私。但是現(xiàn)在微博、Twitter,facebook,很多社交化媒體的典型特點(diǎn)是開(kāi)放的。QQ和微博最大的區(qū)別是,QQ的關(guān)系鏈,你的朋友是誰(shuí),大家是不知道的,前提是這是你的隱私。但是微博,你收聽(tīng)了誰(shuí)、關(guān)注了誰(shuí),你發(fā)的每一條微博所有人都看得到。你使用這個(gè)產(chǎn)品,相當(dāng)于你簽了一個(gè)協(xié)議,我要開(kāi)放。不能說(shuō)你在這個(gè)基礎(chǔ)上做一些數(shù)據(jù)的應(yīng)用是侵犯隱私,這個(gè)在理論上是不成立的。因?yàn)槊總€(gè)人的特征,哪怕技術(shù)不去做,我們用肉眼把你的微博拉下來(lái)看一下,也大概能看一下你的領(lǐng)域,或者你的興趣。這也給我們做大規(guī)模數(shù)據(jù)挖掘應(yīng)用提供了一個(gè)非常大的前提。隱私的問(wèn)題在產(chǎn)品形成之前就解決了。
我這里簡(jiǎn)單列了一下微博的數(shù)據(jù)情況,我們每天發(fā)的微博,還有圖片,現(xiàn)在都是以數(shù)百億的來(lái)計(jì)算。這里面有一個(gè),除了你發(fā)微博本身,還有一個(gè)重要的就是社會(huì)網(wǎng)絡(luò),就是你的人際關(guān)系。在QQ的時(shí)候是沒(méi)有辦法做分析的,因?yàn)樗怯须[私的。但是微博非常好的一點(diǎn),你的社會(huì)關(guān)系我們可以很放心的來(lái)使用。因?yàn)槭枪_(kāi)的。在騰訊微博這樣一個(gè)產(chǎn)品里面,你會(huì)發(fā)現(xiàn)社交關(guān)系的數(shù)量達(dá)到了三百億的量級(jí)。這里面有一個(gè)傳播路徑,你發(fā)了一條信息,它的傳播的可能性軌跡,達(dá)到了萬(wàn)億級(jí)別的路徑。這就是一個(gè)很大的大數(shù)據(jù)。大家很難想象,微博這樣一個(gè)產(chǎn)品,這樣大的一個(gè)產(chǎn)品體系里面,我們擁有近千臺(tái)的服務(wù)器用來(lái)計(jì)算,還不是用來(lái)做產(chǎn)品,不是用來(lái)提供服務(wù),只是用來(lái)做離線的計(jì)算,運(yùn)算出各種公式和結(jié)果,就需要近千臺(tái)服務(wù)器。這些服務(wù)器和幾年前的服務(wù)器性能、規(guī)模都有很大的區(qū)別,每臺(tái)服務(wù)器的存儲(chǔ)空間都有數(shù)個(gè)T,我們有近千臺(tái)數(shù)個(gè)T的服務(wù)器做運(yùn)算。這么簡(jiǎn)單的一件事情,就需要近千臺(tái)服務(wù)器幫助大家運(yùn)算,你到底跟哪個(gè)人可能是朋友,到底跟哪個(gè)人是你感興趣的領(lǐng)域。在那天地震的時(shí)候,我們快速的分析出,運(yùn)算一下現(xiàn)在有哪些地震情況,還是蠻有意思的,地域的分布,這些都是大數(shù)據(jù)的運(yùn)用。大數(shù)據(jù)有兩大類(lèi)數(shù)據(jù)可以用。第一類(lèi)是微博里面非常重要的,你發(fā)表、收聽(tīng)和關(guān)注這些全都是公開(kāi)的。有一部分影視數(shù)據(jù)是典型瀏覽行為。這部分還是牽扯到應(yīng)用情況。所以用的謹(jǐn)慎一些。
大數(shù)據(jù)能做什么?我們那么多地方探討大數(shù)據(jù),無(wú)非總結(jié)下來(lái)就做三件事:
第一,對(duì)信息的理解。你發(fā)的每一張圖片、每一個(gè)新聞、每一個(gè)廣告,這些都是信息,你對(duì)這個(gè)信息的理解是大數(shù)據(jù)重要的領(lǐng)域。
第二,用戶(hù)的理解,每個(gè)人的基本特征,你的潛在的特征,每個(gè)用戶(hù)上網(wǎng)的習(xí)慣等等,這些都是對(duì)用戶(hù)的理解。
第三,關(guān)系。關(guān)系才是我們的核心,信息與信息之間的關(guān)系,一條微博和另外一條微博之間的關(guān)系,一個(gè)廣告和另外一個(gè)廣告的關(guān)系。一條微博和一個(gè)視頻之間的關(guān)系,這些在我們?nèi)庋廴タ吹臅r(shí)候是相對(duì)簡(jiǎn)單的。
比如有條微博說(shuō)這兩天朝鮮綁架我們船的事,那條微博也大概是談這件事的。人眼一眼就能看出來(lái)。但是用機(jī)器怎么能看出來(lái)這是一件事,以及他們之間的因果關(guān)系,這是很有難度的。然后就是用戶(hù)與用戶(hù)之間的關(guān)系。哪些人你愿意收聽(tīng),是你的朋友,哪些是你感興趣的領(lǐng)域,你是一個(gè)音樂(lè)達(dá)人,你是一個(gè)吃貨,那個(gè)用戶(hù)也是一個(gè)吃貨,你愿意收聽(tīng)他。這就是用戶(hù)與用戶(hù)之間的關(guān)系理解。還有用戶(hù)與信息之間的理解,就是你對(duì)哪一類(lèi)型的微博感興趣,你對(duì)哪一類(lèi)型的信息感興趣,如果牽扯到商業(yè)化,你對(duì)哪一類(lèi)的廣告或者商品感興趣。其實(shí)就是用戶(hù)與信息之間的關(guān)系,他無(wú)非是做這件事。
大數(shù)據(jù)說(shuō)的那么懸,其實(shí)主要是做三件事:對(duì)用戶(hù)的理解、對(duì)信息的理解、對(duì)關(guān)系的理解。如果我們?cè)谶@三件事之間還要提一件事的話,一個(gè)叫趨勢(shì)。他也是關(guān)系的一種變種,只是關(guān)系稍微遠(yuǎn)一點(diǎn),情感之間的分析,還有我們政府部門(mén)做的輿情監(jiān)控。他可以監(jiān)控大規(guī)模的數(shù)據(jù),可以分析出人的動(dòng)向。在美國(guó)的好萊塢,這兩年也是基于FACEBOOK和TIWTTER的數(shù)據(jù)來(lái)預(yù)測(cè)即將上映的電影的票房。他也是一個(gè)趨勢(shì)的分析,只是我們把這個(gè)趨勢(shì)提前來(lái)。核心就是這三件事。
為什么要講這些呢?
因?yàn)檫@些在我們新版里面都有很充分的體現(xiàn)。我們的新版要做什么。新版核心是要做提高閱讀效率這件事。微博本身的形態(tài)就是很碎片化的。這個(gè)碎片化還不是因?yàn)榇蠹疑暇W(wǎng)的時(shí)間碎片化,我指的是信息的碎片化。微博就是那一百來(lái)個(gè)字,你收聽(tīng)、關(guān)注了哪些人都是很隨機(jī)的,你看信息是非常零碎的。你看到一件事情的時(shí)候基本上不可能在微博上看到它的全貌。一個(gè)人說(shuō)了幾句,金三胖真過(guò)分,又抓我們漁民,你能知道這件事是什么嗎?你要想知道這件事是什么。高端的人還可以搜一搜,倒騰這件事。對(duì)于一些小白來(lái)說(shuō),他根本不知道這件事是什么。新聞門(mén)戶(hù)這個(gè)時(shí)候就很重要。新聞門(mén)戶(hù)我點(diǎn)來(lái)點(diǎn)去,他大概就能看出這件事是什么。這和產(chǎn)品本身有關(guān)。但是也和這兩年隨著大家上微博越來(lái)越多,信息爆炸、信息過(guò)載有關(guān)?,F(xiàn)在我收聽(tīng)了一千多號(hào)人,如果十分鐘不看的話,就一定是一百條以上沒(méi)有看。有很多我關(guān)注的信息也可以遺漏在這一百條,或者幾百條信息里面。幾百條里面有大量的營(yíng)銷(xiāo)、笑話、段子,我很感興趣的我的前女友的動(dòng)態(tài)就被這些段子埋沒(méi)進(jìn)去了。但是我的前女友又不太活躍。她甚至一兩個(gè)星期才發(fā)一條微博,基本上很難看得到。這就是我們微博產(chǎn)品本身的特點(diǎn)。所以我們通過(guò)幾個(gè)功能來(lái)解決信息獲取的效率。第一個(gè)是從內(nèi)容的角度對(duì)微博進(jìn)行分類(lèi),我們的頻道是通過(guò)內(nèi)容的角度把內(nèi)容歸類(lèi),把優(yōu)質(zhì)內(nèi)容提取出來(lái)。微熱點(diǎn)也是從內(nèi)容的角度把內(nèi)容進(jìn)行分類(lèi)。廬山地震,別人只提了幾個(gè)字,在你的頂欄里面就會(huì)出現(xiàn)廬山地震的內(nèi)容,這是對(duì)內(nèi)容進(jìn)行分類(lèi)。第二,從人的角度把信息分類(lèi),我們新版會(huì)推出一個(gè)東西,叫微圈,他是智能的分組。尤其是我們這些比較活躍的人,你可能收聽(tīng)了八百、五百人,你有沒(méi)有耐心一個(gè)一個(gè)的分一個(gè)組?這是很難的,大部分人不會(huì)做這件事。所以我們是智能的分組,你什么都不用管,直接幫你分好。我的前女友我可以建一個(gè)前女友群,我要看她的消息,我就點(diǎn)到那個(gè)群里,可以分類(lèi)的看這些人的動(dòng)態(tài)。
舉一個(gè)對(duì)用戶(hù)理解的能力,大家都知道李開(kāi)復(fù)是這樣的,大家都知道他在微博里面有這么多我們可以分析的技術(shù)的點(diǎn)。這些點(diǎn)牽不牽扯到隱私?你去他的網(wǎng)頁(yè)上看一看也可以得到這些結(jié)論。只是這么多的點(diǎn),你能不能憑應(yīng)用分析出來(lái)。
最后再總結(jié)一下大數(shù)據(jù)是干嗎的。
這兩年再怎么提大數(shù)據(jù),它和歷史上出現(xiàn)的許多技術(shù)一樣,它只是一種能力和技術(shù)而已,只是一種工具而已。只是這兩年由于數(shù)據(jù)規(guī)模的擴(kuò)大,以及基于大數(shù)據(jù)誕生了很多新的產(chǎn)品和商業(yè)化的形態(tài)。所以我們才這么火的來(lái)提它。其實(shí)它還只不過(guò)是一種工具而已。我們的總結(jié)是基于大數(shù)據(jù)解決用戶(hù)的需求,提供一種最優(yōu)質(zhì)的服務(wù)才是最終目標(biāo),大數(shù)據(jù)只是工具而已,并沒(méi)有那么懸。
在目前為止,基于大數(shù)據(jù)的應(yīng)用大都還局限在商業(yè)化為主。更多的還是提怎么做精準(zhǔn)廣告,怎么做商品推薦,怎么做這些這些。真正敢把它做產(chǎn)品化的還比較少。因?yàn)樗械拇髷?shù)據(jù)這些智能的東西都有一個(gè)特點(diǎn),不是百分之百的準(zhǔn)確率。不像你要做一個(gè)什么樣的產(chǎn)品功能,按紐放哪就放哪,不會(huì)有錯(cuò)誤。大數(shù)據(jù)的特點(diǎn)是它只能做到一定的準(zhǔn)確率,你敢不敢產(chǎn)品化,取決于你對(duì)這個(gè)能力的準(zhǔn)確度提高到什么程度。就以我們這次微圈舉例,或者以微熱點(diǎn)舉例,如果你把一個(gè)用戶(hù)智能分組只能準(zhǔn)確到50%、60%。結(jié)果是適得其反的。你把熱點(diǎn)的聚類(lèi)聚在一起,并且和你主頁(yè)上的信息匹配的時(shí)候,你的準(zhǔn)確率敢不敢做到80%、90%以上?這就是為什么我開(kāi)始跟大家講大數(shù)據(jù)。其實(shí)就是第一次我們也是大規(guī)模的把大數(shù)據(jù)這種技術(shù)的能力和騰訊對(duì)數(shù)據(jù)獨(dú)有的數(shù)據(jù)規(guī)模的優(yōu)勢(shì)應(yīng)用到產(chǎn)品中去。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03