
大數(shù)據(jù)主要是做三件事:對用戶理解、對信息理解、對關(guān)系理解
大數(shù)據(jù)這個概念提了好多年。每次提到大數(shù)據(jù)的時候,都是個性化、精準化,大家能想到的就是這些。在很多年前,IBM和很多大互聯(lián)網(wǎng)公司都在提這個話題。但是它真正產(chǎn)品化或者商業(yè)化的價值,是在2011、2012年以后才有了爆發(fā)性的增長。
它有一些原因:
第一個是這兩年確實是隨著社會化媒體的普及、數(shù)據(jù)的量爆發(fā)式的增長。大家每天在網(wǎng)上分享的文字、圖片、視頻,它的數(shù)據(jù)的規(guī)模要超過我們歷史上任何時期。有價值的信息也越來越多。歷史上,很多年前大家上互聯(lián)網(wǎng),信息無非就是各種網(wǎng)頁,小網(wǎng)站、大網(wǎng)站。信息的價值不像現(xiàn)在這么充分。現(xiàn)在太多的信息反映了各位的動機或者各位的興趣特征。比如說我兒子三歲,我經(jīng)常會發(fā)我兒子的照片,發(fā)一些養(yǎng)孩子的心理感受。結(jié)果他就曝露了我興趣的方向。這對我們數(shù)據(jù)的應用會很有幫助。不像以前你頂多看各種各樣的網(wǎng)頁,各家的網(wǎng)頁也沒有辦法統(tǒng)一做大數(shù)據(jù)的分析。
還有一個比較重要的一點,也是我感觸比較深的一點是開放。我們以前提到個性化,大家聽過最多的有關(guān)大數(shù)據(jù)的案例就是沃爾瑪?shù)哪虿粷瘢蔷褪谴髷?shù)據(jù)的雛形,如果我們把這個數(shù)據(jù)運用到網(wǎng)站說,大家想到最多的就是隱私。因為你的興趣愛好觸犯了我的隱私。但是現(xiàn)在微博、Twitter,facebook,很多社交化媒體的典型特點是開放的。QQ和微博最大的區(qū)別是,QQ的關(guān)系鏈,你的朋友是誰,大家是不知道的,前提是這是你的隱私。但是微博,你收聽了誰、關(guān)注了誰,你發(fā)的每一條微博所有人都看得到。你使用這個產(chǎn)品,相當于你簽了一個協(xié)議,我要開放。不能說你在這個基礎(chǔ)上做一些數(shù)據(jù)的應用是侵犯隱私,這個在理論上是不成立的。因為每個人的特征,哪怕技術(shù)不去做,我們用肉眼把你的微博拉下來看一下,也大概能看一下你的領(lǐng)域,或者你的興趣。這也給我們做大規(guī)模數(shù)據(jù)挖掘應用提供了一個非常大的前提。隱私的問題在產(chǎn)品形成之前就解決了。
我這里簡單列了一下微博的數(shù)據(jù)情況,我們每天發(fā)的微博,還有圖片,現(xiàn)在都是以數(shù)百億的來計算。這里面有一個,除了你發(fā)微博本身,還有一個重要的就是社會網(wǎng)絡,就是你的人際關(guān)系。在QQ的時候是沒有辦法做分析的,因為他是有隱私的。但是微博非常好的一點,你的社會關(guān)系我們可以很放心的來使用。因為是公開的。在騰訊微博這樣一個產(chǎn)品里面,你會發(fā)現(xiàn)社交關(guān)系的數(shù)量達到了三百億的量級。這里面有一個傳播路徑,你發(fā)了一條信息,它的傳播的可能性軌跡,達到了萬億級別的路徑。這就是一個很大的大數(shù)據(jù)。大家很難想象,微博這樣一個產(chǎn)品,這樣大的一個產(chǎn)品體系里面,我們擁有近千臺的服務器用來計算,還不是用來做產(chǎn)品,不是用來提供服務,只是用來做離線的計算,運算出各種公式和結(jié)果,就需要近千臺服務器。這些服務器和幾年前的服務器性能、規(guī)模都有很大的區(qū)別,每臺服務器的存儲空間都有數(shù)個T,我們有近千臺數(shù)個T的服務器做運算。這么簡單的一件事情,就需要近千臺服務器幫助大家運算,你到底跟哪個人可能是朋友,到底跟哪個人是你感興趣的領(lǐng)域。在那天地震的時候,我們快速的分析出,運算一下現(xiàn)在有哪些地震情況,還是蠻有意思的,地域的分布,這些都是大數(shù)據(jù)的運用。大數(shù)據(jù)有兩大類數(shù)據(jù)可以用。第一類是微博里面非常重要的,你發(fā)表、收聽和關(guān)注這些全都是公開的。有一部分影視數(shù)據(jù)是典型瀏覽行為。這部分還是牽扯到應用情況。所以用的謹慎一些。
大數(shù)據(jù)能做什么?我們那么多地方探討大數(shù)據(jù),無非總結(jié)下來就做三件事:
第一,對信息的理解。你發(fā)的每一張圖片、每一個新聞、每一個廣告,這些都是信息,你對這個信息的理解是大數(shù)據(jù)重要的領(lǐng)域。
第二,用戶的理解,每個人的基本特征,你的潛在的特征,每個用戶上網(wǎng)的習慣等等,這些都是對用戶的理解。
第三,關(guān)系。關(guān)系才是我們的核心,信息與信息之間的關(guān)系,一條微博和另外一條微博之間的關(guān)系,一個廣告和另外一個廣告的關(guān)系。一條微博和一個視頻之間的關(guān)系,這些在我們?nèi)庋廴タ吹臅r候是相對簡單的。
比如有條微博說這兩天朝鮮綁架我們船的事,那條微博也大概是談這件事的。人眼一眼就能看出來。但是用機器怎么能看出來這是一件事,以及他們之間的因果關(guān)系,這是很有難度的。然后就是用戶與用戶之間的關(guān)系。哪些人你愿意收聽,是你的朋友,哪些是你感興趣的領(lǐng)域,你是一個音樂達人,你是一個吃貨,那個用戶也是一個吃貨,你愿意收聽他。這就是用戶與用戶之間的關(guān)系理解。還有用戶與信息之間的理解,就是你對哪一類型的微博感興趣,你對哪一類型的信息感興趣,如果牽扯到商業(yè)化,你對哪一類的廣告或者商品感興趣。其實就是用戶與信息之間的關(guān)系,他無非是做這件事。
大數(shù)據(jù)說的那么懸,其實主要是做三件事:對用戶的理解、對信息的理解、對關(guān)系的理解。如果我們在這三件事之間還要提一件事的話,一個叫趨勢。他也是關(guān)系的一種變種,只是關(guān)系稍微遠一點,情感之間的分析,還有我們政府部門做的輿情監(jiān)控。他可以監(jiān)控大規(guī)模的數(shù)據(jù),可以分析出人的動向。在美國的好萊塢,這兩年也是基于FACEBOOK和TIWTTER的數(shù)據(jù)來預測即將上映的電影的票房。他也是一個趨勢的分析,只是我們把這個趨勢提前來。核心就是這三件事。
為什么要講這些呢?
因為這些在我們新版里面都有很充分的體現(xiàn)。我們的新版要做什么。新版核心是要做提高閱讀效率這件事。微博本身的形態(tài)就是很碎片化的。這個碎片化還不是因為大家上網(wǎng)的時間碎片化,我指的是信息的碎片化。微博就是那一百來個字,你收聽、關(guān)注了哪些人都是很隨機的,你看信息是非常零碎的。你看到一件事情的時候基本上不可能在微博上看到它的全貌。一個人說了幾句,金三胖真過分,又抓我們漁民,你能知道這件事是什么嗎?你要想知道這件事是什么。高端的人還可以搜一搜,倒騰這件事。對于一些小白來說,他根本不知道這件事是什么。新聞門戶這個時候就很重要。新聞門戶我點來點去,他大概就能看出這件事是什么。這和產(chǎn)品本身有關(guān)。但是也和這兩年隨著大家上微博越來越多,信息爆炸、信息過載有關(guān)。現(xiàn)在我收聽了一千多號人,如果十分鐘不看的話,就一定是一百條以上沒有看。有很多我關(guān)注的信息也可以遺漏在這一百條,或者幾百條信息里面。幾百條里面有大量的營銷、笑話、段子,我很感興趣的我的前女友的動態(tài)就被這些段子埋沒進去了。但是我的前女友又不太活躍。她甚至一兩個星期才發(fā)一條微博,基本上很難看得到。這就是我們微博產(chǎn)品本身的特點。所以我們通過幾個功能來解決信息獲取的效率。第一個是從內(nèi)容的角度對微博進行分類,我們的頻道是通過內(nèi)容的角度把內(nèi)容歸類,把優(yōu)質(zhì)內(nèi)容提取出來。微熱點也是從內(nèi)容的角度把內(nèi)容進行分類。廬山地震,別人只提了幾個字,在你的頂欄里面就會出現(xiàn)廬山地震的內(nèi)容,這是對內(nèi)容進行分類。第二,從人的角度把信息分類,我們新版會推出一個東西,叫微圈,他是智能的分組。尤其是我們這些比較活躍的人,你可能收聽了八百、五百人,你有沒有耐心一個一個的分一個組?這是很難的,大部分人不會做這件事。所以我們是智能的分組,你什么都不用管,直接幫你分好。我的前女友我可以建一個前女友群,我要看她的消息,我就點到那個群里,可以分類的看這些人的動態(tài)。
舉一個對用戶理解的能力,大家都知道李開復是這樣的,大家都知道他在微博里面有這么多我們可以分析的技術(shù)的點。這些點牽不牽扯到隱私?你去他的網(wǎng)頁上看一看也可以得到這些結(jié)論。只是這么多的點,你能不能憑應用分析出來。
最后再總結(jié)一下大數(shù)據(jù)是干嗎的。
這兩年再怎么提大數(shù)據(jù),它和歷史上出現(xiàn)的許多技術(shù)一樣,它只是一種能力和技術(shù)而已,只是一種工具而已。只是這兩年由于數(shù)據(jù)規(guī)模的擴大,以及基于大數(shù)據(jù)誕生了很多新的產(chǎn)品和商業(yè)化的形態(tài)。所以我們才這么火的來提它。其實它還只不過是一種工具而已。我們的總結(jié)是基于大數(shù)據(jù)解決用戶的需求,提供一種最優(yōu)質(zhì)的服務才是最終目標,大數(shù)據(jù)只是工具而已,并沒有那么懸。
在目前為止,基于大數(shù)據(jù)的應用大都還局限在商業(yè)化為主。更多的還是提怎么做精準廣告,怎么做商品推薦,怎么做這些這些。真正敢把它做產(chǎn)品化的還比較少。因為所有的大數(shù)據(jù)這些智能的東西都有一個特點,不是百分之百的準確率。不像你要做一個什么樣的產(chǎn)品功能,按紐放哪就放哪,不會有錯誤。大數(shù)據(jù)的特點是它只能做到一定的準確率,你敢不敢產(chǎn)品化,取決于你對這個能力的準確度提高到什么程度。就以我們這次微圈舉例,或者以微熱點舉例,如果你把一個用戶智能分組只能準確到50%、60%。結(jié)果是適得其反的。你把熱點的聚類聚在一起,并且和你主頁上的信息匹配的時候,你的準確率敢不敢做到80%、90%以上?這就是為什么我開始跟大家講大數(shù)據(jù)。其實就是第一次我們也是大規(guī)模的把大數(shù)據(jù)這種技術(shù)的能力和騰訊對數(shù)據(jù)獨有的數(shù)據(jù)規(guī)模的優(yōu)勢應用到產(chǎn)品中去。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03