
大數(shù)據(jù)到底是不是“算命”?技術(shù)大牛們這樣說
BAT雖然在數(shù)據(jù)量上占據(jù)優(yōu)勢,但卻在豐富性上受到局限,甚至并不具備垂直領(lǐng)域UGC所具備的大數(shù)據(jù)能力。中小企業(yè)則可以充分利用自己在垂直領(lǐng)域里深耕的優(yōu)勢,將數(shù)據(jù)的豐富性提升上來,從而獲得差異性的優(yōu)勢。
大數(shù)據(jù)的門檻
TBO(旅游商業(yè)觀察):“如果你只有一堆人的電話號碼,這可能沒多大意義。但像攜程的數(shù)據(jù),比如所有人提前預(yù)訂、搜索、瀏覽、點評的信息等,這就是有價值的。但更深層的核心是,你能不能在某個產(chǎn)品上使用到這些數(shù)據(jù),而且確實有幫助?!北娝C數(shù)據(jù)智能事業(yè)部總經(jīng)理焦宇對TBO(旅游商業(yè)觀察)說。
美團云大數(shù)據(jù)平臺負責人對此表示認同,“首先要弄清楚擁有的數(shù)據(jù)是否有價值,是否有人愿意為其買單。另外則是源數(shù)據(jù)的豐富度,是否能夠為數(shù)據(jù)價值的發(fā)揮帶來補充和完善”。
顯然,數(shù)據(jù)收集的目的并不單單是把數(shù)據(jù)集中起來,最終還是要在實際運營中發(fā)揮作用。擁有數(shù)據(jù)只是開端,如何深入分析、洞察數(shù)據(jù)彼此之間的關(guān)聯(lián),才是大數(shù)據(jù)應(yīng)用的關(guān)鍵,這也是眾多手握大數(shù)據(jù)企業(yè)的分水嶺。
不過,在這個過程中,有一個不容忽視的問題,那就是數(shù)據(jù)的質(zhì)量問題。“錯誤的輸入,換來的必然是錯誤的輸出”,螞蜂窩大數(shù)據(jù)技術(shù)總監(jiān)韓鑫在接受TBO(旅游商業(yè)觀察)采訪時就特別指出了這個問題。
“真正決定數(shù)據(jù)挖掘成敗的是數(shù)據(jù)本身的質(zhì)量,對于算法的合理使用和優(yōu)化反而是次要的。由于大數(shù)據(jù)的興起,我們很容易獲得龐雜的數(shù)據(jù);然而單純地指望從高深的算法中去獲得我們想要的信息而忽視數(shù)據(jù)本身的質(zhì)量,往往只能是空中樓閣?!?
對大數(shù)據(jù)而言,表面上看數(shù)據(jù)是越多越好,因為更多的數(shù)據(jù)可以產(chǎn)生更能擬合真實情況的場景,但同時更多的數(shù)據(jù)也產(chǎn)生了更多的噪音——所以單純的數(shù)據(jù)的量的增加并不能提高計算的精準度。
因而擁有高質(zhì)量的數(shù)據(jù),要遠比握有一堆龐雜的數(shù)據(jù)更有價值:這樣既能減少數(shù)據(jù)挖掘的難度,也有利于提高數(shù)據(jù)挖掘的精度。但是,這就是大數(shù)據(jù)的核心門檻嗎?
韓鑫認為:“建立完整的大數(shù)據(jù)體系還需要兩個重要的因素,業(yè)務(wù)的豐富程度和數(shù)據(jù)思維的融入?!?
焦宇從自己的實踐經(jīng)驗出發(fā),談了自己的看法:“對一個特別好的產(chǎn)品經(jīng)理來講,大數(shù)據(jù)的門檻首先是要理解這個東西到底是什么;第二建模能力要強。從這兩方面說,人才相對都是稀缺的。比如有些公司是有大數(shù)據(jù)的,但要找到很牛的人來做這件事情,雖然理論上講是可以隨時找到的,但事實上卻很難?!?
“第一個是大數(shù)據(jù)。第二個方面,有人把數(shù)據(jù)比喻成‘石油’,有石油寶藏還得有機器、工具把它挖出來,這個工具就是機器學(xué)習(xí)。第三方面是計算能力的進步。工具再強,沒有非常強的計算能力,還是跑不動的。”滴滴研究院院長何曉飛則給出了這樣的答案。
數(shù)據(jù)挖掘,不像收集數(shù)據(jù)填幾張表,問幾個問題就能輕松實現(xiàn)。它的專業(yè)性相對較高,運用的知識、技術(shù)難度也明顯加大。因而大多數(shù)的數(shù)據(jù)挖掘基本是由專業(yè)人士或?qū)I(yè)團隊來做的。
另外,建模的成功與否,對數(shù)據(jù)呈現(xiàn)的結(jié)果也有非常重要的影響。模型不同,結(jié)果也往往會出現(xiàn)差異。
“任何人都能搭出來一個模型,只要搭出模型就能有結(jié)果,但這個結(jié)果是不是反映真實世界?因為數(shù)據(jù)之間的關(guān)系,并不是直接的線性關(guān)系,因此模型可以非常復(fù)雜。所以你先得知道你要解決的是個什么問題:從統(tǒng)計上來講,是哪種類型的問題,它有什么樣的特性,你在數(shù)據(jù)上的采集有什么局限?然后再找到跟這個問題最接近的模型?!苯褂钫f。
“數(shù)據(jù)挖掘的難點在于,主要數(shù)據(jù)收集和最終應(yīng)用之間的相互關(guān)聯(lián)卻又矛盾的關(guān)系,這類似于‘先有雞還是先有蛋’的問題。兩者之間相互影響相互補充,導(dǎo)致其相對其他類別的程序開發(fā)而言,是更為漫長而又復(fù)雜的過程?!?韓鑫說道。
無論是焦宇所說的模型,還是韓鑫所說的算法,其實都在強調(diào)一個重點:根據(jù)實際情況變化對模型和算法做出相應(yīng)的調(diào)整。沒有固定的規(guī)則,只有時時更新的數(shù)據(jù)和不斷變化的情況,所以運用的規(guī)則也要因時調(diào)整。
美團云大數(shù)據(jù)平臺負責人則認為,如何拿到“規(guī)范的數(shù)據(jù)”才是真正的難點所在:“新美大每天產(chǎn)生p級別的數(shù)據(jù),包括大量的商戶、用戶和交互數(shù)據(jù);每天通過hadoop、hive、spark、storm等大數(shù)據(jù)工具進行批量和實時的清洗,才得以形成規(guī)范的數(shù)據(jù)?!?
然而,也許最難的一點還是在于那個最實際的問題。技術(shù)快速發(fā)展,提供了像應(yīng)用統(tǒng)計方法、事例推理、決策樹、規(guī)則推理、模糊集、神經(jīng)網(wǎng)絡(luò)、遺傳算法等諸多方法來處理信息,這既降低了數(shù)據(jù)挖掘的難點,同時也提高了數(shù)據(jù)挖掘的效率和精準度——但所有的這些,都需要不菲的資金。
許多人可能都聽說過那些使用大數(shù)據(jù)的輝煌案例:Facebook每天要存儲大約100TB的用戶數(shù)據(jù);NASA每天要處理約24TB的數(shù)據(jù)。那么處理這些數(shù)據(jù)所需的成本是多少呢?
按照亞馬遜Redshift的定價,NASA需要為45天數(shù)據(jù)存儲服務(wù)支付超過100萬美元。而根據(jù)國外的一項調(diào)查,大多數(shù)企業(yè)的CIO稱他們的預(yù)算支付不起大數(shù)據(jù)部署的成本,數(shù)據(jù)存儲和處理的成本實在太高。
大數(shù)據(jù)真的精準嗎
“對一個具體區(qū)域來說,滴滴數(shù)據(jù)大腦已經(jīng)達到提前15分鐘實現(xiàn)超過88%準確率的預(yù)測。根據(jù)預(yù)測結(jié)果,就可以選擇要不要對司機運力進行調(diào)度,使在附近的司機可以提前到達運力緊缺的區(qū)域,以緩解可能發(fā)生的擁堵。對于出行領(lǐng)域而言,預(yù)測的是未來的交通情況,以幫助智能調(diào)度?!钡蔚窝芯吭涸洪L何曉飛曾這樣對外表示。
這是一個正面案例。反過來看,如果大數(shù)據(jù)無法為企業(yè)營銷、決策、運營找到合適的解決方案,那它的應(yīng)用前景自然不會被企業(yè)看好。所以大數(shù)據(jù)到底“準不準”,從最初就是商業(yè)力量最關(guān)注的點。
比如在《黃金時代》上映前,百度就對其票房做過預(yù)測,認為這部電影十一黃金周的票房會在2——3億元之間,當時也有不少媒體都認為百度的預(yù)測過于保守。實際情況出來后卻讓人大跌眼鏡,上映半個月票房還沒過5000萬。
作為互聯(lián)網(wǎng)公司的排頭兵,百度擁有的數(shù)據(jù)量其他企業(yè)自然是難以匹敵的,但出現(xiàn)這種結(jié)果,卻不能不令人深思。
“大數(shù)據(jù)歸根結(jié)底還是歷史數(shù)據(jù),是否能用于預(yù)測未來,既要看具體的問題,也要看從歷史數(shù)據(jù)中分析出來的規(guī)律是否能在未來重演。仔細分析問題,梳理規(guī)律適用的條件,充分理解數(shù)據(jù)、理解技術(shù)的局限,做到正確的使用大數(shù)據(jù)的成果,才能有對現(xiàn)實起到真正的作用。”韓鑫說道。
事實上,單純來看一個結(jié)果并不能反映出預(yù)測的準確與否。焦宇表示,“就像大家都知道,采取最佳玩法的情況下21點的勝率可以提高到49%。但這個概率對于某一人某一盤來講其實是沒有意義的,只有當10萬人同時進行21點游戲,最后你會發(fā)現(xiàn)所有人的獲勝概率就是49%。”
焦宇所供職的眾薈信息,會通過數(shù)據(jù)分析為酒店提供收益管理預(yù)測。焦宇表示,對于真正成熟、有經(jīng)驗的收益經(jīng)理來說,并不需要提供給他一個代表最終結(jié)果的數(shù)字——企業(yè)只需將整合的數(shù)據(jù)給到這些收益經(jīng)理,他們自己可以通過數(shù)據(jù)制定出一個最合理的價格。
中小企業(yè)的數(shù)據(jù)優(yōu)勢
從另一個角度來看,大數(shù)據(jù)預(yù)測的基礎(chǔ)還是需要一定量的數(shù)據(jù)。但究竟多大的數(shù)據(jù)量才算是大數(shù)據(jù)?這個問題業(yè)內(nèi)并沒有一個統(tǒng)一的劃分標準。而中小企業(yè)也掌握一定量的數(shù)據(jù),那么與BAT相比它的優(yōu)勢又在哪?
阿里研究院高級專家程欣指出:“中小企業(yè)的大數(shù)據(jù)主要是會員數(shù)據(jù)和訂單數(shù)據(jù),用途是crm和定價分析,但無法分析不是自己的用戶。”每一類企業(yè)都有自己的短板,最明智的做法不是去一味的補齊短板,而是要充分發(fā)揮自己的優(yōu)勢。
而數(shù)量和豐富性是大數(shù)據(jù)的兩個面。BAT雖然在數(shù)據(jù)量上占據(jù)優(yōu)勢,但卻在豐富性上受到局限,甚至并不具備垂直領(lǐng)域UGC所具備的大數(shù)據(jù)能力。中小企業(yè)則可以充分利用自己在垂直領(lǐng)域里深耕的優(yōu)勢,將數(shù)據(jù)的豐富性提升上來,從而獲得差異性的優(yōu)勢。
所以,中小企業(yè)對自有的數(shù)據(jù)進行深耕,在數(shù)據(jù)挖掘方面也并非就一定比BAT等大型企業(yè)差。
美團云大數(shù)據(jù)平臺負責人認為:“用大數(shù)據(jù)是希望能夠有更全面的信息幫助企業(yè)決策,而不是為了用大數(shù)據(jù)而用大數(shù)據(jù)。應(yīng)該反過來看,企業(yè)的數(shù)據(jù)內(nèi)容,是否能夠為某個行業(yè)的深度應(yīng)用帶來補充。所以中小企業(yè)的數(shù)據(jù),這里我不想提‘大’這個字,有點過于強調(diào)概念了,關(guān)鍵是看內(nèi)容層面是否有垂直化的信息補充,采集到BAT所沒有的數(shù)據(jù)。”
數(shù)據(jù)挖掘技術(shù)的諸多門檻,以及建立數(shù)據(jù)挖掘部門所需的投入,也決定了并非所有的企業(yè)都能擁有數(shù)據(jù)挖掘能力。數(shù)據(jù)挖掘能力要與公司規(guī)模與發(fā)展階段相匹配,在產(chǎn)品并不成熟的情況下,從現(xiàn)有人員中根據(jù)業(yè)務(wù)需要兼職去做會是一個不錯的開始,并不一定需要配備獨立專職的團隊。
在業(yè)務(wù)逐步走向成熟階段,再逐步建立專業(yè)化的數(shù)據(jù)團隊,則是一個更現(xiàn)實辦法。
“目前國內(nèi)的公司往往在B輪左右,開始搭建自己的數(shù)據(jù)團隊,開始具備初步的數(shù)據(jù)挖掘能力了。但基于此前所說的大數(shù)據(jù)‘門檻’,并非所有搭建數(shù)據(jù)團隊的公司,都可以被稱為大數(shù)據(jù)公司。”韓鑫說。
不過韓鑫坦言,大數(shù)據(jù)就像是好的武器,到底能否有效、規(guī)?;脑诟鱾€戰(zhàn)場取勝,在于如何分析戰(zhàn)場形勢,合理的使用武器達到戰(zhàn)術(shù)目的,形成戰(zhàn)略性勝果。
想真正的起到規(guī)?;男Чc作用,需要公司全員的努力,不能僅僅期待建立一個數(shù)據(jù)團隊。要在日常產(chǎn)品設(shè)計研發(fā)運營的各個環(huán)節(jié),從基本的統(tǒng)計、分析入手,逐步形成全公司全員性的數(shù)據(jù)化思維,讓數(shù)據(jù)驅(qū)動運營、數(shù)據(jù)驅(qū)動研發(fā)、數(shù)據(jù)驅(qū)動產(chǎn)品等深入骨髓。
公司的數(shù)據(jù)體系建設(shè)也要圍繞各個業(yè)務(wù)各個職能角色進行設(shè)計與搭建,讓所有人都能參與進來,每個人成為公司數(shù)據(jù)能力的一部分與推動者。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03