
大數(shù)據(jù)將在30年徹底改變世界_數(shù)據(jù)分析師考試
大數(shù)據(jù)為什么如此重要?它有三個很明顯的特征,并不僅僅是數(shù)據(jù)量大,因為它帶來了機器智能,而這個機器智能非常可怕。
什么是機器智能?計算機老祖宗阿蘭圖靈提出來判定機器是否跟人有樣智能的方式,叫做圖靈測試,這個圖靈測試怎么說的呢?大屏幕背后放上一臺計算機,再坐上一個人,你問他一個問題,答案你無法判斷到底是機器給出來的,還是人給出來的,這時候我們就認為機器和人有同等的智能。
解決這個問題要幾個東西,首先要大量的數(shù)據(jù),并且開始產(chǎn)生數(shù)據(jù)驅(qū)動。當(dāng)時沒有互聯(lián)網(wǎng)數(shù)據(jù),但是IBM因為有很多的商業(yè)客戶電傳數(shù)據(jù)。利用這些數(shù)據(jù),IBM實現(xiàn)了語音識別系統(tǒng),當(dāng)時能識別大概100多個英文單詞,識別的錯誤率30%,這不可用,更何況只能識別100多個字。
而數(shù)據(jù)驅(qū)動能識別2.2萬字,這是差別。錯誤率從30%降到10%,這是劃時代的事。大家會發(fā)現(xiàn)原來看上去很復(fù)雜的機器智能問題,好象還有另外一條路可以走,不是來模擬人,是用數(shù)據(jù)驅(qū)動的方法。
什么是大數(shù)據(jù)呢?大數(shù)據(jù)不僅僅是數(shù)據(jù)量大,它常常是雜亂無章的多維度的。
舉一個例子,大概兩年前百度公布了一個很簡單報告,他從百度知道里面做了一些大數(shù)據(jù)的分析,然后得出一些中國各個地方飲食習(xí)慣的調(diào)查。這里面有多少呢?大概有7700萬條跟吃有關(guān)的問題,他根據(jù)IP知道你是什么地方人,問什么問題。他不是做問卷調(diào)查,你到百度知道去看數(shù)據(jù)雜亂無章的很,你通過IP地址看你問什么問題,他實際上很多數(shù)據(jù)不公布,公布以后會發(fā)現(xiàn)你的隱私被拿走了。而這個7700萬條數(shù)據(jù)還是歷史上不同時期收集來的,維度非常多。
還有一條,大數(shù)據(jù)必須具備完備性,才是有意義的。
綜上,大數(shù)據(jù)這三條要注意,一個是數(shù)據(jù)量足夠大,一個是多維度,還有一個是數(shù)據(jù)的完備性。在結(jié)束之前,再講一個很重要的,大數(shù)據(jù)為叫BIG DATA,不叫l(wèi)arge,這其實還是有細微的差別,這不僅僅是強調(diào)數(shù)據(jù)量本身大,他是強調(diào)說這是一個思維方式的改變,所以BIG DATA本身有這樣一個深層的含義。
這件事本身很可怕,可怕在那兒呢?我們回到IBM深藍和國際象棋世界冠軍卡斯帕羅夫下象棋贏了的例子。IBM不僅把卡斯帕羅夫下所有象棋的結(jié)果搜集起來了,他還把世界上好多好多的象棋高手當(dāng)時對弈結(jié)果搜集起來了,以至于說在每一步棋的時候,就像做預(yù)測的時候有一個數(shù)據(jù)的完備性,你每走一步,他實際上根據(jù)歷史結(jié)果,他對你有一個預(yù)測。當(dāng)時還沒有大數(shù)據(jù)的概念,某種程度上是變成了一個大數(shù)據(jù)的問題。
大數(shù)據(jù)發(fā)展很好的一個機遇是移動互聯(lián)網(wǎng),PC互聯(lián)網(wǎng)是機器和機器聯(lián)網(wǎng),在移動互聯(lián)網(wǎng)時代,是人的連網(wǎng),以前我們說手機可以讓你利用碎片時間,現(xiàn)在是說你根本就沒有整的時間,時間全變成碎片時間。你如果有可穿戴設(shè)備,你一天24小時某種程度上都掛在互聯(lián)網(wǎng)上,這也使得數(shù)據(jù)的完備性成為可能。
還有一個傳感器的技術(shù), RFID,這是什么東西呢?大概瓶子蓋這么大的東西,零售價四美分,芯片帶一個天線,當(dāng)你走過他讀寫器的時候,把里面數(shù)據(jù)傳到讀寫器上了。舉一個例子,我們買礦泉水需要排隊掃碼,然后支付。有了這個RFID傳感器以后,你把購物車推出去就完了,然后選擇移動支付,根本不用那么麻煩,因為傳感器會記錄你買下的所有東西。
所以我們給出今天的第一個結(jié)論,就是說我們今天是一個從摩爾定律到數(shù)據(jù)為王的年代。而這件事并不是說僅僅是增加幾億,幾十億或者多少億的市場或者說這么一個產(chǎn)業(yè)問題。這整個是幾萬億,幾十萬億的故事,未來的世界,在現(xiàn)有的公司中什么公司占比較有利的位置,已經(jīng)擁有這些大數(shù)據(jù)和有能力處理大數(shù)據(jù)的,這是兩個不同的概念。
擁有大數(shù)據(jù)和已經(jīng)有能力處理大數(shù)據(jù)的公司,他們會變得非常強大。傳統(tǒng)的數(shù)據(jù)公司,因為思維方式的變化,他固定的模式使得他可能反而落伍。
在未來,為什么說大數(shù)據(jù)是非常非常重要的,因為所有的公司都是數(shù)據(jù)公司,有人說是不是下得太武斷或者太絕對的。你如果今天回想50年前,說計算機無所不在,這個也沒有人信。
大數(shù)據(jù)不是IT界專利,傳統(tǒng)行業(yè)也需要
舉三個例子,這是一個中國公司例子,風(fēng)能發(fā)電設(shè)備的上市公司。風(fēng)力發(fā)電機有一個葉片,能用十到十五年,為什么是10到15年,這是從平均值得到的。因為你沒有辦法知道某一個具體的點具體的產(chǎn)品實際情況。
但是,這家公司裝了一些傳感器,就能監(jiān)控到每一個地方葉片情況,有一些地方風(fēng)大,風(fēng)又不均,葉片老化快,可能要八年。過去這家公司光制造這個利潤并不高,為了競爭壓價很厲害。現(xiàn)在有了大數(shù)據(jù)以后,他可以通過一些無線的聯(lián)網(wǎng),把這些東西送回來,每一臺發(fā)電機具體運行情況知道,賣到什么地方,這個地方風(fēng)力是大是小,一年四季哪天有風(fēng)哪天沒有風(fēng)都知道。
其實到以后,每一個產(chǎn)品,以后可以從貼一個RFID,你從出廠到運輸,每經(jīng)過一個地方,最后到了誰手里,你都可以知道。也就是說在過去想都不敢想的事,在大數(shù)據(jù)時代,我們可以精細到每一件產(chǎn)品。
第二個例子,prada。我跟chanel聊過怎么設(shè)計專賣店,他說擺放很有講究,怎么擺放好,根據(jù)老板的經(jīng)驗確定。
prada做了一個什么事呢?很簡單,他把衣服加了一個芯片,在試衣間加了一個傳感器,這個東西從貨架上拿下來,你試了多少次就知道了。他不能解決所有問題,但是至少解決一個問題,如果這個衣服大家不斷試就是不買,你肯定知道不是第一眼看上去不舒服,可能穿在模特身上好看,在我身上不好看。
第三個例子,TARGET是美國第二大百貨連鎖店,他有一次找來一個學(xué)統(tǒng)計的碩士到百貨店,干什么呢?他通過收集每個人的購物清單,分析用戶習(xí)慣。你光知道賣了多少貨還不行,還要知道誰在買。
之后碩士生做一些研究發(fā)現(xiàn)人買東西有一些規(guī)律,比如說孕婦在不同的階段買東西是不一樣的,大家基本上按照這個規(guī)律來,你買不同階段預(yù)測你下面買什么給你送優(yōu)惠卷。
突然有一天接到了一個非常憤怒的爸爸打來電話說,我女兒才14歲,你們就給他寄嬰兒的用品廣告,這個經(jīng)理一想數(shù)據(jù)好象也會出錯,大概一個星期回訪,他又打電話問這個父親,這個父親說對不起上次是我搞錯了,我女兒真懷孕了。
說明什么呢?大數(shù)據(jù)時代,有可能這些店家,這些商家比你更了解你自己的需求,淘寶可能比你更知道你下面要買什么東西?;蛘哒f為什么我講說,未來所有的公司可能都是大數(shù)據(jù)公司。我剛才講的這三個例子和我們傳統(tǒng)講的IT沒有關(guān)系。
面對大數(shù)據(jù),我們能做什么?
我們能做什么,或者需要做什么呢?第一個是數(shù)據(jù)的搜集,谷歌兩年前買了一個公司NEST30億美元,才100萬的用戶量,為什么呢?這是一個號稱智能空調(diào)的,在你房頂上裝一些東西,會提供家里WIFI功能,平時什么生活習(xí)慣知道,谷歌買了它,不是真正為了省那點電,他通過這個為了采集數(shù)據(jù)。
第二,數(shù)據(jù)的存儲,別小看這個。以前我們處理數(shù)據(jù),想象的數(shù)據(jù),文本的數(shù)據(jù),圖象的數(shù)據(jù),視頻的數(shù)據(jù),其實相對來講都是還算是小的。你數(shù)據(jù)量大了以后怎么辦,怎么檢索,怎么存儲,都是一個挑戰(zhàn)。
當(dāng)然還有一個很關(guān)鍵的,剛才我已經(jīng)反復(fù)講了隱私性,還有一個數(shù)據(jù)的安全。數(shù)據(jù)安全又有兩個概念,第一個概念就是說數(shù)據(jù)最好不要泄露。你不能丟,我們將來說大數(shù)據(jù),我們存在百度云盤上,這個丟了怎么辦或者說損壞了還能不能恢復(fù),這些都是挑戰(zhàn)。
機器智能的三足鼎立
下面我們要講機器智能,產(chǎn)生機器智能三個要素第一個是摩爾定律,計算機多快,存儲量多大。大數(shù)據(jù),我們思維方式變了。還有一個要有數(shù)學(xué)模型。因為計算機解決智能的方法和人不一樣,他不是思考,他是算,要算要有數(shù)學(xué)模型,機器智能將來是三足鼎立,你做其中任何一個,你可能將來在今后20年里都會是一個不錯的立足點。
比如說谷歌大腦,其實和人腦一毛錢關(guān)系沒有,這就是一個人工神經(jīng)網(wǎng)絡(luò),以前人工神經(jīng)網(wǎng)絡(luò)在一臺機器上實現(xiàn)可能幾百個節(jié)點不錯了,現(xiàn)在一百萬臺機器上實現(xiàn)可以有幾萬個節(jié)點。把這個模型訓(xùn)練的更加準(zhǔn)確,計算機顯得比以前聰明了。
這個像語音識別的錯誤,大概從15%-16%,大概能夠降到12-13%,沒有改變方法,沒有改變數(shù)據(jù)量,只是機器學(xué)習(xí)這個東西做了一個改變,就有了提高。
有了這些東西,我們回頭看一開始我提出的圖靈測試的問題,讓計算機回答問題。這個事解決了,計算機跟人類同等智能了。2012年的時候我從騰訊回谷歌,我的老板,管整個谷歌搜索的高級副總裁,說你做什么事隨你,只有一個要求,這個事做完了以后,讓微軟要花五年時間來追趕我們。
后來我想了想這個事好象能做,這個事過去歷史上還沒有人做成功,讓計算機回答問題。比如天為什么是藍的?我們做了一年半,給出一個結(jié)果,你可以讀一下。這實際上是一個數(shù)據(jù)的完備性的問題。其實很多時候,這個答案在類似于某個網(wǎng)頁里面,我們只是做了什么事呢?把互聯(lián)網(wǎng)上所有的網(wǎng)頁,不是說跟我們問題有關(guān)的,而是所有的網(wǎng)頁都拿下來做語法的分析,這個計算量很大,這必須在谷歌才能完成。
之后拼湊答案,還有一些數(shù)學(xué)模型,保證拼出來的句子讀起來像英文句子。就是這樣幾件事,把一個所謂智能問題變成一個大數(shù)據(jù)的問題,這是一個很重要的一點,并不是說我們比別人聰明,而是完全換了一個思維方式。你不再按照人的方式要求他去解決這個智能問題,而是讓機器的方式來解決智能問題。
第二個例子,谷歌自動駕駛汽車,你可以看成是一個機器人,跑了將近20萬公里,沒有出一次交通事故。實際上不是當(dāng)成一個智能問題,他是當(dāng)成一個大數(shù)據(jù)問題,這個項目是谷歌街景項目一個延伸,這個車能去的地方是谷歌掃過街的地方。他實際上把開車問題,變成了大數(shù)據(jù)問題。
講到這里引發(fā)一個問題,智能的機器無所不在的,未來的世界是人在主宰還是機器來主宰,大家可能會有這樣一個問題。舉兩個例子,一是富士康有很多裝配工人,郭臺銘已經(jīng)講了,不當(dāng)血汗工廠,要研制機器人,讓機器替代人。
可能有人會說,反正我們不是生產(chǎn)線裝配工人,波及不到我們,我們就講兩個高大上職業(yè)。第一個是放射科醫(yī)生,這在美國是非常高大上職業(yè),但未來放射科醫(yī)生可能是一個機器。比如說識別癌細胞的機器,準(zhǔn)確率在很多地方已經(jīng)超過醫(yī)生,而且他有一個非常大得好處,識別水平非常穩(wěn)定。
未來的社會,由于機器智能和大數(shù)據(jù),不僅僅是郭臺銘的生態(tài)線工人受影響,我們所有高大上職業(yè)也受影響。
未來的世界是什么樣的世界呢?第一條,機器其實是不會控制人類的,制造智能機器的公司和這些人,他們實際上是通過機器在控制人。這些人可能占人口很少數(shù)量,他們實際上是機器智能時代的受益者,其他人怎么辦呢?要不加入他們,要不然你成為98%,被2%的人控制。沒有選擇,你必須站在這個行業(yè),而且你的思維方式一定是有變化的。
大數(shù)據(jù)思維——全面性+互聯(lián)互通
總結(jié)一下大數(shù)據(jù)的思維。大數(shù)據(jù)思維第一點,一個是全面性,他將來可以在大數(shù)據(jù)時代做任何事可以細到每一個人,每一個商品,每一筆交易。
這畫了一個酒吧臺,這是一個創(chuàng)業(yè)公司。他把前一家公司賣掉以后,花了兩年時間走訪了美國100多家酒吧,他就做這個調(diào)查,他發(fā)現(xiàn)了一個很有意思的事,這個酒吧的酒有24%是被偷喝掉了,什么意思呢?比如說研習(xí)社汪洋是我的朋友,他來找我,我說小子今天沒有事,來給你來兩杯酒不算你錢,倒了兩杯喝了。
他做了什么事呢?他把酒架子改造了,每一個酒瓶子下面貼一個特殊的傳感器,傳感器本身三毛錢,然后每一次倒出來,倒多少盎司,什么時候倒的,和移動互聯(lián)網(wǎng)是連著的,老板躺在家里看手機都知道什么交易。這就是大數(shù)據(jù)思維。
我們對比講過去的互聯(lián)網(wǎng)思維,這個很重要的是什么呢?實際上是一個互聯(lián)互通,不是簡單的把電子商務(wù),說把商品原來在實體店,現(xiàn)在放到網(wǎng)上去。原來賣硬件的,也開始賣服務(wù),事實上小米今天賣小配件掙的利潤比他賣手機要高的多,這是一個大數(shù)據(jù)思維,要把整個的商業(yè)模式都改過來。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03