
大數(shù)據(jù)自下而上:算法和統(tǒng)計學完美的結(jié)合
從理論上來說有這樣終極的目標:給定一個可以推理的目標,同時確定固定的計算時間,提供由算法和分析支撐的保證,按小時、分鐘、秒進行計算,推論的質(zhì)量將會隨著數(shù)據(jù)的精確性而單調(diào)遞增,并且是沒有邊界的無線增長。隨著數(shù)據(jù)無邊界的增長,遇到很大的麻煩,我們每一代人都需要面對。我們想一次解決,有什么樣的辦法可以推理積累的大量數(shù)據(jù)?需要花時間解決,這可能需要幾十年才能解決。
我們看一下目前的進展。其中一個就是自下而上的辦法,將算法原理和統(tǒng)計學的推論完美地結(jié)合在一起。這些算法原則上來講,可以放在一個環(huán)境當中,我們選一些分治的方法來解決。這些難題,我們聚合起來,聚合的越多,這些錯就越少,更好做一些。然后分開相互之間相互矛盾的數(shù)據(jù),包括統(tǒng)計數(shù)字,還有計算機科學的數(shù)字,可以避免帶來很大的麻煩。然后再回到我們理論上的問題,如何進行權(quán)衡,提高我們計算的效率。
1.大數(shù)據(jù)引導程序(The bootstrap)
首先第一個問題,我們叫做大數(shù)據(jù)的引導程序,我們在伯克利幾年前做過這樣的工作。這個引導程序能夠解決一些非常重要的問題--評價推論的質(zhì)量。很多有學識的研究者并不太關(guān)注推論的質(zhì)量。輸入數(shù)據(jù)到一個盒子里面,然后得到一個答案,是9.5.但是多數(shù)的決策并不能滿足要求,要知道9.5里面的差錯率多大?如果這個數(shù)字超過10的話,就要把肝切掉了,如果是9.5的話還可以。所以,這是真正的9.5嗎?還存在很大的誤差嗎?或者是沒有超過10嗎?如果真正做出真實的決策時,是沒有誤差這個欄的考慮,但是計算機科學家們需要對這個有很深的了解。所以我們要進行工作,能夠在數(shù)據(jù)庫的社區(qū)里面建立一些數(shù)據(jù)庫,能夠輸入,然后再輸出,同時有一個非常清楚明白的誤差欄。
現(xiàn)在讓我們進入到另外一個領(lǐng)域,進入到統(tǒng)計學里面怎么樣呢?很有意思的一點就是在非常簡單的事情上,我們抽樣,根據(jù)有相關(guān)的公式,可以通過這樣的途徑進行了解。比如說我們根據(jù)抽樣里面的差異性,加上知道差錯率,如果不講差錯率,有一個中等的情況,比如說10.2,那這個誤差是多少呢?并沒有這樣的公式在里面。我們怎么知道一般情況中存在的差異性?我們有一個通常叫做的程序框架,能夠應(yīng)對快速擴展的大數(shù)據(jù),并且計算誤差率。
到底推斷的質(zhì)量如何?我們觀察的數(shù)據(jù)包括機器的誤差率和基于數(shù)據(jù)進行參數(shù)的預測。我們叫做形成一種參數(shù)的預估值。就像一條程序、一個黑匣子,到底有多少的誤差在里面,這是我們所關(guān)注的。通過對程序進行計算,了解數(shù)據(jù)指標情況,如果想做一個理想的統(tǒng)計學家的話,還要對它進行科學的定義。
所謂的頻率主義者,每一個數(shù)據(jù)都會要計算中間的情況,還有一些預估估算,不同的數(shù)據(jù)級進行浮動,你看浮動的范圍就帶來這種所謂的誤差率。從這個定義來說,這個誤差率是什么,誤差率就是指你還需要更多的時間分析這些數(shù)據(jù)。如果你沒有大量的數(shù)據(jù),你不能夠?qū)@些數(shù)據(jù)進行一次又一次的檢驗,并同時看他們之間的浮動。如果沒有一個數(shù)據(jù)集的話,就可以一次性去做,看看生成的情況,我們只有一個數(shù)據(jù)集。
我們設(shè)想一下,如何分析這些問題,解決這些問題,即使只有一個數(shù)據(jù)集。這些數(shù)據(jù)來自什么地方,有這樣的一些群體,比如說在我們這里生成一些數(shù)據(jù),有一個曲線可以反映出相關(guān)的群體。如果是一個一般不存在的東西,上面有一個幻燈片,可以形成一個數(shù)據(jù)集,兩個數(shù)據(jù)集,對每個數(shù)據(jù)集進行計算,你所在意的都是一些數(shù)據(jù)的預測,然后得到一個公式??梢宰鲇嬎銠C的并擊處理,生成一個數(shù)據(jù)的處理,每一個計算機可以進入一個預估值,然后可以在估算當中產(chǎn)生一些誤差。然后這個里面我們沒有多個數(shù)據(jù)級,我們不能這樣去做。我們觀察有一個數(shù)據(jù)來自這樣的群體,然后這些數(shù)據(jù)不是列出來的數(shù)據(jù),這些數(shù)據(jù)的分布圖是分布式,可以生成越來越多的數(shù)據(jù)。這種分布盡管不可以換,但是你可以從中抽樣。我們叫做近似值,基本上是真實的。[page]
所以說,這是非常微妙、深層的理念,拿過一個數(shù)據(jù)級生成多個數(shù)據(jù)級,這個叫做引導程序。1979年的時候拿到的一個大獎,這里其實是非常簡單的理念。盡管1979年還沒有云的語言等,也是可以這樣做。你可以用于任何的查詢上,為什么不把所有的數(shù)據(jù)庫從云上取樣,聽起來是非常好的理念。但是,這可以在我們計算機科學里面有更加好的應(yīng)用。我們的一些數(shù)據(jù)在服務(wù)器上已經(jīng)分布了,如果重新抽樣,數(shù)據(jù)級拿過來,從里面進行抽樣,得先返回去,再回到這個地方。意味著什么呢?從這個上面進行取樣,講的更清楚一些,就是基于終端的數(shù)據(jù),這是一個分布式的,可以從任何一側(cè)進行取樣。比如說從一天當中這個數(shù)據(jù)發(fā)生的時間當中取樣,同樣一個大的數(shù)據(jù)級可以做一次,然后反復的做,這又意味著什么?如果這樣取樣的話,從其中一個點上分布,可以得到其中一個點,然后按比例的高度劃分,我得到這一點,再次做一下,可以獲得同樣的點。做N次,在某些點上可以得到很多次。這跟我們?nèi)雍吞娲粯樱岩粋€樣品拿過來然后再返回去,反復地做。
我們經(jīng)常描述,把最初的數(shù)據(jù)拿過來重新取樣,然后做很多次,就是所謂的引導程序。數(shù)據(jù)點上有替代,可以做數(shù)學計算,0.632次,如果有這個取樣的話,就有632個。不能做這么大,這是我們主要的程序,在隨意的預估上,可以達到引導程序,已經(jīng)超越一些小數(shù)據(jù)了,這是可能會帶來的一些問題。
2.二次抽樣(Subsampling)
還有另外一個方面,就是統(tǒng)計學家們做的。他們需要有競爭力,出現(xiàn)另外一個程序的話,它也可以來解決,叫做二次取樣。二次取樣跟以前一樣,進行一個取樣,在這個里面可能太大了,我們用一個子抽樣,或者再次的抽樣,進行一個劃分。我們很快的到預估值上,在這個B點上得到9.5的數(shù)字,我可以再次去做,把B點從N點里面取出來,可以做很多次。我們可以有多少的估算值,還有這樣的浮動,聽起來很好,一個數(shù)據(jù)級,我得到各種估算值,問題就是是否正確。因為B點,預算值大小取決于N點的數(shù)量,這個取樣是來了解這些誤差。我們可以有這樣的浮動,規(guī)模不一樣的,尺寸大小不一樣,錯就錯了。所以不能進行二次抽樣估算得到答案,這個答案是錯誤的。
這里關(guān)鍵問題產(chǎn)生了,這個比例是錯了,這個值太大了,因為這個數(shù)據(jù)級太小了。我們重新設(shè)定他們的尺寸,這樣一個比例怎么進行設(shè)置?一般不知道怎么做。對于像一個黑匣子一樣,在數(shù)據(jù)庫里面放一些東西,用戶定義的功能,就不知道它的尺寸多大,然后還有一定數(shù)量的數(shù)據(jù)點等,這也是一個問題,你必須要從理論上針對每一個黑匣子去做。更加嚴重的問題是,如果在現(xiàn)實中使用的話,如果是工程上的默認,這里有一個例子,50000個合成數(shù)字,我們還有一些計算,我們用合成的方法做,知道真正的Airbas是什么,這是我們做的結(jié)果。再強調(diào)一點,這里并沒有任何二次的抽樣,只需要1.5次的工作,就可以進行取樣。
這里誤差有一個核算,我們有合成的數(shù)據(jù)。X軸上看到的時間,運行的是二次取樣,不同的取向,還有y軸上,你可以看到0.5在這個上面,這個誤差是很壞的,這個藍色的點是一個藍色的程序,這是Bootstrap的對象,可以很快的穩(wěn)定走下來。我們可以來把這個誤差變成0,然后我們可以進行平均,在這個上面,并不是要達到Bootstrap,在合理的范圍內(nèi),我們達到6,這個還是有問題的,然后在7、6.8,然后在綠色的線下面,他們更有效的使用我們的引導程序,引導程序的效率是很高的。它也是有一個N的融合。這個B是一個最中心的限制,我們感到很驚訝,就是在80年代論證的時候。
對于這些我可以看到非常好的結(jié)果,現(xiàn)在的0.9是這個淺綠色又出現(xiàn)問題了,它還重復出現(xiàn),但是這個值我們還不知道,我們知道這是真實的地方,正確的價值,但是現(xiàn)實當中我們是無法知道的。工程師的一些方法有的時候是做不到的。[page]
3.新流程的小“自助包”(Bag of little bootstraps)
我們還有另外一個理念“小自助包”,我將會討論新的步驟結(jié)合引導程序和二次抽樣,并且運用他們最好的部分。同小部分的數(shù)據(jù)一起,比如說二次抽樣和同樣適合分布式計算平臺。但是,與引導程序相同,它并不需要分析的部分,所以想到一些理念,我們的Bootstraps運行40多年了,統(tǒng)計學家不會有任何的程序上的擔心。
再回到這個圖片,我們還有真實性,還有數(shù)據(jù)級,還有一個Size B,進行重新的取樣?,F(xiàn)在我們注意到這個Size
B的數(shù)據(jù)是來自于周圍的一個步驟,他們還是間接的來自下面一個真實的情況。我們繼續(xù)看我們的子集,圖片看上去不太好,現(xiàn)在的N不是10,想一下預估值和估算值也是非常好的近似值。然后不要考慮這是否是真實的,你現(xiàn)在面臨這樣的世界,你是一個大家伙,這是你真實的情況。你可以進行抽樣,基于我們的B點,它是一種分布,你可以來去抽樣,按你所需要的次數(shù),多少次都可以,只要能想到的。你把這個對象拿過來,然后你可以及時的進行抽樣,現(xiàn)在在正確的比例值上,有合適的數(shù)據(jù)級是需要的。其中很多點會重復很多次。
然后我們多次的對它進行取樣,在某些點可能完全不做,然后我們有B點,覺得它非常小,我們覺得它是分布式的。我們有一個非常好的叫做B取樣的分子級,我不想去分析它,盡管這是一個本地的網(wǎng)絡(luò),但是也不會把它分散。所以每一個B點會多少次被二次取樣,這些數(shù)據(jù)在什么地方,我們可以把這個放在原來的基礎(chǔ)上,我們可以做多次的事情,再做引導程序,這樣的話,我們把子取樣進行引導,有一張圖作為我的總結(jié)。
這個流程比較復雜,你把B取樣的一個子樣,然后放在一個數(shù)據(jù)級上,然后又替代一段時間內(nèi),你獲得的值,因此上面是一個處理器,它有一個引導程序,我們?yōu)槭裁床挥靡粋€框進行解決問題呢?他是一個比較小的取樣,它是正確的,但是有很多的噪音,我們必須要平均。所以必須需要多個框,可能需要200個處理器都執(zhí)行同樣的一個計算的流程。那么,他們可能都會有一個平均的錯誤率。
這是有效的,首先回到一個TB的問題,N=N的6次方,比如說我們子樣數(shù)據(jù)級的大小是4GB,而再次取樣的數(shù)據(jù)級別也是4GB,那么這張圖和剛才那張圖是一樣的。就是在一個數(shù)據(jù)集上,加大計算機的利用率。如果在真正的分布式的計算環(huán)境里面做,我想應(yīng)該是0.5TB,會在一個大的數(shù)據(jù)庫里會發(fā)生什么呢?我們看一下引導程序,不可能進行并行化,我們使用并行計算,通過機器學習,做第一個再取樣,再做一次,然后再并行計算的計算機上進行Bootstraps計算,大概15000秒的時間獲得一個合理的答案,對于應(yīng)用來說稍微有一點慢了。所以我們現(xiàn)在怎么做?我們有一個算法。對于0.5TB的數(shù)據(jù),放到所有本地的200個處理器上,也就是說這個紅點的位置,然后再取樣,再做引導程序。我以前在機器學習方面,我不可能有這樣的圖做出來,只是20%、30%的完善。這卻改變了并行計算的方式,我們可以進行非常大型的一種引導程序,我們現(xiàn)在可以在數(shù)據(jù)庫中做,我們正在開發(fā)關(guān)系型的數(shù)據(jù)庫當中。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03