
大數(shù)據(jù)自上而下提升統(tǒng)計(jì)和算法的效率
我們?cè)谌ラ_發(fā)這些計(jì)算體系時(shí),不管是軟件、計(jì)算,其實(shí)都是在談大數(shù)據(jù)分析的概念性,什么時(shí)候出現(xiàn)問題,我們?nèi)绾芜_(dá)到高準(zhǔn)確度,這只是這個(gè)問題的開始。其實(shí)作為一個(gè)計(jì)算科學(xué)家,我們經(jīng)常會(huì)遇到很多的問題,有些是統(tǒng)計(jì)學(xué)方面的問題,但是我們沒有聯(lián)合統(tǒng)計(jì)學(xué)家一起考慮和解決這些問題。
比如說這個(gè)結(jié)果的一致性,那么還有引導(dǎo)程序的理論,那么就像常規(guī)的引導(dǎo)程序一樣,都會(huì)達(dá)到一些限值,從上至下的計(jì)算,統(tǒng)計(jì)學(xué)的利弊權(quán)衡,什么意思呢?我們對(duì)數(shù)據(jù)計(jì)算的理解,也就是說更多的數(shù)據(jù)需要更多的計(jì)算,更多的計(jì)算能力。我們?nèi)绾蝸碜??到底?a href='/map/bingxingchuli/' style='color:#000;font-size:inherit;'>并行處理?還是子樣抽取等等。你給我更多的數(shù)據(jù),我會(huì)更高興,因?yàn)槲夷軌颢@得更高的準(zhǔn)確度,我的錯(cuò)誤會(huì)更小,我會(huì)以更低的成本獲得更正確的答案。對(duì)于統(tǒng)計(jì)學(xué)家來說這是好的,但是對(duì)于做計(jì)算的來說這個(gè)不大好,因?yàn)槲覀儗⑦@樣思考這個(gè)問題。也就是說給我一些數(shù)據(jù),那么我們有一個(gè)新的觀念,叫做控制的算法弱化,比如說我的數(shù)據(jù)量不夠,我可以快速的處理它。數(shù)據(jù)太多,我的處理速度會(huì)慢下來。從計(jì)算角度來說,控制的算法能夠讓我更快速的處理數(shù)據(jù),也就是算法的弱化。統(tǒng)計(jì)學(xué)的角度來說,能夠處理更多的數(shù)據(jù),獲得更好的統(tǒng)計(jì)學(xué)上的答案性能提高。盡管計(jì)算的預(yù)算成本不變,但是我們能夠處理更多的數(shù)據(jù),以更快的速度,我們付出的代價(jià)就是算法的弱化。
那么,這個(gè)坐標(biāo)你們不經(jīng)??矗瑱M軸指我們?nèi)拥臄?shù)量,縱軸代表的是運(yùn)行時(shí)間。我們看一下到底有多少的錯(cuò)誤。我們現(xiàn)在就要思考固定風(fēng)險(xiǎn)。比如說在我們錯(cuò)誤率是0.01,這個(gè)座標(biāo)的區(qū)域,對(duì)于統(tǒng)計(jì)學(xué)家來說,如果要固定風(fēng)險(xiǎn)的話,那么必須有一定數(shù)量的樣品,才能夠獲得這樣的結(jié)果。所以,這是一個(gè)叫做典型的預(yù)計(jì)理論,大家都非常了解。同樣對(duì)于在計(jì)算機(jī)科學(xué)方面,我們有所謂的負(fù)載均衡的概念,不管你有多少個(gè)樣本,但是你一定要有足夠的運(yùn)營時(shí)間,否則的話,你是無法解決這個(gè)問題的,這是非常明確的一點(diǎn)。
所以,我們看一下實(shí)際的算法。有一定的運(yùn)行時(shí)間,有固定的風(fēng)險(xiǎn),在右邊使用的所有算法,把算法弱化,我們就可以處理更多的數(shù)據(jù)。下面我來談一下,這就是我們所說的問題降噪,所謂降噪就是在數(shù)據(jù)方面有一些屬于制造噪音的數(shù)據(jù)。我們?nèi)绾巫鼋翟??首先,我們假設(shè)可能的答案是X這樣的一個(gè)分樣,然后用高準(zhǔn)確度覆蓋它,所以這是一個(gè)推理預(yù)估的過程。比如說我要找到X的值,它和Y是非常相似的,這是一個(gè)自然的預(yù)估?,F(xiàn)在X是一個(gè)非常復(fù)雜的值,我無法做,所以我要做一個(gè)凸形的值域,我要做定性,同時(shí)可以獲得最優(yōu)點(diǎn),我需要把它放在一個(gè)可行的規(guī)模大小之內(nèi),那么也就是任何一個(gè)固定風(fēng)險(xiǎn)都是基于X的。左邊是風(fēng)險(xiǎn),我需要它的一半,這里存在復(fù)雜性,如果想知道更多的復(fù)雜性,你們可以看一些所謂理論處理方面的文獻(xiàn),你們可以讀一下,來做這樣均衡的曲線。
我們看一下相關(guān)的內(nèi)容,如果你要達(dá)到一定的風(fēng)險(xiǎn),你必須要有一定的取樣點(diǎn)。這是一個(gè)C,也許這個(gè)C也是計(jì)算方面很難算出來的,所以我們需要做C子集的,把這個(gè)子集進(jìn)行弱化,這樣我們就可以更好的計(jì)算了。我們可以做分層的層級(jí),我們稱為池域,并且根據(jù)計(jì)算的復(fù)雜度進(jìn)行排序的。同時(shí),還有統(tǒng)計(jì)學(xué)的復(fù)雜性,然后進(jìn)行一個(gè)權(quán)衡。你們可以從數(shù)學(xué)計(jì)算出這個(gè)曲線。在這里舉個(gè)例子,比如說X,剛才已經(jīng)有人介紹過子集是什么意思,然后你們可以定運(yùn)行時(shí)間,還有取樣的復(fù)雜性,然后可以算出答案。你們看一下簡單的C,復(fù)雜的C,然后你們看一下運(yùn)行的時(shí)間是在下降,復(fù)雜性是一個(gè)恒值,這樣你的算法更簡單,可以用于大數(shù)據(jù),既不會(huì)不會(huì)增加風(fēng)險(xiǎn),也可以在舉證方面更加簡化。如果是一個(gè)信號(hào)的圖值,你的運(yùn)行時(shí)間由PQ值決定,你們還有一個(gè)域值的話,我們會(huì)有一個(gè)恒定的取樣,大家可以同時(shí)按照“列”計(jì)算,獲得我們預(yù)期的準(zhǔn)確度,而運(yùn)行時(shí)間不變,大家可以自己看這些公式。
那么,這種分析我希望大家能夠記住的是和這種理論計(jì)算科學(xué),重點(diǎn)就是能夠把準(zhǔn)確度放到一個(gè)水平。因?yàn)槲覀円リP(guān)心有關(guān)質(zhì)量方面、統(tǒng)計(jì)學(xué)方面的風(fēng)險(xiǎn),計(jì)算科學(xué)方面的算法能夠幫助我們解決比較大的問題,就是大數(shù)據(jù)帶來的大問題。同時(shí),我們還有很多的數(shù)據(jù)理論可以適用,我們不要從統(tǒng)計(jì)學(xué)簡單的角度來考慮,而是從計(jì)算的角度考慮。
也許你們還要去學(xué)一些統(tǒng)計(jì)學(xué)方面的基本理論,當(dāng)然如果你們是學(xué)統(tǒng)計(jì)學(xué)的話,你們也要參加計(jì)算機(jī)科學(xué)的課程。對(duì)于兩門都學(xué)的人,你們應(yīng)該把這兩個(gè)學(xué)科放到一起思考,不是統(tǒng)計(jì)學(xué)家只考慮統(tǒng)計(jì)學(xué),計(jì)算機(jī)科學(xué)家只考慮計(jì)算機(jī)方面,我們需要解決統(tǒng)計(jì)學(xué)方面的風(fēng)險(xiǎn)。因此,我們可以更好的處理十萬個(gè)采樣點(diǎn),都不會(huì)遇到問題。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03