shuffle是一個能產(chǎn)生奇跡的地方,不管是在 Spark 還是Hadoop中,它們的作用都是至關(guān)重要的。 在Spark中,一般在執(zhí)行reduceByKey、groupByKey、sortByKey、countByKey、join、cogroup等操作時,會發(fā)生shuff ...
2020-05-13HDFS集群有兩類節(jié)點(diǎn),并以管理者-工作者模式運(yùn)行,即一個NameNode(管理者)和多個DataNode(工作者)。 NameNode是Master節(jié)點(diǎn),有點(diǎn)類似Linux里的根目錄,是管理文件系統(tǒng)的命名空間。管理數(shù)據(jù)塊映射 ...
2020-05-12?;呛卧S圖也 據(jù)小z不嚴(yán)謹(jǐn)?shù)某闃犹釂柦y(tǒng)計,90%想學(xué)習(xí)?;鶊D的旁友,都是被她妖艷炫酷的外表所吸引。 而桑基圖真正代表了什么?和類似圖表相比的獨(dú)特性是什么? ...
2020-05-12Series數(shù)據(jù)結(jié)構(gòu) Series是一種類似于一位數(shù)組的對象,由一組數(shù)據(jù)及一組與之相關(guān)的數(shù)據(jù)標(biāo)簽(即索引)組成。 上面這樣的數(shù)據(jù)結(jié)構(gòu)就是Series,第一列數(shù)字是數(shù)據(jù)標(biāo)簽,第二列是具體的數(shù)據(jù) ...
2020-05-12Python在數(shù)據(jù)分析領(lǐng)域受到社會大眾的歡迎,一般而言,在windows上也是能運(yùn)行Python程序的,不過前提是需要安裝python解釋器。但是絕大多數(shù)的python程序都是跑在Linux機(jī)器上的,所以我們需要配置一臺linu ...
2020-05-12Kudu是一個列式存儲的用于快速分析的NoSQL數(shù)據(jù)庫,提供了類似SQL的查詢語句,與RDBMS十分類似,有**PRIMARY KEY **,基于主鍵查詢而不是HBase的RowKey。 kudu擁有毫秒級延遲 與其他大數(shù)據(jù)數(shù)據(jù)庫不同,Kud ...
2020-05-12什么是卡方分布呢? 卡方分布(chi-square distribution),又名西格瑪分布,統(tǒng)計學(xué)領(lǐng)域的應(yīng)用學(xué)科,是統(tǒng)計學(xué)中的一個非常有用的著名分布。 當(dāng)n個相互獨(dú)立的隨機(jī)變量ξ?,ξ?,...,ξn ,均服從標(biāo) ...
2020-05-12俗話說的好,工欲善其事,必先利其器。很多從事數(shù)據(jù)統(tǒng)計分析工作的朋友應(yīng)該會深有感觸,苦于自己80%的時間在做數(shù)據(jù)清洗,而僅僅只有20%的時間在優(yōu)化模型、分析統(tǒng)計結(jié)果等,今天我們就來介紹下SQL數(shù)據(jù)清洗。 因此, ...
2020-05-12(1)Excel實現(xiàn) 缺失值填充前后的對比如下圖所示: 在數(shù)據(jù)中年齡用數(shù)字填充合適,但是性別用數(shù)字填充就不太合適,那么可不可以分開填充呢?答案是可以的,選中想要被填充的那一列,按照填充全部數(shù)據(jù)的方式進(jìn)行填充 ...
2020-05-11從菜市場買來的菜,總有一些是壞掉的不太好的,所以把菜買回來之后要做一遍預(yù)處理,也就是把那些壞掉的不太好的部分扔掉?,F(xiàn)實中大部分的數(shù)據(jù)都類似于菜市場的菜品,拿到手以后會有一些不好的數(shù)據(jù),所以都要先做 ...
2020-05-11《python統(tǒng)計分析》以基礎(chǔ)的統(tǒng)計學(xué)知識和假設(shè)檢驗為重點(diǎn),簡明扼要地講述了Python在數(shù)據(jù)分析、可視化和統(tǒng)計建模中的應(yīng)用。 主要包括Python的簡單介紹、研究設(shè)計、數(shù)據(jù)管理、概率分布、不同數(shù)據(jù)類型的假設(shè)檢 ...
2020-05-11最近,看到一道有關(guān)T分布的試題《T分布是一條以0為中心左右對稱的曲線嗎?》確實,T分布是以0為中心,左右對稱的一簇單峰曲線。不過,當(dāng)其自由度越小,曲線的峰度越低,尾部越高,當(dāng)自由度趨于無窮大時,t分布就是標(biāo) ...
2020-05-11混淆矩陣(Confusion Matrix),也成為誤差矩陣,是用n行n列矩陣形式來表示的表,這張表通過對比已知分類結(jié)果的測試數(shù)據(jù)的預(yù)測值和真實值表來描述衡量分類器的性能。 在二分類的情況下,混淆矩陣是展示預(yù)測 ...
2020-05-11統(tǒng)計分析中的長尾分布理論認(rèn)為,由于成本和效率的因素,過去人們只會關(guān)注重要的人或事,如果用需求曲線來描述,受精力與成本等客觀因素的限制,人們通常只會關(guān)注曲線的“頭部”,而選擇忽略曲線的“尾部 ...
2020-05-11現(xiàn)在大數(shù)據(jù)成為一個熱門話題, 然而無論是網(wǎng)頁、產(chǎn)品信息、車輛的功能、文本、病例,還是氣象等數(shù)據(jù), 對數(shù)據(jù)的理解的第一步就是要理解數(shù)據(jù)之間的關(guān)聯(lián)。認(rèn)同這一點(diǎn)的話, 就能夠理解為什么圖論在將來能夠為人們的 ...
2020-05-11最近在接觸kaggle的競賽示例,練習(xí)了一下,感覺受益匪淺。同時,心中也有個問題。拿到數(shù)據(jù)之后第一件事是什么?分析數(shù)據(jù)的情況?怎么分析?分析之后如何去處理數(shù)據(jù)呢?等等一些數(shù)據(jù)分析的工作。其中,大家都可能非 ...
2020-05-11python數(shù)據(jù)挖掘,指用python對數(shù)據(jù)進(jìn)行處理,從大型數(shù)據(jù)庫的分析中,發(fā)現(xiàn)預(yù)測信息的過程。 什么是數(shù)據(jù)挖掘? 數(shù)據(jù)挖掘(英文全稱Data Mining,簡稱DM),指從大量的數(shù)據(jù)中挖掘出未知且有價值的信息和只 ...
2020-05-11一提到深度學(xué)習(xí),大部分人會覺得一定非常難,其實不然,深度學(xué)習(xí)背后的主要原因是人工智能應(yīng)該從人腦中汲取靈感,而python深度學(xué)習(xí),指的是使用編程語言Python來進(jìn)行深度學(xué)習(xí)。 眾所周知,Python是一門 ...
2020-05-11說道SQL難不難學(xué)的問題,應(yīng)該是見仁見智吧!對于有目標(biāo)的人而言,學(xué)習(xí)SQL就會變得簡單,大家一定相信這點(diǎn)。當(dāng)然,千里之行始于足下,學(xué)習(xí)并沒有什么捷徑,只能靠努力。 SQLServer是一個可擴(kuò)展的、高性能的、為分布 ...
2020-05-09隨著科技的日新月異,人們對數(shù)據(jù)的依賴穩(wěn)步上升中,尤其在商業(yè)等領(lǐng)域,對于企業(yè)而言正確且連貫的數(shù)據(jù)流,是他們做出快速、精準(zhǔn)的決策的重要依據(jù)之一。因此,建立正確的數(shù)據(jù)流和數(shù)據(jù)結(jié)構(gòu)才能保證最好的結(jié)果,這個過程 ...
2020-05-09CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08