本文講述了數(shù)據(jù)分析師應(yīng)當(dāng)了解的五個(gè)統(tǒng)計(jì)基本概念:統(tǒng)計(jì)特征、概率分布、降維、過(guò)采樣/欠采樣、貝葉斯統(tǒng)計(jì)方法。 利用統(tǒng)計(jì)學(xué),我們可以更深入、更細(xì)致地觀察數(shù)據(jù)是如何進(jìn)行精確組織的,并且基于這種組織結(jié)構(gòu), ...
2020-05-18在過(guò)去的幾十年中,機(jī)器學(xué)習(xí)領(lǐng)域發(fā)生了巨大的變化。誠(chéng)然,有些方法已經(jīng)存在很長(zhǎng)時(shí)間了,但仍然是該領(lǐng)域的主要內(nèi)容。例如,Legendre和Gauss已經(jīng)在19世紀(jì)初提出了最小二乘的概念。在最近的幾十年中,諸如神經(jīng)網(wǎng)絡(luò)等 ...
2020-05-14xpath,英文全稱XML Path Language,即XML路徑語(yǔ)言,它是一種用來(lái)確定XML文檔中某部分位置的語(yǔ)言,可以在 XML文檔中查找相關(guān)的信息,相對(duì)而言功能還是比較強(qiáng)大的。 xpath最初是一個(gè)通用的、介于XPointer與XSL間的語(yǔ) ...
2020-05-14是一種可以從html和xml中快速提取內(nèi)容的python庫(kù),共有四種類型,對(duì)于爬蟲(chóng)解析來(lái)說(shuō),主要用其中的遍歷文檔樹(shù)和搜索文檔樹(shù) BeautifulSoup The Dormouse\'s story Once upon a time there were thr ...
2020-05-14在JavaScript教程有同步加載與異步加載,大家知道它們指什么嗎? 什么是同步加載? 在加載數(shù)據(jù)時(shí)仍然執(zhí)行其他程序,通常加載時(shí)是不執(zhí)行程序的,我們不得不等進(jìn)度條,因?yàn)楹芏喑绦蛟跊](méi)有加載數(shù)據(jù)時(shí), ...
2020-05-14隨著機(jī)器學(xué)習(xí)的興起,Python 逐步成為了「最受歡迎」的語(yǔ)言。它簡(jiǎn)單易用、邏輯明確并擁有海量的擴(kuò)展包,因此其不僅成為機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)的首選語(yǔ)言,同時(shí)在網(wǎng)頁(yè)、數(shù)據(jù)爬取scrapy可科學(xué)研究等方面成為不二選擇。 ...
2020-05-14大數(shù)據(jù)時(shí)代下,憑借數(shù)據(jù)管理框架中的重要管理職能,元數(shù)據(jù)管理也越來(lái)越頻繁的出現(xiàn)在大家的視野中。 元數(shù)據(jù)及應(yīng)用也是數(shù)據(jù)倉(cāng)庫(kù)的重要組成部分,它是描述數(shù)據(jù)的數(shù)據(jù)(data about data),描述數(shù)據(jù)的屬性信息,可以幫助 ...
2020-05-14R語(yǔ)言中的dplyr包非常神奇,里面包含很多的函數(shù),今天我們就來(lái)介紹下窗口函數(shù)的應(yīng)用。 窗口函數(shù)應(yīng)用 mtcars %>% group_by(cyl) %>% mutate(rank = min_rank(desc(mpg))) mtcars %>% group_by(cyl) ...
2020-05-14postgreSQL是一款先進(jìn)的開(kāi)源數(shù)據(jù)庫(kù),擁有非常齊全的自由軟件的對(duì)象-關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)(ORDBMS),可面向企業(yè)復(fù)雜SQL的OLTP業(yè)務(wù)場(chǎng)景,支持多項(xiàng)企業(yè)級(jí)功能,能解決使用數(shù)據(jù)庫(kù)的各種難題。 PostgreSQL的優(yōu)勢(shì)有很多 ...
2020-05-14Spark為結(jié)構(gòu)化數(shù)據(jù)處理引入了一個(gè)稱為Spark SQL的編程模塊。簡(jiǎn)而言之,sparkSQL是Spark的前身,是在Hadoop發(fā)展過(guò)程中,為了給熟悉RDBMS但又不理解MapReduce的技術(shù)人員提供快速上手的工具。 sparkSQL提供了一 ...
2020-05-14維度表和事實(shí)表,在構(gòu)建企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)時(shí)經(jīng)常能見(jiàn)到。維度表被看成是用戶用來(lái)分析一個(gè)事實(shí)的窗口,它里面的數(shù)據(jù)應(yīng)該是對(duì)事實(shí)的各個(gè)方面描述,簡(jiǎn)而言之就是基礎(chǔ)表,如:時(shí)間維度表,它里面的數(shù)據(jù)就是一些日,周,月, ...
2020-05-14大數(shù)據(jù)作為繼云計(jì)算、物聯(lián)網(wǎng)之后IT行業(yè)又一顛覆性的技術(shù),備受關(guān)注,要想知道大數(shù)據(jù)創(chuàng)業(yè)方向,一定要知道。Kettle作為ETL工具,在數(shù)據(jù)管理環(huán)節(jié)出現(xiàn),那么我們一起來(lái)看看,大數(shù)據(jù)產(chǎn)業(yè)鏈包括哪幾個(gè)環(huán)節(jié) IT基 ...
2020-05-14hive默認(rèn)將元數(shù)據(jù)存儲(chǔ)到本地內(nèi)嵌的Derby數(shù)據(jù)庫(kù)中,但是Derby不支持多會(huì)話鏈接,因此我們使用mysql數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)hive的元數(shù)據(jù)。配置完成hiveSQL的元數(shù)據(jù)庫(kù)之后再開(kāi)始安裝、配置hive。 1、在線安裝mysql ...
2020-05-14最近項(xiàng)目需要一個(gè)數(shù)據(jù)收集分析的功能,做了一些調(diào)研。我們一起來(lái)看看flume是主流嗎? 目前做網(wǎng)絡(luò)統(tǒng)計(jì)的方式有兩大類: 1. Page Tagging, 即頁(yè)面埋點(diǎn);web端用js,移動(dòng)端使用共用api。 2. ...
2020-05-13rdd,英文全稱為:Resilient Distributed Dataset,中文簡(jiǎn)稱“彈性分布式數(shù)據(jù)集”,spark中最基礎(chǔ)的抽象數(shù)據(jù)結(jié)構(gòu)。 RDD具備分區(qū)、不可變、并行操作這三個(gè)基本特性,表現(xiàn)形式為不可變的分區(qū)元素的集合,并且可以在集 ...
2020-05-13Mapreduce是種編程模型,結(jié)合了概念\"Map(映射)\"和\"Reduce(歸約)\",用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。它極大地方便了編程人員在不會(huì)分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng) ...
2020-05-13docker源自PaaS提供商dotCloud,是一個(gè)基于LXC的開(kāi)源的高級(jí)應(yīng)用容器引擎,源代碼托管在 Github 上, 基于go語(yǔ)言并遵從Apache2.0協(xié)議開(kāi)源。 容器是完全使用沙箱機(jī)制,使用者可以將其應(yīng)用打包后放入docker ...
2020-05-13Spark Streaming、Flink、Kafka三者都是真正的實(shí)時(shí)處理,它們分別是什么呢?我們今天來(lái)了解下。 什么是Spark Streaming? spark streaming是真正的實(shí)時(shí)處理,是微批處理。 什么是Flink? flin ...
2020-05-13一般來(lái)說(shuō),python中DataFrame是可以執(zhí)行的,可能是初學(xué)者在使用過(guò)程中,引入了兩個(gè)DataFrame,導(dǎo)致pandas的DataFrame被覆蓋,從而無(wú)法運(yùn)行。 引用zdpandas的DataFrame 我們不會(huì)直接引入DataFrame,而是 ...
2020-05-13Flink其實(shí)就是ApacheFlink,是一款業(yè)內(nèi)非常火的大數(shù)據(jù)產(chǎn)品,由Apache軟件基金會(huì)開(kāi)發(fā),核心是用Java和Scala編寫的分布式流數(shù)據(jù)流引擎。Apache Flink是個(gè)旨在提供‘一站式’ 的分布式開(kāi)源數(shù)據(jù)處理框架。 Flink ...
2020-05-13CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動(dòng)企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無(wú)外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫(kù)的日常操作中,我們經(jīng)常會(huì)遇到需要整合多張表數(shù)據(jù)的場(chǎng)景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,面對(duì)海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫(kù)操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問(wèn)題時(shí)有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書(shū):以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開(kāi)啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書(shū)) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08