
數(shù)據(jù)科學(xué)家需要掌握的十大統(tǒng)計(jì)技術(shù)詳解
「數(shù)據(jù)科學(xué)家比程序員擅長統(tǒng)計(jì),比統(tǒng)計(jì)學(xué)家擅長編程?!贡疚慕榻B了數(shù)據(jù)科學(xué)家需要掌握的十大統(tǒng)計(jì)技術(shù),包括線性回歸、分類、重采樣、降維、無監(jiān)督學(xué)習(xí)等。
不管你對(duì)數(shù)據(jù)科學(xué)持什么態(tài)度,都不可能忽略分析、組織和梳理數(shù)據(jù)的重要性。Glassdoor 網(wǎng)站根據(jù)大量雇主和員工的反饋數(shù)據(jù)制作了「美國最好的 25 個(gè)職位」榜單,其中第一名就是數(shù)據(jù)科學(xué)家。盡管排名已經(jīng)頂尖了,但數(shù)據(jù)科學(xué)家的工作內(nèi)容一定不會(huì)就此止步。隨著深度學(xué)習(xí)等技術(shù)越來越普遍、深度學(xué)習(xí)等熱門領(lǐng)域越來越受到研究者和工程師以及雇傭他們的企業(yè)的關(guān)注,數(shù)據(jù)科學(xué)家繼續(xù)走在創(chuàng)新和技術(shù)進(jìn)步的前沿。
盡管具備強(qiáng)大的編程能力非常重要,但數(shù)據(jù)科學(xué)不全關(guān)于軟件工程(實(shí)際上,只要熟悉 Python 就足以滿足編程的需求)。數(shù)據(jù)科學(xué)家需要同時(shí)具備編程、統(tǒng)計(jì)學(xué)和批判思維能力。正如 Josh Wills 所說:「數(shù)據(jù)科學(xué)家比程序員擅長統(tǒng)計(jì)學(xué),比統(tǒng)計(jì)學(xué)家擅長編程?!刮易约赫J(rèn)識(shí)很多軟件工程師希望轉(zhuǎn)型成為數(shù)據(jù)科學(xué)家,但是他們盲目地使用 TensorFlow 或 Apache Spark 等機(jī)器學(xué)習(xí)框架處理數(shù)據(jù),而沒有全面理解其背后的統(tǒng)計(jì)學(xué)理論知識(shí)。因此他們需要系統(tǒng)地研究統(tǒng)計(jì)機(jī)器學(xué)習(xí),該學(xué)科脫胎于統(tǒng)計(jì)學(xué)和泛函分析,并結(jié)合了信息論、最優(yōu)化理論和線性代數(shù)等多門學(xué)科。
為什么學(xué)習(xí)統(tǒng)計(jì)學(xué)習(xí)?理解不同技術(shù)背后的理念非常重要,它可以幫助你了解如何使用以及什么時(shí)候使用。同時(shí),準(zhǔn)確評(píng)估一種方法的性能也非常重要,因?yàn)樗芨嬖V我們某種方法在特定問題上的表現(xiàn)。此外,統(tǒng)計(jì)學(xué)習(xí)也是一個(gè)很有意思的研究領(lǐng)域,在科學(xué)、工業(yè)和金融領(lǐng)域都有重要的應(yīng)用。最后,統(tǒng)計(jì)學(xué)習(xí)是訓(xùn)練現(xiàn)代數(shù)據(jù)科學(xué)家的基礎(chǔ)組成部分。統(tǒng)計(jì)學(xué)習(xí)方法的經(jīng)典研究主題包括:
線性回歸模型
k 近鄰法
Logistic 回歸于最大熵模型
提升方法
EM 算法
隱馬爾可夫模型
條件隨機(jī)場
之后我將介紹 10 項(xiàng)統(tǒng)計(jì)技術(shù),幫助數(shù)據(jù)科學(xué)家更加高效地處理大數(shù)據(jù)集的統(tǒng)計(jì)技術(shù)。在此之前,我想先厘清統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)的區(qū)別:
機(jī)器學(xué)習(xí)是偏向人工智能的分支
統(tǒng)計(jì)學(xué)習(xí)方法是偏向統(tǒng)計(jì)學(xué)的分支。
機(jī)器學(xué)習(xí)更側(cè)重大規(guī)模應(yīng)用和預(yù)測準(zhǔn)確率。
統(tǒng)計(jì)學(xué)系側(cè)重模型及其可解釋性,以及精度和不確定性。
二者之間的區(qū)別越來越模糊。
1. 線性回歸
在統(tǒng)計(jì)學(xué)中,線性回歸通過擬合因變量和自變量之間的最佳線性關(guān)系來預(yù)測目標(biāo)變量。最佳擬合通過盡量縮小預(yù)測的線性表達(dá)式和實(shí)際觀察結(jié)果間的距離總和來實(shí)現(xiàn)。沒有其他位置比該形狀生成的錯(cuò)誤更少,從這個(gè)角度來看,該形狀的擬合是「最佳」。線性回歸的兩個(gè)主要類型是簡單線性回歸和多元線性回歸。
簡單線性回歸使用一個(gè)自變量通過擬合最佳線性關(guān)系來預(yù)測因變量的變化情況。多元線性回歸使用多個(gè)自變量通過擬合最佳線性關(guān)系來預(yù)測因變量的變化趨勢。
任意選擇兩個(gè)日常使用且相關(guān)的物體。比如,我有過去三年月支出、月收入和每月旅行次數(shù)的數(shù)據(jù)?,F(xiàn)在我需要回答以下問題:
我下一年月支出是多少?
哪個(gè)因素(月收入或每月旅行次數(shù))在決定月支出方面更重要
月收入和每月旅行次數(shù)與月支出之間是什么關(guān)系?
2. 分類
分類是一種數(shù)據(jù)挖掘技術(shù),為數(shù)據(jù)分配類別以幫助進(jìn)行更準(zhǔn)確的預(yù)測和分析。分類是一種高效分析大型數(shù)據(jù)集的方法,兩種主要的分類技術(shù)是:logistic 回歸和判別分析(Discriminant Analysis)。
logistic 回歸是適合在因變量為二元類別的回歸分析。和所有回歸分析一樣,logistic 回歸是一種預(yù)測性分析。logistic 回歸用于描述數(shù)據(jù),并解釋二元因變量和一或多個(gè)描述事物特征的自變量之間的關(guān)系。logistic 回歸可以檢測的問題類型如下:
體重每超出標(biāo)準(zhǔn)體重一磅或每天每抽一包煙對(duì)得肺癌概率(是或否)的影響。
卡路里攝入、脂肪攝入和年齡對(duì)心臟病是否有影響(是或否)?
在判別分析中,兩個(gè)或多個(gè)集合和簇等可作為先驗(yàn)類別,然后根據(jù)度量的特征把一個(gè)或多個(gè)新的觀察結(jié)果分類成已知的類別。判別分析對(duì)每個(gè)對(duì)應(yīng)類中的預(yù)測器分布 X 分別進(jìn)行建模,然后使用貝葉斯定理將其轉(zhuǎn)換成根據(jù) X 的值評(píng)估對(duì)應(yīng)類別的概率。此類模型可以是線性判別分析(Linear Discriminant Analysis),也可以是二次判別分析(Quadratic Discriminant Analysis)。
線性判別分析(LDA):為每個(gè)觀察結(jié)果計(jì)算「判別值」來對(duì)它所處的響應(yīng)變量類進(jìn)行分類。這些分值可以通過找到自變量的線性連接來獲得。它假設(shè)每個(gè)類別的觀察結(jié)果都從多變量高斯分布中獲取,預(yù)測器變量的協(xié)方差在響應(yīng)變量 Y 的所有 k 級(jí)別中都很普遍。
二次判別分析(QDA):提供另外一種方法。和 LDA 類似,QDA 假設(shè) Y 每個(gè)類別的觀察結(jié)果都從高斯分布中獲取。但是,與 LDA 不同的是,QDA 假設(shè)每個(gè)類別具備自己的協(xié)方差矩陣。也就是說,預(yù)測器變量在 Y 的所有 k 級(jí)別中不是普遍的。
3. 重采樣方法
重采樣方法(Resampling)包括從原始數(shù)據(jù)樣本中提取重復(fù)樣本。這是一種統(tǒng)計(jì)推斷的非參數(shù)方法。即,重采樣不使用通用分布來逼近地計(jì)算概率 p 的值。
重采樣基于實(shí)際數(shù)據(jù)生成一個(gè)獨(dú)特的采樣分布。它使用經(jīng)驗(yàn)性方法,而不是分析方法,來生成該采樣分布。重采樣基于數(shù)據(jù)所有可能結(jié)果的無偏樣本獲取無偏估計(jì)。為了理解重采樣的概念,你應(yīng)該先了解自助法(Bootstrapping)和交叉驗(yàn)證(Cross-Validation):
自助法(Bootstrapping)適用于多種情況,如驗(yàn)證預(yù)測性模型的性能、集成方法、偏差估計(jì)和模型方差。它通過在原始數(shù)據(jù)中執(zhí)行有放回取樣而進(jìn)行數(shù)據(jù)采樣,使用「未被選中」的數(shù)據(jù)點(diǎn)作為測試樣例。我們可以多次執(zhí)行該操作,然后計(jì)算平均值作為模型性能的估計(jì)。
交叉驗(yàn)證用于驗(yàn)證模型性能,通過將訓(xùn)練數(shù)據(jù)分成 k 部分來執(zhí)行。我們將 k-1 部分作為訓(xùn)練集,「留出」的部分作為測試集。將該步驟重復(fù) k 次,最后取 k 次分值的平均值作為性能估計(jì)。
通常對(duì)于線性模型而言,普通最小二乘法是擬合數(shù)據(jù)時(shí)主要的標(biāo)準(zhǔn)。下面 3 個(gè)方法可以提供更好的預(yù)測準(zhǔn)確率和模型可解釋性。
4 子集選擇
該方法將挑選 p 個(gè)預(yù)測因子的一個(gè)子集,并且我們相信該子集和所需要解決的問題十分相關(guān),然后我們就能使用該子集特征和最小二乘法擬合模型。
最佳子集的選擇:我們可以為 p 個(gè)預(yù)測因子的每個(gè)組合擬合單獨(dú)的 OLS 回歸,然后再考察各模型擬合的情況。該算法分為兩個(gè)階段:(1)擬合包含 k 個(gè)預(yù)測因子的所有模型,其中 k 為模型的最大長度;(2)使用交叉驗(yàn)證預(yù)測損失選擇單個(gè)模型。使用驗(yàn)證或測試誤差十分重要,且不能簡單地使用訓(xùn)練誤差評(píng)估模型的擬合情況,這因?yàn)?nbsp;RSS 和 R^2 隨變量的增加而單調(diào)遞增。最好的方法就是通過測試集中最高的 R^2 和最低的 RSS 來交叉驗(yàn)證地選擇模型。
前向逐步地選擇會(huì)考慮 p 個(gè)預(yù)測因子的一個(gè)較小子集。它從不含預(yù)測因子的模型開始,逐步地添加預(yù)測因子到模型中,直到所有預(yù)測因子都包含在模型。添加預(yù)測因子的順序是根據(jù)不同變量對(duì)模型擬合性能提升的程度來確定的,我們會(huì)添加變量直到再?zèng)]有預(yù)測因子能在交叉驗(yàn)證誤差中提升模型
后向逐步選擇先從模型中所有 p 預(yù)測器開始,然后迭代地移除用處最小的預(yù)測器,每次移除一個(gè)。
混合法遵循前向逐步方法,但是在添加每個(gè)新變量之后,該方法可能還會(huì)移除對(duì)模型擬合無用的變量。
5. Shrinkage
這種方法涉及到使用所有 p 個(gè)預(yù)測因子進(jìn)行建模,然而,估計(jì)預(yù)測因子重要性的系數(shù)將根據(jù)最小二乘誤差向零收縮。這種收縮也稱之為正則化,它旨在減少方差以防止模型的過擬合。由于我們使用不同的收縮方法,有一些變量的估計(jì)將歸零。因此這種方法也能執(zhí)行變量的選擇,將變量收縮為零最常見的技術(shù)就是 Ridge 回歸和 Lasso 回歸。
Ridge 回歸非常類似于最小二乘法,只不過它通過最小化一個(gè)稍微不同的數(shù)值來估計(jì)系數(shù)。Ridge 回歸和 OLS 一樣尋求減少 RSS 的系數(shù)估計(jì)。然而當(dāng)系數(shù)收縮逼近零值時(shí),它們都會(huì)對(duì)這種收縮進(jìn)行懲罰。我們不需要數(shù)學(xué)分析就能看出 Ridge 回歸很擅長于將特征收縮到最小的可能空間中。如主成分分析,Ridge 回歸將數(shù)據(jù)投影到 D 維空間,并在系數(shù)空間內(nèi)收縮較低方差的成分而保留有較高方差的成分
Ridge 回歸至少有一個(gè)缺點(diǎn),它需要包含最終模型所有 p 個(gè)預(yù)測因子,這主要是因?yàn)榱P項(xiàng)將會(huì)令很多預(yù)測因子的系數(shù)逼近零,但又一定不會(huì)等于零。這對(duì)于預(yù)測準(zhǔn)確度來說通常并不是什么問題,但卻令模型的結(jié)果更難以解釋。Lasso 就克服了這一缺點(diǎn),因?yàn)樗?nbsp;s 組后小的時(shí)候能迫使一些預(yù)測因子的系數(shù)歸零。因?yàn)?nbsp;s = 1 將導(dǎo)致正規(guī)的 OLS 回歸,而當(dāng) s 逼近 0 時(shí),系數(shù)將收縮到零。因此 Lasso 回歸同樣是執(zhí)行變量選擇的一個(gè)好方法。
6. 降維
降維算法將 p+1 個(gè)系數(shù)的問題簡化為 M+1 個(gè)系數(shù)的問題,其中 M<p。算法執(zhí)行包括計(jì)算變量的 M 個(gè)不同線性組合或投射(projection)。然后這 M 個(gè)投射作為預(yù)測器通過最小二乘法擬合一個(gè)線性回歸模型。兩個(gè)主要的方法是主成分回歸(principal component regression)和偏最小二乘法(partial least squares)。
主成分回歸(PCR)可以看成一種從大型變量集合中導(dǎo)出低維特征集合的方法。數(shù)據(jù)中的第一主成分(first principal component)是指觀察數(shù)據(jù)沿著這個(gè)變量方向的變化最大。換言之,第一主成分是最接近擬合數(shù)據(jù)的線,總共可以用 p 個(gè)不同的主成分?jǐn)M合。第二主成分是和第一主成分不相關(guān)的變量的線性組合,且在該約束下有最大的方差。其主要思想是主成分能在各個(gè)互相垂直的方向使用數(shù)據(jù)的線性組合捕捉到最大的方差。使用這種方法,我們還能結(jié)合相關(guān)變量的效應(yīng)從數(shù)據(jù)中獲取更多的信息,畢竟在常規(guī)的最小二乘法中需要舍棄其中一個(gè)相關(guān)變量。
上面描述的 PCR 方法需要提取 X 的線性組合,以獲得對(duì)的預(yù)測器的最優(yōu)表征。由于 X 的輸出 Y 不能不能用于幫助決定主成分方向,這些組合(方向)使用無監(jiān)督方法提取。即,Y 不能監(jiān)督主成分的提取,從而無法保證這些方向是預(yù)測器的最優(yōu)表征,也無法保證能獲得最優(yōu)預(yù)測輸出(雖然通常假定如此)。偏最小二乘法(PLS)是一種監(jiān)督方法,作為 PCR 的代替方法。和 PCR 類似,PLS 也是一種降維方法,它首先提取一個(gè)新的較小的特征集合(原始特征的線性組合),然后通過最小二乘法將原來的模型擬合為一個(gè)新的具有 M 個(gè)特征的線性模型。
7. 非線性模型
在統(tǒng)計(jì)學(xué)中,非線性回歸屬于一種回歸分析形式,其中,觀測數(shù)據(jù)使用模型參數(shù)的非線性組合的函數(shù)(依賴于一個(gè)或多個(gè)獨(dú)立變量)建模。其使用逐次逼近法擬合數(shù)據(jù)。下方是幾種處理非線性模型的重要技術(shù)。
階梯函數(shù)(step function),變量為實(shí)數(shù),可以寫成區(qū)間的指示函數(shù)的有限線性組合的形式。非正式的解釋是,階梯函數(shù)是一種分段常數(shù)函數(shù),只有有限的部分。
分段函數(shù)(piecewise function)通過多個(gè)子函數(shù)定義,每一個(gè)子函數(shù)被定義在主函數(shù)定義域的確定的區(qū)間上。分段實(shí)際上是一種表示函數(shù)的方式,而不是函數(shù)自身的特征,但通過額外的限定條件,它可以用于描述函數(shù)的本質(zhì)。例如,一個(gè)分段多項(xiàng)式函數(shù)是一個(gè)在每一個(gè)子定義上為多項(xiàng)式的函數(shù),其中每一個(gè)多項(xiàng)式都可能是不同的。
樣條曲線(spline)是一種用多項(xiàng)式分段定義的特殊函數(shù)。在計(jì)算機(jī)圖形學(xué)中,樣條曲線是一種分段多項(xiàng)式參數(shù)化曲線。由于結(jié)構(gòu)的簡單性、評(píng)估的簡易和高精度、通過曲線擬合和交互曲線設(shè)計(jì)以逼近復(fù)雜曲線的能力,樣條曲線很常用。
廣義加性模型(generalized additive model)是一種廣義線性模型,其中線性預(yù)測器線性依賴于某些預(yù)測器變量的未知平滑函數(shù),其主要作用就是推測這些平滑函數(shù)
8. 基于樹的方法
基于樹的方法可以用于回歸和分類問題,包括將預(yù)測器空間分層或分割成幾個(gè)簡單區(qū)域。由于用于預(yù)測器空間的分離規(guī)則集合可以總結(jié)為一個(gè)樹,這類方法被稱為決策樹方法。以下的方法是幾種不同的樹,它們可以組合起來輸出單個(gè)一致的預(yù)測。
bagging 能減少預(yù)測的方差,即通過從原始數(shù)據(jù)中生成額外的數(shù)據(jù)(通過組合和重復(fù)生成和原始數(shù)據(jù)大小相同的多段數(shù)據(jù))用于訓(xùn)練。通過增大訓(xùn)練集無法提高模型的預(yù)測能力,只能減小方差,仔細(xì)地調(diào)整預(yù)測以得到期望的輸出。
boosting 是一種計(jì)算輸出的方法,即使用多個(gè)不同的模型,然后使用加權(quán)平均的方法對(duì)結(jié)果取平均值。我們一般通過改變這些方法所占的權(quán)重而結(jié)合各方法的優(yōu)勢,此外,我們還可以使用不同的精細(xì)調(diào)整獲得對(duì)更寬泛輸入數(shù)據(jù)的預(yù)測能力。
隨機(jī)森林算法(random forest algorithm)實(shí)際上和 bagging 算法很相似,同樣是對(duì)訓(xùn)練集提取隨機(jī) bootstrap 樣本。然而,除了 bootstrap 樣本以外,還可以提取特征的隨機(jī)子集以訓(xùn)練單個(gè)樹;而在 bagging 中,需要給每個(gè)樹提供整個(gè)特征集。由于特征選擇是隨機(jī)的,相比常規(guī)的 bagging 算法,每個(gè)樹之間更加獨(dú)立,從而通常能獲得更好的預(yù)測性能(得益于更好的方差—偏差權(quán)衡)。且計(jì)算速度也更快,因?yàn)槊總€(gè)樹只需要學(xué)習(xí)特征的一個(gè)子集。
9. 支持向量機(jī)
支持向量機(jī)(SVM)是一種常用的監(jiān)督學(xué)習(xí)分類技術(shù)。通俗地說,它用于尋找對(duì)兩類點(diǎn)集做出最佳分離的超平面(hyperplane,在 2D 空間中是線,在 3D 空間中是面,在高維空間中是超平面。更正式的說法是,一個(gè)超平面是一個(gè) n 維空間的 n-1 維子空間)。而支持向量機(jī)是保留最大的間隔的分離超平面,因此本質(zhì)上,它是一個(gè)約束最優(yōu)化問題,其中支持向量機(jī)的間隔在約束下被最大化,從而完美地對(duì)數(shù)據(jù)進(jìn)行分類(硬間隔分類器)。
那些「支持」著超平面的數(shù)據(jù)點(diǎn)被稱為「支持向量」。在上圖中,填充藍(lán)色圓和兩個(gè)填充方塊就是支持向量。在兩類數(shù)據(jù)不是線性可分的例子中,數(shù)據(jù)點(diǎn)將被投射到一個(gè)更高維空間中,使得數(shù)據(jù)變得線性可分。包含多個(gè)類別的數(shù)據(jù)點(diǎn)的問題可以分解成多個(gè)「一對(duì)一」(one-versus-one)或「一對(duì)剩余」(one-versus-rest)的二分類問題。
10. 無監(jiān)督學(xué)習(xí)
目前為止,我們都只討論過監(jiān)督學(xué)習(xí)技術(shù),其中數(shù)據(jù)分類都是已知的,且提供給算法的經(jīng)驗(yàn)都是實(shí)體和其分類的關(guān)系。當(dāng)數(shù)據(jù)的分類是未知的時(shí)候,就需要使用另一種技術(shù)了。它們被稱為無監(jiān)督的,因?yàn)樗鼈冃枰约喝グl(fā)現(xiàn)數(shù)據(jù)中的模式。聚類(clustring)是無監(jiān)督學(xué)習(xí)的一種,其中數(shù)據(jù)將根據(jù)相關(guān)性被分為多個(gè)群集。下方是幾種最常用的無監(jiān)督學(xué)習(xí)算法:
主成分分析:通過保留具備最大方差和互相不相關(guān)的特征之間的線性連接,而幫助生成數(shù)據(jù)集的低維表示。該線性降維技術(shù)有助于理解無監(jiān)督學(xué)習(xí)中的隱變量交互。
k 均值聚類:根據(jù)數(shù)據(jù)到集群中心的距離將其分成 k 個(gè)不同的集群。
層次聚類:通過數(shù)據(jù)的層級(jí)表示而構(gòu)建不同的集群。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10