
SAS與R的對(duì)決:誰(shuí)好使?
翻譯 | JosephYX
來(lái)自SAS資源資訊列表
摘要
盡管在工業(yè)界還是被 SAS 所統(tǒng)治,但是 R 在學(xué)術(shù)界卻得到廣泛的應(yīng)用,因?yàn)槠涿赓M(fèi)、開(kāi)源的屬性使得用戶們可以編寫和分享他們自己的應(yīng)用。然而,許多正在獲得數(shù)據(jù)分析相關(guān)學(xué)位的學(xué)生們由于缺乏 SAS 經(jīng)驗(yàn)的情況而在找工作的路上困難重重,與此同時(shí),他們要面對(duì)從學(xué)校熟悉的 R向 SAS 轉(zhuǎn)型的痛苦。理想情況是,你需要知道所有可能的編程語(yǔ)言,工作的時(shí)候使用與工作情況最匹配的那個(gè),當(dāng)然這個(gè)基本上是癡人說(shuō)夢(mèng)。我們的目的就是展示這兩種差異巨大的語(yǔ)言各自優(yōu)點(diǎn),并且共同發(fā)揮他們的優(yōu)勢(shì),我們同時(shí)還要指出那些不使用 SAS 好多年的、現(xiàn)在正在使用 R語(yǔ)言的人們的一些誤解和偏見(jiàn),因?yàn)樗麄円呀?jīng)很少關(guān)注 SAS 的發(fā)展和進(jìn)步了。
前言
我們選取 SAS 和 R 的原因是因?yàn)樗麄兪悄壳霸诮y(tǒng)計(jì)領(lǐng)域中最有統(tǒng)治地位的兩個(gè)編程語(yǔ)言。 現(xiàn)在我們注意到一個(gè)不好的現(xiàn)象,就是在學(xué)術(shù)界重度使用R的用戶認(rèn)為R在被SAS霸占的工業(yè)界有具有相當(dāng)優(yōu)勢(shì)的,然而熟練掌握這兩個(gè)軟件對(duì)于想在數(shù)據(jù)分析領(lǐng)域取得小有成就的年輕人來(lái)說(shuō)很關(guān)鍵。教授誤解加上對(duì)某個(gè)軟件的偏好往往對(duì)學(xué)生有著不利的引導(dǎo),因此需要在這里指出:教授們,別偷懶了,對(duì)某種語(yǔ)言的主觀偏好將會(huì)影響學(xué)生的錢途。
SAS經(jīng)常有一些更新(有點(diǎn)慢,sxlion注),非SAS程序員由于沒(méi)有技術(shù)跟進(jìn)往往并不知情。SAS繪圖模塊就是一個(gè)快速發(fā)展并成長(zhǎng)的例子,然而許多人并不注意到這些升級(jí)以至于他們?nèi)匀还虉?zhí)的使用 R畫圖。SAS另一個(gè)不廣為人知的例子是SAS可以輕松自定義函數(shù),這正是 R 的強(qiáng)項(xiàng)。這個(gè)SAS過(guò)程步(PROC)有全面的語(yǔ)法檢查、翔實(shí)的文檔和技術(shù)支持;然而一個(gè)新的使用者很可能不知道這些工具可用,或者根本不知道它們的存在。另外,SAS 還擁有卓越的培訓(xùn)課程,網(wǎng)絡(luò)及用戶組分享資源,不同相關(guān)主題的大量書籍。知道并合理的使用這些技術(shù)以及工具 有助于減少使用 SAS的畏懼之心。
相關(guān)問(wèn)題討論
本文就在我們學(xué)院碰到的一些共同誤解的地方,在此對(duì)比列出兩種語(yǔ)言的優(yōu)缺點(diǎn)。當(dāng)然還有更多的爭(zhēng)論在進(jìn)行中,但是本文匯中我們將選取最為普遍的來(lái)進(jìn)行討論。我們希望能夠消除誤解,并且盡可能地為那些不能及時(shí)跟進(jìn)R或SAS的分析人士提供新的信息。
統(tǒng)計(jì)方法的新進(jìn)展
SAS
優(yōu)點(diǎn):SAS 的軟件及算法都是經(jīng)過(guò)檢驗(yàn)的,SAS 有技術(shù)支持去快速解決用戶的需求。 如果需要的話,SAS 會(huì)嘗試在已存在的步驟中嵌入新的方法,例如增加一個(gè)選項(xiàng)或者新增一個(gè)語(yǔ)句(statement),因此用戶不需要學(xué)習(xí)另外一個(gè)過(guò)程步。SAS也 會(huì)發(fā)布最新通訊來(lái)詳細(xì)說(shuō)明軟件的更新。
缺點(diǎn):更新升級(jí)較慢。
R
優(yōu)點(diǎn):用戶可以快速實(shí)施新方法,或者尋找已經(jīng)存在的軟件包。很容易學(xué)習(xí)和理解新方法,因?yàn)閷W(xué)生們可以看到代碼中的函數(shù)。
缺點(diǎn):R 文檔的更新都是通過(guò)用戶進(jìn)行的,所以新的方法并沒(méi)有被很好調(diào)試和檢驗(yàn)。 開(kāi)發(fā)者們散布于各地,而并沒(méi)有在一起來(lái)進(jìn)行團(tuán)隊(duì)合作的開(kāi)發(fā)。
在這個(gè)問(wèn)題上,SAS 和 R 的優(yōu)缺點(diǎn)是互補(bǔ)的。對(duì)于 R,有人認(rèn)為它的代碼是開(kāi)放的,可以看到 R 是如何工作的,這對(duì)于擁有相關(guān)背景的人是比較容易理解的。然而對(duì)于 SAS,它的過(guò)程步是預(yù)裝的,文件中對(duì)不同的語(yǔ)句(Statement)及選項(xiàng)( Option) 存儲(chǔ)了大量的數(shù)學(xué)公式。如果用戶真的想看到底層程序,這個(gè)也是很容易實(shí)現(xiàn)的。對(duì)兩種語(yǔ)言的使用著者來(lái)說(shuō),不管是學(xué)生還是其它用戶,只是運(yùn)行代碼的話對(duì)于兩種語(yǔ)言是沒(méi)有什么不同的。你運(yùn)行SAS,不需要知道它在干什么,類似的是,你運(yùn)行R時(shí),也不需要知道它在后臺(tái)調(diào)用的函數(shù)。你所做的就是按章操作而已。
畫圖
SAS
優(yōu)點(diǎn):SAS畫圖模塊正變得越來(lái)越靈活、精良和易于使用。在一些分析過(guò)程步(PROCs) 中,ODS Graphics可以自動(dòng)的生成一些圖形,而不需要額外的代碼。這使得用戶多了一個(gè)選擇,即可以使用默認(rèn)的圖表生成圖表,也可以自己來(lái)創(chuàng)造個(gè)性化的圖表。
缺點(diǎn):圖形背后的模板語(yǔ)言(TL)是龐大及不易使用的,特別是對(duì)于新手來(lái)說(shuō)。新的高級(jí)功能如交互式繪圖功能( interactive graphs),對(duì)于新手來(lái)說(shuō)也是難以掌握的。
R
優(yōu)點(diǎn):可以簡(jiǎn)單的生成漂亮的圖表,還可以使用循環(huán)語(yǔ)句來(lái)生成動(dòng)畫。
缺點(diǎn):在 R 中圖表功能與統(tǒng)計(jì)分析無(wú)關(guān),繪圖和分析是相互獨(dú)立的。用戶必須自己來(lái)決定什么樣的圖形是合適的,使用效果的好壞取決于用戶們的統(tǒng)計(jì)背景和喜好。盡管改變圖形去達(dá)到特別的維度或角度并不是一個(gè)簡(jiǎn)單事兒。
SAS9.2 之前版本的圖表功能不足是 R 更吸引人的一個(gè)主要原因之一。R的一個(gè)最好的特性之一就是其圖表功能的高質(zhì)量性和易用性。但是,當(dāng)前 SAS/GRAPH 搭配 ODS Graphics 及 SG 過(guò)程在軟件中增加了制圖的能力。聯(lián)合使用 ODS graphics 和 PROCS 可以使用戶簡(jiǎn)單地生成與分析相關(guān)的展示圖表。 特定的繪圖過(guò)程步如PROC SGPLOT,SGPANEL和SGSCATTER等越來(lái)越多,當(dāng)然需要的一定代碼來(lái)實(shí)現(xiàn)。另外,SAS 中還有一些其他不錯(cuò)的繪圖選擇,如 SGDESOGNER 和 SAS Enterprise Guide。
函數(shù)及可重復(fù)使用的代碼
SAS
優(yōu)點(diǎn):SAS有可在 DATA 和 PROC 步使用的大量函數(shù)和自定義函數(shù)。另外強(qiáng)大無(wú)所不能的、也可以被DATA步和PROC步使用的宏語(yǔ)言。宏變量可定義為局部或者全局類型。
缺點(diǎn):編寫自定義函數(shù)和詳細(xì)的宏代碼需要深厚的編程知識(shí)來(lái)確保正確性。
R
優(yōu)點(diǎn):在 R 中編寫函數(shù)很簡(jiǎn)單,用戶也可以通過(guò)上傳自己的函數(shù)到 R-CRAN 上與其 它用戶分享。
缺點(diǎn):編寫自定義函數(shù)需要深厚的編程知識(shí)來(lái)確保正確性。變量是嚴(yán)格的局部變量。 在這一點(diǎn)上兩種軟件擁有類似的利弊。SAS 的早期用戶運(yùn)行自己的定制函數(shù)主要取決于宏程序的編寫,這也是 R 用戶認(rèn)為其低效及笨重的原因。然而,SAS 9 版本的 PROC FCMP允許用戶編寫個(gè)性化的函數(shù),SAS 9.2 版本又允許用戶在 DATA 及 PROC 步中調(diào)用這些函數(shù)。 這對(duì)于簡(jiǎn)單的統(tǒng)計(jì)函數(shù)是很有用的,對(duì)于更加復(fù)雜的統(tǒng)計(jì)函數(shù)也可以通過(guò) IML 語(yǔ)言來(lái)實(shí)現(xiàn)。
SAS 及 R 兩種語(yǔ)言都面臨著怎樣有效地、正確的使用函數(shù),這就需要用戶在函數(shù)編寫的過(guò) 程中擁有深厚的編程背景。從好的角度來(lái)說(shuō),一個(gè)程序員需要知道他們編寫的是什么;危險(xiǎn)的是,其它人可以下載一個(gè) SAS 宏或者 P 程序包來(lái)使用,盡管他們不知道其內(nèi)在工作原理, 甚至不知道其正確性。所以,有了對(duì)宏及函數(shù)適當(dāng)?shù)牧私猓賮?lái)分享它們并應(yīng)用于具體的需 求是很方便的。
免費(fèi)軟件
SAS
優(yōu)點(diǎn):SAS 有OnDemand 版本的軟件,免費(fèi)提供給學(xué)位頒發(fā)機(jī)構(gòu)。
缺點(diǎn):真正的 SAS 和 JMP 并不是免費(fèi)的。OnDemand 版本對(duì)使用何種操作系統(tǒng)有一 些限制,而且據(jù)反映運(yùn)行速度很慢。
R
優(yōu)點(diǎn):R 是完全免費(fèi)。
缺點(diǎn):開(kāi)源軟件對(duì)于大公司來(lái)講都會(huì)有安全方面的擔(dān)憂。
SAS公 司 為 教 育 機(jī) 構(gòu) 提 供 的 免 費(fèi) 替 代 品 可 以 保 證 教 授 們 在 課 堂 上 的 使 用 。 對(duì) 于 OnDemand 的安裝過(guò)程和速度需要注意??傊?/span>SAS 和 JMP 不是免費(fèi)的,公司需要使用許 可來(lái)使用該軟件。R 可以免費(fèi)的安裝,但許多參與論戰(zhàn)的博主們認(rèn)為如果那些正在使用 SAS 的公司去使用 R,將會(huì)花費(fèi)遠(yuǎn)遠(yuǎn)超過(guò) SAS 授權(quán)費(fèi)用的資源和財(cái)力,例如重寫代碼、構(gòu)建新 的團(tuán)隊(duì)、招聘新的專業(yè)人員等等。而且對(duì)于那些分析結(jié)果需要經(jīng)得起嚴(yán)格檢驗(yàn)要求的公司, 可能 SAS 更加適合。還沒(méi)有現(xiàn)存分析框架的小公司可以來(lái)探討是選擇歷史悠久、資源豐富的付費(fèi)軟件(SAS),還是要選擇雖然免費(fèi)、但是還需要其它先期投資(如員工的知識(shí)背景, 編寫及調(diào)試代碼)的軟件(R)。最終,從時(shí)間和金錢的角度來(lái)衡量,SAS 和 R 的花費(fèi)可能 是基本接近的。
用戶支持
SAS
優(yōu)點(diǎn):SAS 有豐富的網(wǎng)上參考資料,專業(yè)的技術(shù)支持,專業(yè)的培訓(xùn)課程,許多優(yōu)秀 的出版書籍,一個(gè)緊密的用戶組及網(wǎng)絡(luò)社區(qū)。SAS 的問(wèn)題可以直接反映給技術(shù)支 持部門,他們會(huì)與用戶一起來(lái)解決。
缺點(diǎn):真的沒(méi)想到。
R
優(yōu)點(diǎn):R 有很好的示例手冊(cè),網(wǎng)上參考材料,R 郵件列表和 R 聚會(huì)。
缺點(diǎn):用戶們?nèi)Q于其它用戶對(duì)于軟件的看法及建議。因?yàn)?/span> R 的開(kāi)發(fā)者散布于全球 各地,所以全球的用戶是缺乏聯(lián)系的。程序包(Package)并不是由 R 軟件的開(kāi)發(fā) 核心團(tuán)隊(duì)來(lái)編寫的,所以導(dǎo)致了程序的不完善甚至有時(shí)候會(huì)對(duì)結(jié)果的正確性有所懷 疑。另外,很難去直接尋找一個(gè)針對(duì)具體問(wèn)題的人員或者團(tuán)隊(duì)。
SAS 所提供的卓越的支持是他們以客戶為中心設(shè)計(jì)產(chǎn)品的亮點(diǎn)。SAS 支持的優(yōu)點(diǎn)對(duì)初 學(xué)者是理想的幫助,其大量的細(xì)節(jié)也使資深用戶受益匪淺。R 較為混亂的參考資料和匱乏的 技術(shù)支持在需要尋找?guī)椭鷷r(shí)困難重重。這違背了 R 的開(kāi)發(fā)設(shè)計(jì)者的初衷。
數(shù)據(jù)處理
SAS
優(yōu)點(diǎn):SAS 可以處理任意類型和格式的數(shù)據(jù)。DATA 步的設(shè)計(jì)純粹就是為了數(shù)據(jù)的管 理,所以 SAS 擅長(zhǎng)處理數(shù)據(jù)。利用豐富的選項(xiàng),SAS 可以將大數(shù)據(jù)處理的很好,拼表以及 PROC SQL 也可以減少運(yùn)行時(shí)間。
缺點(diǎn):在 DATA 步驟中 SAS 中的DATA步有非明示的循環(huán)算法,因此使用者的編程思維需要改變以符合SAS的運(yùn)行邏輯。
R
優(yōu)點(diǎn):R 在最初就被認(rèn)為是更加適合大數(shù)據(jù)的。它對(duì)于矩陣的操作和排序的設(shè)計(jì)是非 常高效的。R 也可以很好的進(jìn)行各種基于分析的數(shù)據(jù)模擬。
缺點(diǎn):R 的設(shè)計(jì)更加關(guān)注統(tǒng)計(jì)計(jì)算以及畫圖功能,所以數(shù)據(jù)的管理是比較耗時(shí)的,而 且不如在 SAS 中那么明晰。其中一個(gè)主要的原因就是:對(duì)于各種不同類型的數(shù)據(jù),在 R 中進(jìn)行很好的數(shù)據(jù)處理是比較難以掌握的。
數(shù)據(jù)處理的重要性經(jīng)常在統(tǒng)計(jì)編程中被忽視了,但是它確實(shí)是非常關(guān)鍵的,因?yàn)閷?shí)際的數(shù)據(jù)非常糟糕,不能直接應(yīng)用于分析。純粹地使用 R 的學(xué)生們對(duì)于得到的數(shù)據(jù)往往有不切實(shí)際的期望,而學(xué)習(xí) SAS 是一個(gè)有效的方法去解決怎樣整理原始的數(shù)據(jù)。SAS可以對(duì)大而繁雜的數(shù)據(jù)集進(jìn)行管理和分析,而 R更著重于進(jìn)行分析。
當(dāng)處理復(fù)雜數(shù)據(jù)時(shí),R 的面向?qū)ο蟮臄?shù)據(jù)結(jié)構(gòu)會(huì)遇到很多問(wèn)題,并且R還缺乏一個(gè)內(nèi)在的循環(huán)過(guò)程。在SAS中,應(yīng)用標(biāo)準(zhǔn)化工具經(jīng)常會(huì)進(jìn)行如下操作:合并含有大量缺失數(shù)據(jù)的復(fù)雜數(shù)據(jù)集,再生成及修改其中的變量。而在R中,進(jìn)行復(fù)雜的數(shù)據(jù)處理操作是沒(méi)有標(biāo)準(zhǔn)化的,而且經(jīng)常會(huì)導(dǎo)致更加復(fù)雜的過(guò)程。
SAS與R軟件運(yùn)行時(shí)間的快慢對(duì)比取決于任務(wù)。如SAS可以通過(guò)設(shè)置 MEMLIB,從而像R一樣使用內(nèi)存(而非硬盤)來(lái)提升運(yùn)行速度。但在R中,沒(méi)有這樣的硬件驅(qū)動(dòng),只能使用內(nèi)存來(lái)執(zhí)行。
安裝
SAS
優(yōu)點(diǎn):SAS所有的分析功能及授權(quán)都被整體打包在一起安裝。升級(jí)授權(quán)證書是非常容易。
缺點(diǎn):首次安裝或升級(jí)到一個(gè)新的版本是很耗時(shí)且有點(diǎn)麻煩的。但是這比在課堂上向 學(xué)生們講述如何使用這個(gè)軟件簡(jiǎn)單1000倍。現(xiàn)在越來(lái)越多的學(xué)生們?cè)谡n堂上使用Macs系統(tǒng)的筆記本,但是SAS沒(méi)有Mac版,意味著這部分學(xué)生無(wú)法使用 SAS。
R
優(yōu)點(diǎn):R 和其最常用的用戶界面 RStudio 在 Window、Mac 和 Unix 環(huán)境下都很容易安 裝和打開(kāi),且安裝速度都很快。
缺點(diǎn):運(yùn)行必須知道滿足需求的程序包,然后搜索、安裝、了解具體功能。截止原文發(fā)表時(shí),共有 4379 個(gè)可用程序包,這一數(shù)量還在每天增加。在提供了更多選擇的 同時(shí),也增加了搜尋的時(shí)間和難度。
SAS 的獲得對(duì)用戶來(lái)說(shuō)比較困難,首次安裝也是比較麻煩的。但是一旦安裝完成了, 有關(guān)軟件本身的問(wèn)題就很少了,對(duì)于特別的分析,也不需要額外的程序包或者步驟了。R 中 相反,安裝非常簡(jiǎn)單,但對(duì)于額外分析,需要另外安裝程序包,浪費(fèi)了安裝軟件所節(jié)省的時(shí) 間。
報(bào)表
SAS
優(yōu)點(diǎn):SAS 通過(guò)很多有用的過(guò)程步來(lái)生成詳細(xì)漂亮的報(bào)表。
缺點(diǎn):能提供更詳盡報(bào)表的過(guò)程如 TABULATE、REPORT 等,在能正確而有效的使用前,將為有一個(gè)艱難的學(xué)習(xí)曲線等待你跨越。
R
優(yōu)點(diǎn):報(bào)表方面,R擁有諸多利器。Sweave包可以創(chuàng)造包含文字、表格和圖形的 PDF 文件,其中圖形可以LaTeX 和 R 命令來(lái)裝扮。另一個(gè)新的程序包 Knitr 可以快速生成格式限制較少的網(wǎng)頁(yè)內(nèi)容。
缺點(diǎn):R 沒(méi)有一個(gè)模式化的方式來(lái)生成報(bào)表,所以需要在編程上花一些功夫。報(bào)表的生成對(duì)于 R 來(lái)說(shuō)是一個(gè)比較新的方向,所以它不如 SAS 來(lái)的簡(jiǎn)單和快速。在 R 中,Sweave 和 Knitr 是報(bào)表這方面的領(lǐng)先的程序包,但是學(xué)習(xí)起來(lái)也比較困難。
重度報(bào)表使用用戶應(yīng)該了解這些以上不同,盡管學(xué)習(xí) SAS 的報(bào)表功能需要花費(fèi)一些時(shí)間,但是一旦掌握了就很有價(jià)值并有很高的靈活性。而從最基礎(chǔ)學(xué)習(xí) R 的報(bào)表功能也許不需要像 SAS 那樣花那么多時(shí)間。
結(jié)論
我們可以看到解決 R 與 SAS 的辯論是三合一的。第一,就像在任何一個(gè)統(tǒng)計(jì)編程社區(qū) 一樣,我們知道這個(gè)PK是沒(méi)有一個(gè)最終贏家。兩種軟件各有優(yōu)缺點(diǎn)。他們有共存的必 要,而學(xué)術(shù)上的教學(xué)中,他們也有共存的必要。如果學(xué)生們能夠明確他們的需求并合理的應(yīng) 用,那樣會(huì)獲得更好的效果。如果只給學(xué)生教授一種軟件是有局限性的,這樣會(huì)使他們難以 發(fā)揮學(xué)習(xí)另外一種軟件的潛力。第二,用戶們需要保持他們的工具箱與時(shí)俱進(jìn)。SAS 和 R 都有一些很不錯(cuò)的 學(xué)習(xí)網(wǎng)站去介紹最新 的技術(shù)上的進(jìn)步。 SAS 技 術(shù) 支 持 網(wǎng) 站 http://support.sas.com 有許多最新的動(dòng)態(tài),如 Focus Areas、E-newsletters、RSS 種子和博客。R 博客網(wǎng)站 http://www.r-bloggers.com 包含了許多用戶貢獻(xiàn)的新聞和練習(xí)。第三,最理想的是學(xué)習(xí) 兩種軟件并將其融合于分析中。這里有許多方法可以嘗試,例如用 SAS 的 IML 和 SAS 的 IML/Studio(IML 是 SAS 的一個(gè)加載項(xiàng))功能,或者通過(guò)使用 SAS X Statement 執(zhí)行外部命 令,使 R 代碼在 SAS 中轉(zhuǎn)化成 SAS 命令來(lái)運(yùn)行。對(duì)于 R 的用戶們,通過(guò)轉(zhuǎn)化 R 到 SAS 的 用戶界面,可以同時(shí)使用 2 種軟件。通過(guò)使用兩種軟件可以使處理及分析數(shù)據(jù)變得事半功倍, 而且使所有的用戶都滿意。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10