
R與Excel之?dāng)?shù)據(jù)分析
Excel 是一款很好用的數(shù)據(jù)分析工具,但是你分析數(shù)據(jù)時只有 Excel 這一款工具的話,則會大大影響工作效率。相比之下,R 工具更好用,而且提供的工具集模塊更完整。
我從事數(shù)據(jù)分析工作已經(jīng)有十年之久。最初是出于工作需要,我的經(jīng)理給我一堆數(shù)據(jù),我需要處理這些數(shù)據(jù)。當(dāng)時我一直使用的工具是 Excel,因為這是我熟練掌握的一款工具。三年前,我開始接觸到 R,一開始因為功能太多而堅決抵制使用。后來我開始琢磨如何使用。現(xiàn)在我基本不怎么使用 Excel 了。這只是我個人的觀點,但是如果你要分析數(shù)據(jù),R 更勝任這項任務(wù)。下面來說說為什么 R 更適合數(shù)據(jù)分析。
這兩款工具的使用方法截然不同。使用 Excel 時,可以通過鼠標(biāo)點擊完成大部分工作,你可以訪問界面內(nèi)不同位置的各種工具。因此 Excel 非常便于使用(熟能生巧),但是用 Excel 處理數(shù)據(jù)非常費時,而且如果接手一個新項目,你必須單調(diào)地重復(fù)這些流程。使用 R 時,則通過代碼完成所有操作。你把數(shù)據(jù)載入內(nèi)存,然后運行腳本來研究并處理數(shù)據(jù)。這個工具可能不夠人性化,但是有以下幾點好處。
我認(rèn)為,從概念上來說,R 更便于使用。如果你在處理多列數(shù)據(jù),雖然你只是在處理單個任務(wù),但是卻會看到所有的數(shù)據(jù)。而使用 R 時,數(shù)據(jù)都在內(nèi)存中,只有調(diào)出數(shù)據(jù)才能看到。如果你在轉(zhuǎn)換或計算,你會處理相關(guān)列或行的子集,其他所有數(shù)據(jù)都在后臺。我覺得這樣更便于關(guān)注手頭的任務(wù)。完成任務(wù)后,可將其保存在某個數(shù)據(jù)幀中,其中只包含所需的列或行數(shù)據(jù)。你建立了正確的數(shù)據(jù)集,可解決當(dāng)前的問題。這樣做看似無關(guān)緊要,但實際上大受裨益。
借助 R,就可以對其他數(shù)據(jù)集輕松重復(fù)相同的操作。因為所有數(shù)據(jù)都是通過代碼進行處理和研究,因此對新的數(shù)據(jù)集執(zhí)行相同的操作也就輕而易舉了。使用 Excel 時,大多數(shù)操作都是通過鼠標(biāo)點擊實現(xiàn),雖然用戶體驗不錯,但對新的數(shù)據(jù)重復(fù)操作卻非常費時而枯燥。而 R 只需載入新的數(shù)據(jù)集,然后再次運行腳本即可。
實際上,用代碼操作也便于診斷并共享你的分析結(jié)果。使用 Excel 時,大多數(shù)的分析結(jié)果都基于內(nèi)存(數(shù)據(jù)透視表在這里,公式編輯器在另一個表格上等)。而在 R 中,通過代碼執(zhí)行所有操作,一目了然。如果你在修正一個錯誤,你很清楚在哪里操作,而如果你需要共享分析結(jié)果,只需復(fù)制粘貼代碼即可。在線查找?guī)椭鷷r,你能準(zhǔn)確說明所用數(shù)據(jù),并提出具體的問題。事實上,大多數(shù)時候,你在線提問時,人們都是直接貼出準(zhǔn)確的代碼,來解決你的問題。
R 中的項目組織更簡單。在 Excel 中,我要準(zhǔn)備一系列表格,可能還要準(zhǔn)備多個工作簿,然后適當(dāng)命名,而且各文件名不得重復(fù)。我的項目備注分別保存在各個文件中。我的 R 項目組織單獨設(shè)有一個文件夾,我處理過的所有內(nèi)容都放在其中。清理數(shù)據(jù)、探索性圖表及模型。這樣便于我理解和查找,也為與我一起工作的其他人提供方便。當(dāng)然,Excel 也能做到井井有條。我覺得 R 的簡潔性更便于使用。
上述幾點只能說是錦上添花,而并不是必不可少。在沒有這些功能之前,我也用了好幾年 Excel,你應(yīng)該也一樣?,F(xiàn)在,我想講講 R 和 Excel 真正的區(qū)別。我想說的是,除了以上那些花哨的小優(yōu)勢之外,R 更適合用于數(shù)據(jù)分析。原因如下。
你可以把任何數(shù)據(jù)載入 R。數(shù)據(jù)的保存位置或保存形式并不重要。你可以載入 CSV 文件,也可以讀取 JSON,或者執(zhí)行 SQL 查詢,抑或提取網(wǎng)站。你甚至還可以在 R 中通過 Hadoop 處理大數(shù)據(jù)。
R 是一個完整的工具集,使用的是數(shù)據(jù)包。在分析數(shù)據(jù)時,R 比 Excel 更實用。你可使用 R 執(zhí)行數(shù)據(jù)管理、分類和回歸,也可以處理圖片,并執(zhí)行其他所有操作。如果機器學(xué)習(xí)是你的專業(yè),那能想到的任何算法都是小菜一碟。目前,R 可用的數(shù)據(jù)包逾 5,000 個,因此無論你要處理什么類型的數(shù)據(jù),R 都能應(yīng)付自如。
R 的數(shù)據(jù)可視化效果非常卓越。說句實話,Excel 的圖表非常出色,簡單易懂。但 R 的效果更好。我覺得這是 R 最實用的功能之一。借助 ggplot2,你可以快速創(chuàng)建所需的各種圖表,并根據(jù)圖表形狀自行調(diào)整。在你熟悉了如何用 ggplot2 創(chuàng)建一個圖表后,任何其他圖表都不在話下。ggplot2 還能制作更多類型的圖表。你能用 Excel 創(chuàng)建散點圖矩陣嗎?用 R 就能輕松創(chuàng)建這種矩陣,CDF plot 也是如此。Excel 棋差一招。
Git 版本控制。我一向習(xí)慣保存多個版本的分析結(jié)果。Git 是至今為止我找到的最好用的工具。我使用 RStudio 作為編輯器,其支持項目。創(chuàng)建一個項目倉庫,然后你就能跟蹤數(shù)據(jù)研究的不同版本。你可以創(chuàng)建不同版本的 Excel 文件,但是這些保存的二進制文件無法顯示相互之間的更改部分。而 R 非常簡單。
我已經(jīng)說了很多理由。總之,Excel 是一款不錯的數(shù)據(jù)分析工具。我相信它能不負(fù)眾望完成所有任務(wù)。但是,如果你只有這一款工具,則會大大影響你的工作效率。相比之下,R 更好用,而且提供的工具集模塊更完整。而缺點在于不是非常易于上手,用戶一開始相對要花很多時間學(xué)習(xí)使用。如果堅持下去,就會有所收獲,不僅對數(shù)據(jù)更了解,還提高了自己的能力。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03