
我們分析數(shù)據的方式在近年來發(fā)生了令人矚目的變化。隨著個人電腦和互聯(lián)網的出現(xiàn),可獲取的數(shù)據量有了非??捎^的增長。
商業(yè)公司擁有TB級的客戶交易數(shù)據,政府、學術團體以及私立研究機構同樣擁有各類研究課題的大量檔案和調查數(shù)據。從這些海量數(shù)據中收集信息(更不用說發(fā)現(xiàn)規(guī)律)已經成為了一項產業(yè)。同時,如何以容易讓人理解和消化的方式呈現(xiàn)這些信息也日益富有挑戰(zhàn)性。
數(shù)據分析科學(統(tǒng)計學、計量心理學、計量經濟學、機器學習)的發(fā)展一直與數(shù)據的爆炸式增長保持同步。遠在個人電腦和互聯(lián)網發(fā)端之前,學術研究人員就已經開發(fā)出了很多新的統(tǒng)計方法,并將其研究成果以論文的形式發(fā)表在專業(yè)期刊上。這些方法可能需要很多年才能夠被程序員改寫并整合到廣泛用于數(shù)據分析的統(tǒng)計軟件中。而如今,新的方法層出不窮。統(tǒng)計研究者經常在人們常訪問的網站上發(fā)表新方法和改進的方法,并附上相應的實現(xiàn)代碼。
個人電腦的出現(xiàn)還對我們分析數(shù)據的方式產生了另外一種影響。當數(shù)據分析需要在大型機上完成的時候,機時非常寶貴難求。分析師們會小心地設定可能用到的所有參數(shù)和選項,再讓計算機執(zhí)行計算。程序運行完畢后,輸出的結果可能長達幾十甚至幾百頁。之后,分析師會仔細篩查整個輸出,去蕪存菁。許多受歡迎的統(tǒng)計軟件正是在這個時期開發(fā)出來的。直到現(xiàn)在,統(tǒng)計軟件依然在一定程度上沿襲了這種處理方式。
隨著個人電腦將計算變得廉價且便捷,現(xiàn)代數(shù)據分析的方式發(fā)生了變化。與過去一次性設置好完整的數(shù)據分析過程不同,現(xiàn)在這個過程已經變得高度交互化,每一階段的輸出都可以充當下一階段的輸入。一個典型的數(shù)據分析過程的示例見圖1-1。在任何時刻,這個循環(huán)都可能在進行著數(shù)據變換、缺失值插補、變量增加或刪除,甚至重新執(zhí)行整個過程。當分析師認為他已經深入地理解了數(shù)據,并且可以回答所有能夠回答的相關問題時,這個過程即告結束。
個人電腦的出現(xiàn)(特別是高分辨率顯示器的普及)同樣對理解和呈現(xiàn)分析結果產生了重大影響。一圖勝千言,絕對如此!人類非常擅長通過視覺獲取有用信息?,F(xiàn)代數(shù)據分析也日益依賴通過呈現(xiàn)圖形來揭示含義和表達結果。
總而言之,今天的數(shù)據分析人士需要從廣泛的數(shù)據源(數(shù)據庫管理系統(tǒng)、文本文件、統(tǒng)計軟件以及電子表格)獲取數(shù)據、將數(shù)據片段融合到一起、對數(shù)據做清理和標注、用最新的方法進行分析、以有意義有吸引力的圖形化方式展示結果,最后將結果整合成令人感興趣的報告并向利益相關者和公眾發(fā)布。通過下面的介紹你會看到, R正是一個適合完成以上目標的理想而又功能全面的軟件。
1.1 為何要使用 R語言?
與起源于貝爾實驗室的S語言類似, R語言也是一種為統(tǒng)計計算和繪圖而生的語言和環(huán)境,它是一套開源的數(shù)據分析解決方案,由一個龐大且活躍的全球性研究型社區(qū)維護。但是,市面上也有許多其他流行的統(tǒng)計和制圖軟件,如Microsoft Excel、 SAS、 IBM SPSS、 Stata以及Minitab。為何偏偏要選擇R?
R有著非常多值得推薦的特性。
多數(shù)商業(yè)統(tǒng)計軟件價格不菲,投入成千上萬美元都是可能的。而R是免費的!如果你是一位教師或一名學生,好處顯而易見。
R語言是一個全面的統(tǒng)計研究平臺,提供了各式各樣的數(shù)據分析技術。幾乎任何類型的數(shù)據分析工作皆可在R中完成。
R語言擁有頂尖水準的制圖功能。如果希望復雜數(shù)據可視化,那么R擁有最全面且最強大的一系列可用功能。
R語言是一個可進行交互式數(shù)據分析和探索的強大平臺。其核心設計理念就是支持圖1-1中所概述的分析方法。舉例來說,任意一個分析步驟的結果均可被輕松保存、操作,并作為進一步分析的輸入。
從多個數(shù)據源獲取并將數(shù)據轉化為可用的形式,可能是一個富有挑戰(zhàn)性的議題。 R可以輕松地從各種類型的數(shù)據源導入數(shù)據,包括文本文件、數(shù)據庫管理系統(tǒng)、統(tǒng)計軟件,乃至專門的數(shù)據倉庫。它同樣可以將數(shù)據輸出并寫入到這些系統(tǒng)中。
R是一個無與倫比的平臺,在其上可使用一種簡單而直接的方式編寫新的統(tǒng)計方法。它易于擴展,并為快速編程實現(xiàn)新方法提供了一套十分自然的語言。
R囊括了在其他軟件中尚不可用的、先進的統(tǒng)計計算例程。事實上,新方法的更新速度是以周來計算的。如果你是一位SAS用戶,想象一下每隔幾天就獲得一個新SAS過程的情景。
如果你不想學習一門新的語言,有各式各樣的GUI(Graphical User Interface,圖形用戶界面)工具通過菜單和對話框提供了與R語言同等的功能。
R可運行于多種平臺之上,包括Windows、 UNIX和Mac OS X。這基本上意味著它可以運行于你所能擁有的任何計算機上。(本人曾在偶然間看到過在iPhone上安裝R的教程,讓人佩服,但這也許不是一個好主意。)
圖1-2是展示R語言制圖功能的一個示例。使用一行代碼做出的這張圖,說明了藍領工作、白領工作和專業(yè)工作在收入、受教育程度以及職業(yè)聲望方面的關系。從專業(yè)角度講,這是一幅使用不同的顏色和符號表示不同分組的散點圖矩陣,帶有兩類擬合曲線(線性回歸和局部加權回歸) 、置信橢圓以及兩種對密度的展示(核密度估計和軸須圖)。另外,在每個散點圖中都自動標出了值最大的離群點。如果這些術語對你來說很陌生也不必擔心。我們將在后續(xù)各章中陸續(xù)談及它們。這里請暫且相信我,它們真的非常酷。(搞統(tǒng)計的人讀到這里時估計已經垂涎三尺了。)圖1-2主要表明了以下幾點。
受教育程度(education)、收入(income)、職業(yè)聲望(prestige)呈線性相關。
就總體而言,藍領工作者有著更低的受教育程度、收入和職業(yè)聲望;反之,專業(yè)工作者有著更高的受教育程度、收入和職業(yè)聲望。白領工作者介于兩者之間。
有趣的例外是,鐵路工程師(RR.engineer)的受教育程度較低,但收入較高,而牧師(minister)的職業(yè)聲望高,收入卻較低。
受教育程度和職業(yè)聲望(較輕微地)呈現(xiàn)雙峰分布,高值和低值數(shù)據多于中間的數(shù)據。
重要的是, R能夠讓你以一種簡單而直接的方式創(chuàng)建優(yōu)雅、信息豐富、高度定制化的圖形。而使用其他統(tǒng)計語言創(chuàng)建類似的圖形不僅費時費力,而且可能根本無法做到。
可惜的是, R語言的學習曲線較為陡峭。因為它的功能非常豐富,所以文檔和幫助文件也相當多。另外,由于許多功能都是由獨立貢獻者編寫的可選模塊提供的,這些文檔可能比較零散而且很難找到。事實上,要掌握R的所有功能,可以說是一項挑戰(zhàn)。
數(shù)據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據分析師報考條件詳解與準備指南? ? 在數(shù)據驅動決策的時代浪潮下,CDA 數(shù)據分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據透視表中兩列相乘合計的實用指南? 在數(shù)據分析的日常工作中,數(shù)據透視表憑借其強大的數(shù)據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據分析師:連接數(shù)據與業(yè)務的價值轉化者? ? 在大數(shù)據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據查詢到趨勢預判? ? 在數(shù)據驅動決策的時代,預測分析作為挖掘數(shù)據潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據分析師考試:從報考到取證的全攻略? 在數(shù)字經濟蓬勃發(fā)展的今天,數(shù)據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據背后的時間軌跡? 在數(shù)據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據類型:時間維度的精準切片? ? 在數(shù)據的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據分析師認證考試中,Python 作為數(shù)據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據趨勢與突變分析的有力工具? ? ? 在數(shù)據分析的廣袤領域中,準確捕捉數(shù)據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據分析師認證作為國內權威的數(shù)據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據分析師考試作為衡量數(shù)據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據處理的關鍵技能? 在數(shù)據處理與分析工作中,數(shù)據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據分析師視角:從數(shù)據迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據分析師:開啟數(shù)據職業(yè)發(fā)展新征程? ? 在數(shù)據成為核心生產要素的今天,數(shù)據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03