
用R做數(shù)據(jù)分析(1)_R簡介_數(shù)據(jù)分析師
R語言是由 Ross Ihaka、Robert Gentleman二位創(chuàng)建的,這也許可以解釋為什么叫R語言。現(xiàn)在由“R開發(fā)核心團(tuán)隊(duì)”負(fù)責(zé)開發(fā)。R是基于S語言的一個(gè)GNU項(xiàng)目。
一、 R語言介紹
R是為統(tǒng)計(jì)計(jì)算和作圖的一門語言和環(huán)境。是一個(gè)GNU項(xiàng)目,和S語言和環(huán)境很相似,S語言是由BELL實(shí)驗(yàn)室的John Chambers和他的同事開發(fā)的。R語言可以認(rèn)為是從S語言衍生而來的,他們之前有很重要的不同,但是大多數(shù)用S語言寫的代碼也可以在R中運(yùn)行。
目前R在高校非常流行,特別是隨著這幾年互聯(lián)網(wǎng)的發(fā)展,(R在一些大公司的運(yùn)用得到的實(shí)踐,例如:國外的google、linkdin、facebook等,國內(nèi)一些大型互聯(lián)網(wǎng)公司也在開始使用R),及隨著互聯(lián)網(wǎng)版權(quán)的意識(shí)增強(qiáng),也促使了R在互聯(lián)網(wǎng)的發(fā)展。當(dāng)然R在很多領(lǐng)域都有很廣泛的運(yùn)用。
R語言是開源的,同時(shí)可以運(yùn)行在各種平臺(tái)上(Linux、Windows、MacOS等)。R的許多軟件包是由R語言、 LaTeX、Java及最常用C語言和Fortran撰寫。
可以說現(xiàn)在R包含各種各樣的功能,可以說目前你能想到的功能,都可以找到一個(gè)或者多個(gè)R包來實(shí)現(xiàn)。幾千個(gè)R包,哪個(gè)才最適合你呢?“最適合你自己的R包,也許就是你自己寫的那個(gè)包”。
二、 R軟件安裝下載
CRAN地址:http://www.r-project.org/,什么是CRAN:
CRAN為Comprehensive R Archive Network(R綜合典藏網(wǎng))的簡稱。它除了收藏了R的執(zhí)行檔下載版、源代碼和說明文件,也收錄了各種用戶撰寫的軟件包。現(xiàn)時(shí),全球有超過一百個(gè)CRAN鏡像站。(來源http://baike.baidu.com/view/942569.htm)
根據(jù)你的操作系統(tǒng),下載相應(yīng)的R語言安裝文件。
下載地址:http://ftp.ctex.org/mirrors/CRAN/
R安裝
三、 R語言的特點(diǎn)
1、變量不需要申明即可引用。
2、R語言的核心是:向量。
3、R語言是一個(gè)函數(shù)語言。
4、向量中的下標(biāo)是從1開始引用的。
5、R是腳本語言、面像對象;
四、 如何學(xué)學(xué)習(xí)R語言
《R語言學(xué)習(xí)由淺入深路線圖》 這篇文章大家可以參考,這篇文章簡單介紹了一下R學(xué)習(xí)的資料,大家可以根據(jù)需要進(jìn)行參考。那么如何才能學(xué)好R,個(gè)人理解有以下幾點(diǎn):
1、不要期望你能學(xué)會(huì)R中所有的包。不要把目標(biāo)定的那么高。
2、關(guān)鍵能理解R語言的內(nèi)涵。多看看CRAN上的相關(guān)文檔,例如:季刊、R語言相關(guān)新聞,特別是每次版本更新的一些內(nèi)容。
3、運(yùn)用
如果你是做數(shù)據(jù)分析相關(guān)的工作的,一定要把學(xué)習(xí)到的R語言知識(shí)運(yùn)用到你的工作中,不管你把R語言當(dāng)用一門編程語言還是統(tǒng)計(jì)工具,用的多了,自然你就有感覺,很多東西你就記住了。
4、持續(xù)
每天花點(diǎn)時(shí)間寫幾條R代碼,實(shí)現(xiàn)一些小功能。如果你工作上就用R,那是最完美的。
5、多看
多看別人寫的代碼,R運(yùn)用的案例。你可以google一下R會(huì)有很多好的博客,文章。很多人都是R的GREEK。
6、開放
一定要開放、分享的心態(tài)。多與別人交流,不要總是需求,一定要學(xué)習(xí)給予。(我是我個(gè)人觀點(diǎn),如果要真好用到R,讓R發(fā)揮價(jià)值就是必須的。)
7、總結(jié)
學(xué)到的東西,及時(shí)做好總結(jié),可以總結(jié)成案例或者筆記,如果可以歡迎分享給大家http://bbs.pinggu.org/forum-69-1.html
五、 我對R語言的理解和看法
隨時(shí)互聯(lián)網(wǎng)的發(fā)展,特別是互聯(lián)網(wǎng)對于版權(quán)、成本的因素考慮,因?yàn)槊赓M(fèi)、開源使越來越多的公司開始用R語言來處理數(shù)據(jù)、分析數(shù)據(jù)、完成模型等,當(dāng)然這其中也伴隨著對于數(shù)據(jù)價(jià)值挖掘的,特別是在大數(shù)據(jù)的背景下,想通過對數(shù)據(jù)挖掘&分析建立自己的競爭優(yōu)勢。
R不僅 免費(fèi)還有各種各樣的的功能包資源。從某種程度上講,任何你想要的功能應(yīng)該都可以找到對應(yīng)的包,只是說是否完全滿足,對于一些算法研究人員來說,可以在原來的代碼的基礎(chǔ)進(jìn)行借鑒。這也許就是為什么R最開始主要用到高?;蛘邔W(xué)術(shù)領(lǐng)域(當(dāng)然和國外學(xué)者、專家這種自由、開放的環(huán)境或者意識(shí)有很關(guān)系,這也許就是為什么許多開源軟件都是國外出來,很少看到國內(nèi)的大公司有什么好的東西開源)。
很多行業(yè)人士都說R是未來的“王道”,就像unix的發(fā)展過程一樣。我覺得未來一定有屬于R的一片天空,而且這種天空可以說是接近無限。所以,對于有志于從事數(shù)據(jù)挖掘、數(shù)據(jù)分析這個(gè)行業(yè)的朋友來說,掌握R是也許會(huì)成為未來的必備技能(就像現(xiàn)在數(shù)據(jù)分析師大多要求會(huì):SQL)。
最后,我對R語言的理解與總結(jié)可以概括為一句話:“開源、二次加工、分享精神”。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10