
用R語言進(jìn)行數(shù)據(jù)分析:一個(gè)簡(jiǎn)單的會(huì)話
下面的會(huì)話讓你在操作中對(duì) R 環(huán)境的一些特性有個(gè)簡(jiǎn)單的了解。你對(duì)系統(tǒng)的許多特性開始時(shí)可能 有點(diǎn)不熟悉和困惑,但這些迷惑會(huì)很快 消失的。
登錄,啟動(dòng)你的桌面系統(tǒng)。$ R以適當(dāng)?shù)姆绞絾?dòng) R。R 程序開始,并且有一段引導(dǎo)語。
(在 R 里面,左邊的提示符將不會(huì)被顯示防止 混淆。)
help.start()啟動(dòng) HTML 形式的在線幫助(使用你的計(jì)算機(jī)里面 可用的瀏覽器)。你可以用鼠標(biāo) 點(diǎn)擊上面的鏈接。最小化幫助窗口,進(jìn)入下一部分。x <- rnorm(50)y <- rnorm(x)產(chǎn)生兩個(gè)偽正態(tài)隨機(jī)數(shù)向量 x 和 y。plot(x, y)畫二維散點(diǎn)圖。一個(gè)圖形窗口會(huì)自動(dòng)出現(xiàn)。ls()查看當(dāng)前工作空間里面的 R 對(duì)象。rm(x, y)去掉不再需要的對(duì)象。(清空)。x <- 1:20等價(jià)于 x = (1, 2, …, 20)。w <- 1 + sqrt(x)/2標(biāo)準(zhǔn)差的`權(quán)重’向量。dummy <- data.frame(x=x, y= x + rnorm(x)*w)dummy創(chuàng)建一個(gè)由x 和 y構(gòu)成的雙列數(shù)據(jù)框, 查看它們。fm <- lm(y ~ x, data=dummy)summary(fm)擬合 y 對(duì) x 的簡(jiǎn)單線性回歸,查看 分析結(jié)果。fm1 <- lm(y ~ x, data=dummy, weight=1/w^2)summary(fm1)現(xiàn)在我們已經(jīng)知道標(biāo)準(zhǔn)差,做一個(gè)加權(quán)回歸。attach(dummy)讓數(shù)據(jù)框中的列項(xiàng)可以像一般的變量那樣使用。lrf <- lowess(x, y)做一個(gè)非參局部回歸。plot(x, y)標(biāo)準(zhǔn)散點(diǎn)圖。lines(x, lrf$y)增加局部回歸曲線。abline(0, 1, lty=3)真正的回歸曲線:(截距 0,斜率 1)。abline(coef(fm))無權(quán)重回歸曲線。abline(coef(fm1), col = "red")加權(quán)回歸曲線。detach()將數(shù)據(jù)框從搜索路徑中去除。plot(fitted(fm), resid(fm), xlab="Fitted values", ylab="Residuals", main="Residuals vs Fitted")一個(gè)檢驗(yàn)異方差性(heteroscedasticity)的標(biāo)準(zhǔn)回歸診斷圖。 你可以看見嗎?qqnorm(resid(fm), main="Residuals Rankit Plot")用正態(tài)分值圖檢驗(yàn)數(shù)據(jù)的偏度(skewness),峰度(kurtosis)和異常值(outlier)。 (這里沒有多大的用途,只是演示一下而已。)rm(fm, fm1, lrf, x, dummy)再次清空。
第二部分將研究 Michaelson 和 Morley 測(cè)量光速的經(jīng)典實(shí)驗(yàn)。這個(gè)數(shù)據(jù)集可以 從對(duì)象 morley 中得到,但是我們從中讀出數(shù)據(jù)以演示 函數(shù) read.table 的作用。
filepath <- system.file("data", "morley.tab" , package="datasets")filepath得到文件路徑。file.show(filepath)可選。查看文件內(nèi)容。mm <- read.table(filepath)mm以數(shù)據(jù)框的形式讀取 Michaelson 和 Morley 的數(shù)據(jù),并且查看。 數(shù)據(jù)由五次實(shí)驗(yàn)(Expt 列),每次運(yùn)行 20 次 (Run列)的觀測(cè)得到。數(shù)據(jù)框中的 sl 是光速的記錄。 這些數(shù)據(jù)以適當(dāng)形式編碼。mm$Expt <- factor(mm$Expt)mm$Run <- factor(mm$Run)將 Expt 和 Run 改為因子。attach(mm)讓數(shù)據(jù)在位置 3 (默認(rèn)) 可見(即可以直接訪問)。plot(Expt, Speed, main="Speed of Light Data", xlab="Experiment No.")用簡(jiǎn)單的盒狀圖比較五次實(shí)驗(yàn)。fm <- aov(Speed ~ Run + Expt, data=mm)summary(fm)分析隨機(jī)區(qū)組,`runs’ 和 `experiments’ 作為因子。fm0 <- update(fm, . ~ . - Run)anova(fm0, fm)擬合忽略 `runs’ 的子模型,并且對(duì)模型更改前后 進(jìn)行方差分析。detach()rm(fm, fm0)在進(jìn)行下面工作前,清空數(shù)據(jù)。
我們現(xiàn)在查看更有趣的圖形顯示特性:等高線和影像顯示。
x <- seq(-pi, pi, len=50)y <- xx 是一個(gè)在 區(qū)間 [-pi\, pi] 內(nèi)等間距的50個(gè)元素的向量, y 類似。f <- outer(x, y, function(x, y) cos(y)/(1 + x^2))f 是一個(gè)方陣,行列分別被 x 和 y 索引,對(duì)應(yīng)的值是函數(shù) cos(y)/(1 + x^2) 的結(jié)果。oldpar <- par(no.readonly = TRUE)par(pty="s")保存圖形參數(shù),設(shè)定圖形區(qū)域?yàn)椤罢叫巍?。contour(x, y, f)contour(x, y, f, nlevels=15, add=TRUE)繪制 f 的等高線;增加一些曲線顯示細(xì)節(jié)。fa <- (f-t(f))/2fa 是 f 的“非對(duì)稱部分”(t() 是轉(zhuǎn)置 函數(shù))。contour(x, y, fa, nlevels=15)畫等高線,…par(oldpar)… 恢復(fù)原始的圖形參數(shù)。image(x, y, f)image(x, y, fa)繪制一些高密度的影像顯示,(如果你想要,你可以保存 它的硬拷貝), …objects(); rm(x, y, f, fa)… 在繼續(xù)下一步前,清空數(shù)據(jù)。
R 可以做復(fù)數(shù)運(yùn)算。
th <- seq(-pi, pi, len=100)z <- exp(1i*th)1i 表示復(fù)數(shù) i。par(pty="s")plot(z, type="l")圖形參數(shù)是復(fù)數(shù)時(shí),表示虛部對(duì)實(shí)部畫圖。這可能是 一個(gè)圓。w <- rnorm(100) + rnorm(100)*1i假定我們想在這個(gè)圓里面隨機(jī)抽樣。一種方法 將讓復(fù)數(shù)的虛部和實(shí)部值是標(biāo)準(zhǔn)正態(tài)隨機(jī) 數(shù) …w <- ifelse(Mod(w) > 1, 1/w, w)… 將圓外的點(diǎn)映射成它們的倒數(shù)。plot(w, xlim=c(-1,1), ylim=c(-1,1), pch="+",xlab="x", ylab="y")lines(z)所有的點(diǎn)都在圓中,但分布不是 均勻的。w <- sqrt(runif(100))*exp(2*pi*runif(100)*1i)plot(w, xlim=c(-1,1), ylim=c(-1,1), pch="+", xlab="x", ylab="y")lines(z)第二種方法采用均勻分布?,F(xiàn)在圓盤中的點(diǎn) 看上去均勻多了。rm(th, w, z)再次清空。q()離開 R 程序。你可能被提示是否保存 R 工作空間, 不過對(duì)于一個(gè)調(diào)試性的會(huì)話,你可能不想 保存它。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03