
R語言數(shù)據(jù)對(duì)象與運(yùn)算
R語言數(shù)據(jù)對(duì)象與運(yùn)算 筆記整理
2.1 數(shù)據(jù)對(duì)象及類型
R語言創(chuàng)建和控制的實(shí)體被稱為對(duì)象(object)
ls()命令來查看當(dāng)前系統(tǒng)里的數(shù)據(jù)對(duì)象
R對(duì)象的名稱必須以一個(gè)英文字母打頭,并由一串大小寫字母、數(shù)字或鐘點(diǎn)組成
注意:R區(qū)分大小寫
不要用R的內(nèi)置函數(shù)名稱作為數(shù)據(jù)對(duì)象的名稱,如c、length等
2.2 數(shù)據(jù)對(duì)象類型
R語言的對(duì)象包括
數(shù)值型(numeric):實(shí)數(shù), 可寫成整數(shù)(integers)、小數(shù)(decimal fractions)、科學(xué)記數(shù)(scientific notation)
邏輯型(logical):T(true)或F(FALSE)
字符型(character):夾在" "或' '之間
復(fù)數(shù)型(complex):形如a+bi
原味型(raw):以二進(jìn)制形式保存數(shù)據(jù)
缺省型(missing value):有些統(tǒng)計(jì)資料是不完整的,當(dāng)一個(gè)元素或值在統(tǒng)計(jì)的時(shí)候是“不可得到(not available)”或“缺失值(missing value)”的時(shí)候,相關(guān)位置可能會(huì)被保留并賦予一個(gè)特定的NA(not available)值,任何NA的運(yùn)算結(jié)果都是NA。
辨別和轉(zhuǎn)換數(shù)據(jù)對(duì)象類型的函數(shù):
辨別 轉(zhuǎn)換
character is.character() as,character()
complex
double
integer
logical
NA
numeric
2.3 數(shù)據(jù)對(duì)象構(gòu)造
R語言里的數(shù)據(jù)對(duì)象主要有六種構(gòu)造:向量(vector)、矩陣(matrix)、數(shù)組(array)、列表(list)、數(shù)據(jù)框(data frames)、因子(factor)
2.3.1 向量(vector)是由有相同基本類型元素組成的序列,相當(dāng)于一維數(shù)組
5個(gè)數(shù)值組成的向量x,這是一個(gè)用函數(shù)c()完成的賦值語句,這里c()可以有任意多個(gè)參數(shù),而它輸出的值則是一個(gè)把這些參數(shù)首尾相連形成的一個(gè)向量
R的賦值符號(hào)除了“<-”外,還有"->""="
例如:
> c(1,3,5,7,9) -> y
> y
[1] 2 5 8 3
> z = c(1,3,5,7,9)
> z
[1] 1 3 5 7 9
assign()函數(shù)對(duì)向量進(jìn)行賦值
length():可返回向量的長(zhǎng)度
mode()可返回向量的數(shù)據(jù)類型
正則序列 用 “:”符號(hào),可產(chǎn)生有規(guī)律的正則序列(: 的運(yùn)算級(jí)別最高)
函數(shù)seq()產(chǎn)生有規(guī)律的各種序列
seq(from,to ,by) from 給序列的起始值,to表示序列的終止值,by表示步長(zhǎng)(by 省略時(shí),表示步長(zhǎng)值為1)
> seq(1,10,2)
[1] 1 3 5 7 9
> seq(1,10)
[1] 1 2 3 4 5 6 7 8 9 10
有時(shí)關(guān)注的是數(shù)列的長(zhǎng)度,利用句法:seq(下界,by=,length=)
> seq(1,by=2,length=10)
[1] 1 3 5 7 9 11 13 15 17 19
rep(x,times,……)x表示要重復(fù)的對(duì)象,times表示重復(fù)的次數(shù)
> rep(c(1,3),4)
[1] 1 3 1 3 1 3 1 3
> rep(c(1,3),each=4)
[1] 1 1 1 1 3 3 3 3
對(duì)每個(gè)元素進(jìn)行重復(fù);
R中的內(nèi)置函數(shù):
mean()來示向量的均值
median()求是位數(shù)
var()求方差
sd()求標(biāo)準(zhǔn)差
sort()對(duì)向量排序
rev()將向量按原方向的反方向排列
rank()給求出向量的秩
prod()求向量連乘積
append()為向量添加元素
對(duì)向量運(yùn)算常見函數(shù)表
函數(shù) 用途
sum() 求和
max() 求最大值
min() 求最小值
range() 求極差(全矩)
mean() 求均值
median 求中位數(shù)
var() 求方差
sd() 求標(biāo)準(zhǔn)差
sort() 排序
rev() 反排序
rank() 求秩
append() 添加
replace() 替換
match() 匹配
pmatch() 部分匹配
all() 判斷所有
any() 判斷部分
prod() 積
2.3.2 矩陣
矩陣(matrix)是將數(shù)據(jù)用行和列排列的長(zhǎng)方形表格,它是二維的數(shù)組,其單元必須是相同的數(shù)據(jù)類型,通常用列來表示不同的變量,用行表示各個(gè)對(duì)象。
其句法是:
matrix(data=NA,ncol=1,byrow-=FALSE,dimnames=NULL)
data是必須的,其它幾個(gè)選擇參數(shù)。
nrow表示矩陣的行數(shù)
ncol表示矩陣的列數(shù)
byrow默認(rèn)為FALSE,表示矩陣按列排列,如設(shè)置為T,表示按行排列;
dimnames可更改矩陣行列名字
diag()函數(shù)生成對(duì)角矩陣
diag()這個(gè)函數(shù)比較特別,當(dāng)數(shù)據(jù)是向量時(shí)則生成對(duì)角矩陣,但當(dāng)數(shù)據(jù)是矩陣時(shí),則返回對(duì)角元素
也可用函數(shù)diag()生成單位矩陣
當(dāng)我們生成了某個(gè)矩陣后,若要訪問矩陣的某個(gè)元素或某行(列),可以利用形如A[i,j]的形式得到相應(yīng)的索引矩陣
矩陣可進(jìn)行相應(yīng)的加減乘除運(yùn)算,但運(yùn)算過程中要注意行數(shù)和列數(shù)的限制條件
R里A*B并不是表示矩陣相乘,只表示矩陣對(duì)應(yīng)的元素相乘
矩陣相乘應(yīng)用A%*%B
dim()返回矩陣的行數(shù)和列數(shù)
nrow()返回矩陣的行數(shù)
ncol()返回矩陣的列數(shù)
solve()返回矩陣的逆矩陣
對(duì)矩陣運(yùn)算的常見函數(shù)
函數(shù) 用途
as.matrix() 把非矩陣的轉(zhuǎn)換成矩陣
is.matrix() 辨別是否矩陣
diag() 返回對(duì)角元素或生成對(duì)角矩陣
eigen() 求特征值和特征向量
solve() 求逆矩陣
chol() Choleski分解
svd() 奇異值分解
qr() QR分解
det() 求行列式
dim() 返回行列數(shù)
t() 矩陣轉(zhuǎn)置
apply() 對(duì)矩陣應(yīng)用函數(shù)
R語言還提供了專門針對(duì)矩陣的行或列計(jì)算的函數(shù)
如 colSUms()對(duì)矩陣各列求和 colMeans()求矩陣各列的均值
類似的有 rowSums()rowMeans()
更一般的方法:
apply()函數(shù)來對(duì)各行各列進(jìn)行運(yùn)算
句法是:apply(X,MARGIN,FUN,……)
X表示要處理的數(shù)據(jù)
MARGIN表示函數(shù)作用的范圍
取1表示對(duì)行運(yùn)用函數(shù)
取2表示對(duì)列運(yùn)用函數(shù)
FUN表示要運(yùn)用的函數(shù)
rbind()、cbind()將兩個(gè)或兩個(gè)以上的矩陣合并起來
rbind()表示按行合并,cbind()則表示按列合并
2.3.3 數(shù)組
數(shù)組(array)可以看作是帶有多個(gè)下標(biāo)的類型相同的元素的集合。
數(shù)組的生成函數(shù)是array(),其句法是
array(data=NA,dim=length(data),dimnames-NULL)
data表示數(shù)據(jù),可以為空
dim 表示維數(shù)
dimnames可以更改數(shù)組難度的名稱
2.3.4 列表
向量、矩陣和的單元必須是同一類型的數(shù)據(jù),若一個(gè)數(shù)據(jù)對(duì)象需要含有不同的數(shù)據(jù)類型,可采用列表(list)這種數(shù)據(jù)對(duì)象的形式。
列表是一個(gè)對(duì)象的有序集合構(gòu)成的對(duì)象,列表中包含的對(duì)象又稱為它的分量(components),分量可以是不同的模式或(和)類型
語法式為:list (變量1=分量1,變量2=分量2,……)
若要訪問列表的某一成分,可以用LST[[1]],LST[[2]]的形式訪問
因分量可以被命名,故可以在列表名稱后加$符號(hào),再寫上成分名稱來訪問列表分量
函數(shù)length()、mode()、names()可以分別返回列表的長(zhǎng)度(分量的數(shù)目)、數(shù)據(jù)類型、列表里成分的名字
2.3.5 數(shù)據(jù)框
數(shù)據(jù)框(data frame)是一種矩陣形式的數(shù)據(jù),但數(shù)據(jù)框中各列可以是不同類型的數(shù)據(jù)。數(shù)據(jù)框每列是一個(gè)變量,每行是一個(gè)觀測(cè) 。
對(duì)可能列入數(shù)據(jù)框中的列表有如下的一些限制:
1.分量必須是向量(數(shù)值,字符,邏輯),因子,數(shù)值矩陣,列表或者其他數(shù)據(jù)框。
2.矩陣,列表和數(shù)據(jù)框?yàn)樾碌臄?shù)據(jù)框提供了盡可能多的變量,因?yàn)樗鼈兏髯該碛辛?、元素或者變量?br />
3.?dāng)?shù)值向量、邏輯值、因子保持原有格式,而字符向量會(huì)被強(qiáng)制轉(zhuǎn)換成因子并且它的水平就是向量中出現(xiàn)的獨(dú)立值。
4.在數(shù)據(jù)框中以變量形式出現(xiàn)的向量結(jié)構(gòu)必須長(zhǎng)度一致,矩陣結(jié)構(gòu)必須有一樣的行數(shù)。
R中用函數(shù)data.frame()生成數(shù)據(jù)框,其句法是:data.frame(data1,data2,……)
數(shù)據(jù)框的列名默認(rèn)為變量名,也可對(duì)列名進(jìn)行重新命名
也可以對(duì)數(shù)據(jù)框的行名進(jìn)行修改
2.3.6 因子和有序因子
分類型數(shù)據(jù)經(jīng)常要把數(shù)據(jù)分成不同的水平或因子(factor)
生成因子的命令是factor(),其句法是:factor(data,levels,labels,……)
其中data表示數(shù)據(jù)
levels是因子水平向量
labels是因子的標(biāo)簽向量
levels,labels是備選項(xiàng),可以不選
若上面的每個(gè)因子并不表示因子的大小,要表達(dá)因子之間有大小順序(考慮因子之間的順序),則可以用 ordered()函數(shù)產(chǎn)生
2.4 數(shù)據(jù)的錄入及編輯
c函數(shù):c函數(shù)是把各個(gè)值聯(lián)成一個(gè)向量或列表,可以形成數(shù)值型向量、字符型向量或其它類型向量
scan函數(shù):功能類似于c函數(shù),實(shí)際上是一種鍵盤輸入數(shù)據(jù)函數(shù)。當(dāng)輸入scan(),然后按回車鍵,這時(shí)將等待輸入數(shù)據(jù),數(shù)據(jù)之間只要空格分開即可(c函數(shù)要用逗號(hào)分開)。輸入完數(shù)據(jù),再按回車鍵,這時(shí)數(shù)據(jù)錄入完畢。
scan函數(shù)還可以讀入外部文本文件,若現(xiàn)有一個(gè)文本文件,data.txt,讀入這個(gè)文件的命令是:> x=scan(file="dat.txt")
若原文件的數(shù)據(jù)之間有逗號(hào)等分隔符,用scan讀入應(yīng)該去掉這些分隔符,其命令是:> x=scan(file="dat.txt",sep=",")
編輯數(shù)據(jù)
data.entry命令
xx原先未被定義,現(xiàn)在賦予其一個(gè)空值,這時(shí)會(huì)出現(xiàn)一個(gè)電子表格界面,等待輸入數(shù)據(jù):> data.entry(xx=c(NA))
當(dāng)電子表格關(guān)閉后,數(shù)據(jù)會(huì)自動(dòng)保存
edit命令用來編輯函數(shù),也可用來編輯數(shù)據(jù),但不會(huì)自動(dòng)保存
fix函數(shù)與edit類似,但它可以自動(dòng)保存
從外部文件讀入數(shù)據(jù)
從文本文件讀?。?
> s1=read.table("student.txt")
> s1
V1 V2 V3
1 class sex score
2 1 女 80
3 1 男 85
4 2 男 92
5 2 女 76
6 3 女 61
7 3 女 95
8 3 男 83
讀入表格數(shù)據(jù)的命令是:read.table
忽略掉標(biāo)簽而直接使用默認(rèn)的行標(biāo)簽
> s2=read.table("student.txt",header=T)
> s2
class sex score
1 1 女 80
2 1 男 85
3 2 男 92
4 2 女 76
5 3 女 61
6 3 女 95
7 3 男 83
從網(wǎng)絡(luò)讀入數(shù)據(jù)
url可以從網(wǎng)頁上讀入正確格式的數(shù)據(jù),要借助read.table函數(shù)
> address=http://www.the-data-mine.com/bin/view/Misc/WebHome
/sample.txt
> read.table(file=url(address))
讀入其他格式的數(shù)據(jù)庫
要讀入其他格式的數(shù)據(jù)庫,必須先安裝"foreign"模塊,它不屬于R的8個(gè)內(nèi)置模塊,需在使用前安裝。 library(foreign)
SAS:R只能詩篇SAS Transport format(XPORT)文件,需要把普通的SAS數(shù)據(jù)文件(.ssd和.sas7bdat)轉(zhuǎn)換成Transport format(XPORT)文件,再用命令:read.xport()
SPSS數(shù)據(jù)庫:read.spss()可讀入SPSS數(shù)據(jù)文件
Epi info數(shù)據(jù)庫:
要給數(shù)據(jù)集一個(gè)名字,則是;read.epiinfo("文件名.rec")->名稱
Stata數(shù)據(jù)庫:
R可讀入Stata5,6,7的數(shù)據(jù)庫
讀入數(shù)據(jù)文件后,使用數(shù)據(jù)集名$變量名,即可使用各個(gè)變量
> read.dta(“文件名.dta”)
讀入數(shù)據(jù)文件后,使用數(shù)據(jù)集名$變量名,即可使用各個(gè)變量。
>mean(data$age)
便是計(jì)算數(shù)據(jù)集 data中的變量age的均數(shù)。
2.5 函數(shù)、循環(huán)與條件表達(dá)式
2.5.1 編寫函數(shù)
句法是:
函數(shù)名 = function (參數(shù)1,參數(shù)2…)
{
函數(shù)體
函數(shù)返回值
}
對(duì)于這類只有一個(gè)算術(shù)式的簡(jiǎn)單函數(shù),也要不要{}
>mean(data$age)
便是計(jì)算數(shù)據(jù)集 data中的變量age的均數(shù)。
若不使用圓括號(hào),直接輸入函數(shù)名,按回車鍵將顯示函數(shù)的定義式:
單參數(shù):使函數(shù)個(gè)性化,可使用單參數(shù),函數(shù)將會(huì)根據(jù)參數(shù)的不同,返回值不同
> welcome.sb = function(names) print(paste("welcome",names,"to
use R"))
> welcome.sb("Mr fang")
[1] "welcome Mr fang to use R"
> welcome.sb("Mr Wang")
[1] "welcome Mr Wang to use R"
默認(rèn)參數(shù):即不輸入任何參數(shù)
函數(shù)的默認(rèn)參數(shù)
> welcome.sb=function(names="Mr fang")print(paste("welcome",
names,"to use R"))
> welcome.sb()
[1] "welcome Mr fang to use R"
當(dāng)函數(shù)體的表達(dá)式超過一個(gè)時(shí),要用{}封起來
2.5.2 for循環(huán)
for循環(huán)的句法是:
for (變量 in取值向量) {
表達(dá)式…
}
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03