只涉及一張數(shù)據(jù)表的數(shù)據(jù)分析是非常罕見的。通常來說,你會(huì)有很多個(gè)數(shù)據(jù)表,而且必須
綜合使用它們才能回答你所感興趣的問題。存在于多個(gè)表中的這種數(shù)據(jù)統(tǒng)稱為關(guān)系數(shù)據(jù),
因?yàn)橹匾氖菙?shù)據(jù)間的關(guān)系,而不是單個(gè)數(shù)據(jù)集。
關(guān)系總是定義于兩張表之間。其他所有關(guān)系都是建立在這種簡(jiǎn)單思想之上:三張或更多表
之間的關(guān)系總是可以用每?jī)蓚€(gè)表之間關(guān)系表示出來。有時(shí)關(guān)系涉及的兩個(gè)表甚至就是同一
張!例如,如果你有一張人員表,那么其中某個(gè)人與其父母的關(guān)系就是這種情況。
要想處理關(guān)系數(shù)據(jù),你需要能夠在兩張表之間進(jìn)行的操作。我們?cè)O(shè)計(jì)了三類操作來處理關(guān)
系數(shù)據(jù)。
? 合并連接:向數(shù)據(jù)框中加入新變量,新變量的值是另一個(gè)數(shù)據(jù)框中的匹配觀測(cè)。
? 篩選連接:根據(jù)是否匹配另一個(gè)數(shù)據(jù)框中的觀測(cè),篩選數(shù)據(jù)框中的觀測(cè)。
? 集合操作:將觀測(cè)作為集合元素來處理。
關(guān)系數(shù)據(jù)最常見于關(guān)系數(shù)據(jù)庫管理系統(tǒng)(relational database management system, RDBMS),
該系統(tǒng)幾乎囊括了所有的現(xiàn)代數(shù)據(jù)庫。如果之前使用過數(shù)據(jù)庫,那你肯定使用過 SQL。如
果是這樣的話,你會(huì)發(fā)現(xiàn)本章中的很多概念都似曾相識(shí),盡管其在 dplyr 中的表達(dá)形式略
微不同。一般來說, dplyr 要比 SQL 更容易使用,因?yàn)榍罢呤菍iT用于進(jìn)行數(shù)據(jù)分析的。
在進(jìn)行常用的數(shù)據(jù)分析操作時(shí), dplyr 非常得心應(yīng)手,反之,它并不擅長(zhǎng)數(shù)據(jù)分析中不常用
的那些操作。








暫無數(shù)據(jù)