
如何在R語言中讀取數(shù)據(jù)
讀取數(shù)據(jù)有以下幾種方式:
1.最常用的是采用讀取表格數(shù)據(jù)的函數(shù) read.table()以及read.csv().。這些函數(shù)讀取一種以行列的格式存儲數(shù)據(jù)的文本文件,然后在R中返回一個數(shù)據(jù)框。
2.readLines()用于逐行讀取文本文件,實際上可以是任何格式的文件,在R中返回一個字符向量。
3.source()是讀取R的重要函數(shù),如果你有R代碼例如函數(shù)或者其他東西寫成的文件,都可以用source()將其中的代碼讀入R中。
4.dget()也可以用來讀取R代碼文件, 但它讀取的是逆句法分析過后以文本文件儲存的 R 對象 。
5.load()和unserialize()用于把二進制對象讀入R
寫入數(shù)據(jù)有以下幾種方式,它們與讀取數(shù)據(jù)一一對應:
1.read.table()是最常用的讀入數(shù)據(jù)的函數(shù),我們有必要了解它的參數(shù)是什么以及它們的意義:
第一個參數(shù)file,很明顯是文件或者鏈接的名稱,通常你提供的文件名都應當是字符串 ,它是你電腦上一個特定文件的路徑。
第二個參數(shù)header是一個邏輯標志,表明第一行是否是表頭 比如 第一行寫了所有的變量名 那么這并不是實際數(shù)據(jù)的一部分 只是提供了標記的行 你要告訴 read.table 函數(shù) 第一行是否包含變量名 還是直接就是數(shù)據(jù)
第三個 參數(shù)是sep,表示分隔符 ,它是一個字符串 用于標示每一列是如何分隔的 假如你有一個文件用逗號分隔 那么分隔符就是逗號 有的時候會碰到分隔符是冒號、制表符或者空格的文件 這時候你就要告訴 read.table 函數(shù)分隔符是什么了
第四個參數(shù)是colClasses ,應當是一個字符向量 其長度應當與數(shù)據(jù)集的列數(shù)相等 這個字符向量表示 數(shù)據(jù)集中每一列數(shù)據(jù)的類 這么說吧 第一列數(shù)據(jù)是數(shù)值型的 第二列數(shù)據(jù)是邏輯型 第三列數(shù)據(jù)是因子 諸如此類 colClass 不是一個必須的向量 但它會告訴 read.table() 每一列數(shù)據(jù)的類型 。
第五個參數(shù)是nRows,它 是數(shù)據(jù)集中數(shù)據(jù)的行數(shù) 雖然不是必須的但有時也會用到。
第六個參數(shù)是comment.char,它 是字符串 表明文件中用于注釋的字符 默認通常是井號 所有在注釋符號后面的字符都會被忽略。
第七個參數(shù)是skip ,它指定了從文件開頭往下忽略多少行 有的時候文件開頭可能有一些頭信息或者非數(shù)據(jù)區(qū)域 你想要跳過那些部分 所以你可以告訴 read.table 函數(shù)去跳過比如開頭的 10 行或者是 100 行 然后從那里再開始讀取數(shù)據(jù)
最后一個參數(shù)是stringAsFactors,默認為 TRUE 它的作用是 通過它可以選擇是否把字符變量編碼成因子 所以這是默認操作 每次 read.table() 遇到一列看起來像字符變量的數(shù)據(jù) 它就會假設你希望讀入的 是一個因子變量 如果你不想把這一列設成因子變量 那么你可以把 stringAsFactors 設置為 FALSE
當你在使用的時候,你可以直接傳入文件名,它會自動調配好剩下的部分。
read.table() 是等價的 除了 read.csv() 的默認分隔符是逗號 而 read.table() 的默認分隔符是空格外。 另外 read.csv() 會默認把 header 參數(shù)設置為 TRUE
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10