
作者:小伍哥
來源:AI入門學習
在數(shù)據(jù)處理過程中,經(jīng)常會遇到多個表進行拼接合并的需求,在Pandas中有多個拼接合并的方法,每種方法都有自己擅長的拼接方式,本文對pd.concat()進行詳細講解,希望對你有幫助。pd.concat()函數(shù)可以沿著指定的軸將多個dataframe或者series拼接到一起,這一點和另一個常用的pd.merge()函數(shù)不同,pd.merge()解決數(shù)據(jù)庫樣式的左右拼接,不能解決上下拼接。
pd.concat( objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True)
#構建需要的數(shù)據(jù)表
import pandas as pd
df1 = pd.DataFrame({'A':['A{}'.format(i) for i in range(0,4)], 'B':['B{}'.format(i) for i in range(0,4)], 'C':['C{}'.format(i) for i in range(0,4)]
})
df2 = pd.DataFrame({'A':['A{}'.format(i) for i in range(4,8)], 'B':['B{}'.format(i) for i in range(4,8)], 'C':['C{}'.format(i) for i in range(4,8)]
})
df3 = pd.DataFrame({'A':['A{}'.format(i) for i in range(8,12)], 'B':['B{}'.format(i) for i in range(8,12)], 'C':['C{}'.format(i) for i in range(8,12)]
})
現(xiàn)將表構成list,然后在作為concat的輸入
frames = [df1, df2, df3] result = pd.concat(frames) A B C 0 A0 B0 C0 1 A1 B1 C1 2 A2 B2 C2 3 A3 B3 C3 0 A4 B4 C4 1 A5 B5 C5 2 A6 B6 C6 3 A7 B7 C7 0 A8 B8 C8 1 A9 B9 C9 2 A10 B10 C10 3 A11 B11 C11
傳入也可以是字典
frames = {'df1':df1, 'df2':df2,'df3':df3} result = pd.concat(frames) A B C df1 0 A0 B0 C0 1 A1 B1 C1 2 A2 B2 C2 3 A3 B3 C3 df2 0 A4 B4 C4 1 A5 B5 C5 2 A6 B6 C6 3 A7 B7 C7 df3 0 A8 B8 C8 1 A9 B9 C9 2 A10 B10 C10 3 A11 B11 C11 三、橫向拼接
當axis = 1的時候,concat就是行對齊,然后將不同列名稱的兩張表合并
#再構建一個表
df4 = pd.DataFrame({'C':['C{}'.format(i) for i in range(3,9)], 'E':['E{}'.format(i) for i in range(3,9)], 'F':['F{}'.format(i) for i in range(3,9)]
})
pd.concat([df1,df4], axis=1)
A B C C E F 0 A0 B0 C0 C3 E3 F3 1 A1 B1 C1 C4 E4 F4 2 A2 B2 C2 C5 E5 F5 3 A3 B3 C3 C6 E6 F6 4 NaN NaN NaN C7 E7 F7 5 NaN NaN NaN C8 E8 F8
加上join參數(shù)的屬性,如果為'inner'得到的是兩表的交集,如果是outer,得到的是兩表的并集。
# join='inner' 取交集 pd.concat([df1, df4], axis=1, join='inner') A B C C E F 0 A0 B0 C0 C3 E3 F3 1 A1 B1 C1 C4 E4 F4 2 A2 B2 C2 C5 E5 F5 3 A3 B3 C3 C6 E6 F6 # join='outer' 和 默認值相同 pd.concat([df1, df4], axis=1, join='outer') A B C C E F 0 A0 B0 C0 C3 E3 F3 1 A1 B1 C1 C4 E4 F4 2 A2 B2 C2 C5 E5 F5 3 A3 B3 C3 C6 E6 F6 4 NaN NaN NaN C7 E7 F7 5 NaN NaN NaN C8 E8 F8 四、對比append方法
append是series和dataframe的方法,使用它就是默認沿著列進行憑借(axis = 0,列對齊)
df1.append(df2) A B C 0 A0 B0 C0 1 A1 B1 C1 2 A2 B2 C2 3 A3 B3 C3 0 A4 B4 C4 1 A5 B5 C5 2 A6 B6 C6 3 A7 B7 C7 五、忽略index
如果兩個表的index都沒有實際含義,使用ignore_index參數(shù),置true,合并的兩個表就睡根據(jù)列字段對齊,然后合并。最后再重新整理一個新的index。
pd.concat([df1, df4], axis=1, ignore_index=True) 0 1 2 3 4 5 0 A0 B0 C0 C3 E3 F3 1 A1 B1 C1 C4 E4 F4 2 A2 B2 C2 C5 E5 F5 3 A3 B3 C3 C6 E6 F6 4 NaN NaN NaN C7 E7 F7 5 NaN NaN NaN C8 E8 F8 六、增加區(qū)分組鍵
前面提到的keys參數(shù)可以用來給合并后的表增加key來區(qū)分不同的表數(shù)據(jù)來源
pd.concat([df1,df2,df3], keys=['x', 'y', 'z']) A B C x 0 A0 B0 C0 1 A1 B1 C1 2 A2 B2 C2 3 A3 B3 C3 y 0 A4 B4 C4 1 A5 B5 C5 2 A6 B6 C6 3 A7 B7 C7 z 0 A8 B8 C8 1 A9 B9 C9 2 A10 B10 C10 3 A11 B11 C11
frames = {'df1':df1, 'df2':df2,'df3':df3} result = pd.concat(frames) A B C df1 0 A0 B0 C0 1 A1 B1 C1 2 A2 B2 C2 3 A3 B3 C3 df2 0 A4 B4 C4 1 A5 B5 C5 2 A6 B6 C6 3 A7 B7 C7 df3 0 A8 B8 C8 1 A9 B9 C9 2 A10 B10 C10 3 A11 B11 C11
七、加入新的行
append方法可以將 series 和 字典就夠的數(shù)據(jù)作為dataframe的新一行插入。
s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])
df1.append(s2, ignore_index=True)
A B C D 0 A0 B0 C0 NaN 1 A1 B1 C1 NaN 2 A2 B2 C2 NaN 3 A3 B3 C3 NaN 4 X0 X1 X2 X3
如果遇到兩張表的列字段本來就不一樣,但又想將兩個表合并,其中無效的值用nan來表示。那么可以使用ignore_index來實現(xiàn)。
dicts = [{'A': 1, 'B': 2, 'C': 3, 'X': 4}, {'A': 5, 'B': 6, 'C': 7, 'Y': 8}] df1.append(dicts, ignore_index=True) A B C X Y 0 A0 B0 C0 NaN NaN 1 A1 B1 C1 NaN NaN 2 A2 B2 C2 NaN NaN 3 A3 B3 C3 NaN NaN 4 1 2 3 4.0 NaN 5 5 6 7 NaN 8.0
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03