2019-02-23
閱讀量:
871
pandas導(dǎo)入數(shù)據(jù)編碼問題解決
問:mac電腦在使用pandas導(dǎo)入數(shù)據(jù)的時候,有時候會出現(xiàn)中文亂碼問題,如圖,怎么辦?

答:一般在導(dǎo)入數(shù)據(jù)時,把格式調(diào)成python是可以成功導(dǎo)入的。使用參數(shù):engine=‘python’。但是由于編碼不同的原因,mac電腦使用不行。
加入?yún)?shù) encoding=‘utf-8’還是不能成功導(dǎo)入,說明里面存在非‘utf-8‘模式的編碼。這時可以選擇切換編碼模式為 encoding=‘gbk’。
GBK即漢字內(nèi)碼擴展規(guī)范,K為擴展的漢語拼音中"擴"字的聲母。英文全稱Chinese Internal Code Specification。GBK編碼標(biāo)準(zhǔn)兼容GB2312,共收錄漢字21003個、
符號883個,并提供1894個造字碼位,簡、繁體字融于一庫。GBK采用雙字節(jié)表示,總體編碼范圍為8140-FEFE,首字節(jié)在81-FE 之間,尾字節(jié)在40-FE 之間,
剔除 xx7F一條線。總計23940 個碼位,共收入21886個漢字和圖形符號,其中漢字(包括部首和構(gòu)件)21003 個,圖形符號883 個。P-Windows3.2和
蘋果OS以GB2312為基本漢字編碼, Windows 95/98則以GBK為基本漢字編碼。






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論
0條評論
0條評論