99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線(xiàn)電話(huà)：13121318867

登錄

python中文亂碼問(wèn)題深入分析

2017-07-01

python中文亂碼問(wèn)題深入分析

在本文中，以'哈'來(lái)解釋作示例解釋所有的問(wèn)題，“哈”的各種編碼如下：
1. UNICODE (UTF8-16)，C854；
2． UTF-8，E59388；
3． GBK，B9FE。
一、Python中的str和unicode
一直以來(lái)，python中的中文編碼就是一個(gè)極為頭大的問(wèn)題，經(jīng)常拋出編碼轉(zhuǎn)換的異常，python中的str和unicode到底是一個(gè)什么東西呢？
在python中提到unicode，一般指的是unicode對(duì)象，例如'哈哈'的unicode對(duì)象為
u'\u54c8\u54c8'
而str，是一個(gè)字節(jié)數(shù)組，這個(gè)字節(jié)數(shù)組表示的是對(duì)unicode對(duì)象編碼(可以是utf-8、gbk、cp936、GB2312)后的存儲(chǔ)的格式。這里它僅僅是一個(gè)字節(jié)流，沒(méi)有其它的含義，如果你想使這個(gè)字節(jié)流顯示的內(nèi)容有意義，就必須用正確的編碼格式，解碼顯示。
例如：

對(duì)于unicode對(duì)象哈哈進(jìn)行編碼，編碼成一個(gè)utf-8編碼的str－s_utf8,s_utf8就是是一個(gè)字節(jié)數(shù)組，存放的就是'\xe5\x93\x88\xe5\x93\x88'，但是這僅僅是一個(gè)字節(jié)數(shù)組，如果你想將它通過(guò)print語(yǔ)句輸出成哈哈，那你就失望了，為什么呢？

因?yàn)閜rint語(yǔ)句它的實(shí)現(xiàn)是將要輸出的內(nèi)容傳送了操作系統(tǒng)，操作系統(tǒng)會(huì)根據(jù)系統(tǒng)的編碼對(duì)輸入的字節(jié)流進(jìn)行編碼，這就解釋了為什么utf-8格式的字符串“哈哈”，輸出的是“鍝堝搱”，因?yàn)? '\xe5\x93\x88\xe5\x93\x88'用GB2312去解釋?zhuān)滹@示的出來(lái)就是“鍝堝搱”。這里再?gòu)?qiáng)調(diào)一下，str記錄的是字節(jié)數(shù)組，只是某種編碼的存儲(chǔ)格式，至于輸出到文件或是打印出來(lái)是什么格式，完全取決于其解碼的編碼將它解碼成什么樣子。

這里再對(duì)print進(jìn)行一點(diǎn)補(bǔ)充說(shuō)明：當(dāng)將一個(gè)unicode對(duì)象傳給print時(shí)，在內(nèi)部會(huì)將該unicode對(duì)象進(jìn)行一次轉(zhuǎn)換，轉(zhuǎn)換成本地的默認(rèn)編碼（這僅是個(gè)人猜測(cè)）

二、str和unicode對(duì)象的轉(zhuǎn)換

str和unicode對(duì)象的轉(zhuǎn)換，通過(guò)encode和decode實(shí)現(xiàn)，具體使用如下：

將GBK'哈哈'轉(zhuǎn)換成unicode，然后再轉(zhuǎn)換成UTF8

三、Setdefaultencoding

如上圖的演示代碼所示：

當(dāng)把s(gbk字符串)直接編碼成utf-8的時(shí)候，將拋出異常，但是通過(guò)調(diào)用如下代碼：

import sys

reload(sys)

sys.setdefaultencoding('gbk')

后就可以轉(zhuǎn)換成功，為什么呢？在python中str和unicode在編碼和解碼過(guò)程中，如果將一個(gè)str直接編碼成另一種編碼，會(huì)先把str解碼成unicode，采用的編碼為默認(rèn)編碼，一般默認(rèn)編碼是anscii，所以在上面示例代碼中第一次轉(zhuǎn)換的時(shí)候會(huì)出錯(cuò)，當(dāng)設(shè)定當(dāng)前默認(rèn)編碼為'gbk'后，就不會(huì)出錯(cuò)了。

至于reload(sys)是因?yàn)镻ython2.5 初始化后會(huì)刪除 sys.setdefaultencoding 這個(gè)方法，我們需要重新載入。

四、操作不同文件的編碼格式的文件

建立一個(gè)文件test.txt，文件格式用ANSI，內(nèi)容為:

abc中文

用python來(lái)讀取

# coding=gbk

print open("Test.txt").read()

結(jié)果：abc中文

把文件格式改成UTF-8：

結(jié)果：abc涓枃

顯然，這里需要解碼：

# coding=gbk

import codecs

print open("Test.txt").read().decode("utf-8")

結(jié)果：abc中文

上面的test.txt我是用Editplus來(lái)編輯的，但當(dāng)我用Windows自帶的記事本編輯并存成UTF-8格式時(shí)，

運(yùn)行時(shí)報(bào)錯(cuò)：

Traceback (most recent call last):

File "ChineseTest.py", line 3, in

print open("Test.txt").read().decode("utf-8")

UnicodeEncodeError: 'gbk' codec can't encode character u'\ufeff' in position 0: illegal multibyte sequence

原來(lái)，某些軟件，如notepad，在保存一個(gè)以UTF-8編碼的文件時(shí)，會(huì)在文件開(kāi)始的地方插入三個(gè)不可見(jiàn)的字符（0xEF 0xBB 0xBF，即BOM）。

因此我們?cè)谧x取時(shí)需要自己去掉這些字符，python中的codecs module定義了這個(gè)常量：

# coding=gbk

import codecs

data = open("Test.txt").read()

if data[:3] == codecs.BOM_UTF8:

data = data[3:]

print data.decode("utf-8")

結(jié)果：abc中文

五、文件的編碼格式和編碼聲明的作用

源文件的編碼格式對(duì)字符串的聲明有什么作用呢？這個(gè)問(wèn)題困擾一直困擾了我好久，現(xiàn)在終于有點(diǎn)眉目了，文件的編碼格式?jīng)Q定了在該源文件中聲明的字符串的編碼格式，例如：

str = '哈哈'

print repr(str)

a.如果文件格式為utf-8，則str的值為：'\xe5\x93\x88\xe5\x93\x88'（哈哈的utf-8編碼）

b.如果文件格式為gbk，則str的值為：'\xb9\xfe\xb9\xfe'（哈哈的gbk編碼）

在第一節(jié)已經(jīng)說(shuō)過(guò)，python中的字符串，只是一個(gè)字節(jié)數(shù)組，所以當(dāng)把a(bǔ)情況的str輸出到gbk編碼的控制臺(tái)時(shí)，就將顯示為亂碼：鍝堝搱；而當(dāng)把b情況下的str輸出utf-8編碼的控制臺(tái)時(shí)，也將顯示亂碼的問(wèn)題，是什么也沒(méi)有，也許'\xb9\xfe\xb9\xfe'用utf-8解碼顯示，就是空白吧。>_<

說(shuō)完文件格式，現(xiàn)在來(lái)談?wù)劸幋a聲明的作用吧，每個(gè)文件在最上面的地方，都會(huì)用# coding=gbk 類(lèi)似的語(yǔ)句聲明一下編碼，但是這個(gè)聲明到底有什么用呢？到止前為止，我覺(jué)得它的作用也就是三個(gè)：

聲明源文件中將出現(xiàn)非ascii編碼，通常也就是中文；

在高級(jí)的IDE中，IDE會(huì)將你的文件格式保存成你指定編碼格式。

決定源碼中類(lèi)似于u'哈'這類(lèi)聲明的將‘哈'解碼成unicode所用的編碼格式，也是一個(gè)比較容易讓人迷惑的地方，看示例：

#coding:gbk

ss = u'哈哈'

print repr(ss)

print 'ss:%s' % ss

將這個(gè)些代碼保存成一個(gè)utf-8文本，運(yùn)行，你認(rèn)為會(huì)輸出什么呢？大家第一感覺(jué)肯定輸出的肯定是：

u'\u54c8\u54c8'

ss:哈哈

但是實(shí)際上輸出是：

u'\u935d\u581d\u6431'

ss:鍝堝搱

為什么會(huì)這樣，這時(shí)候，就是編碼聲明在作怪了，在運(yùn)行ss = u'哈哈'的時(shí)候，整個(gè)過(guò)程可以分為以下幾步：

1) 獲取'哈哈'的編碼：由文件編碼格式確定，為'\xe5\x93\x88\xe5\x93\x88'（哈哈的utf-8編碼形式）

2) 轉(zhuǎn)成 unicode編碼的時(shí)候，在這個(gè)轉(zhuǎn)換的過(guò)程中，對(duì)于'\xe5\x93\x88\xe5\x93\x88'的解碼，不是用utf-8解碼，而是用聲明編碼處指定的編碼GBK，將'\xe5\x93\x88\xe5\x93\x88'按GBK解碼，得到就是''鍝堝搱''，這三個(gè)字的unicode編碼就是u'\u935d\u581d\u6431'，至止可以解釋為什么print repr(ss)輸出的是u'\u935d\u581d\u6431' 了。

好了，這里有點(diǎn)繞，我們來(lái)分析下一個(gè)示例：

#-*- coding:utf-8 -*-

ss = u'哈哈'

print repr(ss)

print 'ss:%s' % ss

將這個(gè)示例這次保存成GBK編碼形式，運(yùn)行結(jié)果，竟然是：

UnicodeDecodeError: 'utf8' codec can't decode byte 0xb9 in position 0: unexpected code byte

這里為什么會(huì)有utf8解碼錯(cuò)誤呢？想想上個(gè)示例也明白了，轉(zhuǎn)換第一步，因?yàn)槲募幋a是GBK，得到的是'哈哈'編碼是GBK的編碼'\xb9\xfe\xb9\xfe'，當(dāng)進(jìn)行第二步，轉(zhuǎn)換成 unicode的時(shí)候，會(huì)用UTF8對(duì)'\xb9\xfe\xb9\xfe'進(jìn)行解碼，而大家查utf-8的編碼表會(huì)發(fā)現(xiàn)，utf8編碼表（關(guān)于UTF- 8解釋可參見(jiàn)字符編碼筆記：ASCII、UTF-8、UNICODE）中根本不存在，所以會(huì)報(bào)上述錯(cuò)誤。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫(kù)，點(diǎn)擊>>> “CDA題庫(kù)” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

python

數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼

若不方便掃碼，搜微信號(hào)：CDAshujufenxi

上一篇回歸系列（一）| 怎樣正確地理解線(xiàn)性回歸

下一篇2020美國(guó)總統(tǒng)競(jìng)選大戲開(kāi)鑼?zhuān)ㄆ债?dāng)選的奇跡會(huì)再發(fā)生嗎？

CDA報(bào)考指南

報(bào)考流程
考試時(shí)間
報(bào)名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號(hào) 經(jīng)營(yíng)許可證編號(hào)：京B2-20210330

聯(lián)系電話(huà)：13321103290 (微信同號(hào))

CDA教材
CDA題庫(kù)
CDA大綱

客服在線(xiàn)

立即咨詢(xún)

客服在線(xiàn)

立即咨詢(xún)

免密碼登錄

提交首次登錄驗(yàn)證后自動(dòng)注冊(cè)

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶(hù)后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn)：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

python中文亂碼問(wèn)題深入分析

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】訓(xùn)練與驗(yàn)證損失驟升：機(jī)器學(xué)習(xí)訓(xùn)練中的 ...

【CDA干貨】解析 DataHub 與 Kafka：數(shù)據(jù)生態(tài)中兩類(lèi) ...

CDA 數(shù)據(jù)分析師：讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層 ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率：打破 “ ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對(duì)象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 ...

【CDA干貨】Python HTTP 請(qǐng)求工具對(duì)比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營(yíng)銷(xiāo)案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA教育閉環(huán)

常見(jiàn)問(wèn)題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載