2019-03-05
閱讀量:
977
爬蟲時要訪問的url中含有中文,如何來編碼?
爬蟲時url中文不編碼報錯
答:
如果URL中存在中文,而你卻不對它做任何處理,他不會達到你所想的那樣,因此我們需要將中文部分進行處理,要用到urllib.request模塊中的quote將中文轉化成URL所需的編碼,url中的中文要單獨處理,不能中英文全部合在一起處理(因為一部分的特殊字符也會被處理掉)
from urllib.request import quote
# 編碼
url1 = "https://www.baidu.com/s?wd=中國"
# utf8編碼,指定安全字符 這樣就不會將非中文的字符一起轉碼
ret1 = quote(url1, safe=";/?:@&=+$,", encoding="utf-8")
print(ret1)
# https://www.baidu.com/s?wd=%E4%B8%AD%E5%9B%BD
# gbk編碼
ret2 = quote(url1, encoding="gbk")
print(ret2)
# https%3A//www.baidu.com/s%3Fwd%3D%D6%D0%B9%FA






評論(0)


暫無數(shù)據(jù)
推薦帖子
0條評論
0條評論
0條評論