
Python中使用hashlib模塊處理算法的教程
Python的hashlib提供了常見的摘要算法,如MD5,SHA1等等。
什么是摘要算法呢?摘要算法又稱哈希算法、散列算法。它通過一個函數(shù),把任意長度的數(shù)據(jù)轉(zhuǎn)換為一個長度固定的數(shù)據(jù)串(通常用16進(jìn)制的字符串表示)。
舉個例子,你寫了一篇文章,內(nèi)容是一個字符串'how to use python hashlib - by Michael',并附上這篇文章的摘要是'2d73d4f15c0db7f5ecb321b6a65e5d6d'。如果有人篡改了你的文章,并發(fā)表為'how to use python hashlib - by Bob',你可以一下子指出Bob篡改了你的文章,因為根據(jù)'how to use python hashlib - by Bob'計算出的摘要不同于原始文章的摘要。
可見,摘要算法就是通過摘要函數(shù)f()對任意長度的數(shù)據(jù)data計算出固定長度的摘要digest,目的是為了發(fā)現(xiàn)原始數(shù)據(jù)是否被人篡改過。
摘要算法之所以能指出數(shù)據(jù)是否被篡改過,就是因為摘要函數(shù)是一個單向函數(shù),計算f(data)很容易,但通過digest反推data卻非常困難。而且,對原始數(shù)據(jù)做一個bit的修改,都會導(dǎo)致計算出的摘要完全不同。
我們以常見的摘要算法MD5為例,計算出一個字符串的MD5值:
import hashlib
md5 = hashlib.md5()
md5.update('how to use md5 in python hashlib?')
print md5.hexdigest()
計算結(jié)果如下:
d26a53750bc40b38b65a520292f69306
如果數(shù)據(jù)量很大,可以分塊多次調(diào)用update(),最后計算的結(jié)果是一樣的:
md5 = hashlib.md5()
md5.update('how to use md5 in ')
md5.update('python hashlib?')
print md5.hexdigest()
試試改動一個字母,看看計算的結(jié)果是否完全不同。
MD5是最常見的摘要算法,速度很快,生成結(jié)果是固定的128 bit字節(jié),通常用一個32位的16進(jìn)制字符串表示。
另一種常見的摘要算法是SHA1,調(diào)用SHA1和調(diào)用MD5完全類似:
import hashlib
sha1 = hashlib.sha1()
sha1.update('how to use sha1 in ')
sha1.update('python hashlib?')
print sha1.hexdigest()
SHA1的結(jié)果是160 bit字節(jié),通常用一個40位的16進(jìn)制字符串表示。
比SHA1更安全的算法是SHA256和SHA512,不過越安全的算法越慢,而且摘要長度更長。
有沒有可能兩個不同的數(shù)據(jù)通過某個摘要算法得到了相同的摘要?完全有可能,因為任何摘要算法都是把無限多的數(shù)據(jù)集合映射到一個有限的集合中。這種情況稱為碰撞,比如Bob試圖根據(jù)你的摘要反推出一篇文章'how to learn hashlib in python - by Bob',并且這篇文章的摘要恰好和你的文章完全一致,這種情況也并非不可能出現(xiàn),但是非常非常困難。
摘要算法應(yīng)用
摘要算法能應(yīng)用到什么地方?舉個常用例子:
任何允許用戶登錄的網(wǎng)站都會存儲用戶登錄的用戶名和口令。如何存儲用戶名和口令呢?方法是存到數(shù)據(jù)庫表中:
name | password
--------+----------
michael | 123456
bob | abc999
alice | alice2008
如果以明文保存用戶口令,如果數(shù)據(jù)庫泄露,所有用戶的口令就落入黑客的手里。此外,網(wǎng)站運維人員是可以訪問數(shù)據(jù)庫的,也就是能獲取到所有用戶的口令。
正確的保存口令的方式是不存儲用戶的明文口令,而是存儲用戶口令的摘要,比如MD5:
username | password
---------+---------------------------------
michael | e10adc3949ba59abbe56e057f20f883e
bob | 878ef96e86145580c38c87f0410ad153
alice | 99b1c2188db85afee403b1536010c2c9
當(dāng)用戶登錄時,首先計算用戶輸入的明文口令的MD5,然后和數(shù)據(jù)庫存儲的MD5對比,如果一致,說明口令輸入正確,如果不一致,口令肯定錯誤。
練習(xí):根據(jù)用戶輸入的口令,計算出存儲在數(shù)據(jù)庫中的MD5口令:
def calc_md5(password):
pass
存儲MD5的好處是即使運維人員能訪問數(shù)據(jù)庫,也無法獲知用戶的明文口令。
練習(xí):設(shè)計一個驗證用戶登錄的函數(shù),根據(jù)用戶輸入的口令是否正確,返回True或False:
db = {
'michael': 'e10adc3949ba59abbe56e057f20f883e',
'bob': '878ef96e86145580c38c87f0410ad153',
'alice': '99b1c2188db85afee403b1536010c2c9'
}
def login(user, password):
pass
采用MD5存儲口令是否就一定安全呢?也不一定。假設(shè)你是一個黑客,已經(jīng)拿到了存儲MD5口令的數(shù)據(jù)庫,如何通過MD5反推用戶的明文口令呢?暴力破解費事費力,真正的黑客不會這么干。
考慮這么個情況,很多用戶喜歡用123456,888888,password這些簡單的口令,于是,黑客可以事先計算出這些常用口令的MD5值,得到一個反推表:
'e10adc3949ba59abbe56e057f20f883e': '123456'
'21218cca77804d2ba1922c33e0151105': '888888'
'5f4dcc3b5aa765d61d8327deb882cf99': 'password'
這樣,無需破解,只需要對比數(shù)據(jù)庫的MD5,黑客就獲得了使用常用口令的用戶賬號。
對于用戶來講,當(dāng)然不要使用過于簡單的口令。但是,我們能否在程序設(shè)計上對簡單口令加強保護(hù)呢?
由于常用口令的MD5值很容易被計算出來,所以,要確保存儲的用戶口令不是那些已經(jīng)被計算出來的常用口令的MD5,這一方法通過對原始口令加一個復(fù)雜字符串來實現(xiàn),俗稱“加鹽”:
def calc_md5(password):
return get_md5(password + 'the-Salt')
經(jīng)過Salt處理的MD5口令,只要Salt不被黑客知道,即使用戶輸入簡單口令,也很難通過MD5反推明文口令。
但是如果有兩個用戶都使用了相同的簡單口令比如123456,在數(shù)據(jù)庫中,將存儲兩條相同的MD5值,這說明這兩個用戶的口令是一樣的。有沒有辦法讓使用相同口令的用戶存儲不同的MD5呢?
如果假定用戶無法修改登錄名,就可以通過把登錄名作為Salt的一部分來計算MD5,從而實現(xiàn)相同口令的用戶也存儲不同的MD5。
練習(xí):根據(jù)用戶輸入的登錄名和口令模擬用戶注冊,計算更安全的MD5:
db = {}
def register(username, password):
db[username] = get_md5(password + username + 'the-Salt')
然后,根據(jù)修改后的MD5算法實現(xiàn)用戶登錄的驗證:
def login(username, password):
pass
小結(jié)
摘要算法在很多地方都有廣泛的應(yīng)用。要注意摘要算法不是加密算法,不能用于加密(因為無法通過摘要反推明文),只能用于防篡改,但是它的單向計算特性決定了可以在不存儲明文口令的情況下驗證用戶口令。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11