
英文:
https://arpitbhayani.me/blogs/string-interning
作者:arpit
來源:豌豆花下貓(Python貓)
聲明:本翻譯是出于交流學習的目的,基于 CC BY-NC-SA 4.0 授權協(xié)議。為便于閱讀,內容略有改動。
每種編程語言為了表現出色,并且實現卓越的性能,都需要有大量編譯器級與解釋器級的優(yōu)化。
由于字符串是任何編程語言中不可或缺的一個部分,因此,如果有快速操作字符串的能力,就可以迅速地提高整體的性能。
在本文中,我們將深入研究 Python 的內部實現,并了解 Python 如何使用一種名為字符串駐留(String Interning)的技術,實現解釋器的高性能。 本文的目的不僅在于介紹 Python 的內部知識,而且還旨在使讀者能夠輕松地瀏覽 Python 的源代碼;因此,本文中將有很多出自 CPython 的代碼片段。
全文提綱如下:
字符串駐留是一種編譯器/解釋器的優(yōu)化方法,它通過緩存一般性的字符串,從而節(jié)省字符串處理任務的空間和時間。
這種優(yōu)化方法不會每次都創(chuàng)建一個新的字符串副本,而是僅為每個適當的不可變值保留一個字符串副本,并使用指針引用之。
每個字符串的唯一拷貝被稱為它的intern,并因此而得名 String Interning。
Python貓注:String Interning 一般被譯為“字符串駐留”或“字符串留用”,在某些語言中可能習慣用 String Pool(字符串常量池)的概念,其實是對同一種機制的不同表述。intern 作為名詞時,是“實習生、實習醫(yī)生”的意思,在此可以理解成“駐留物、駐留值”。
查找字符串 intern 的方法可能作為公開接口公開,也可能不公開。現代編程語言如 Java、Python、PHP、Ruby、Julia 等等,都支持字符串駐留,以使其編譯器和解釋器做到高性能。
字符串駐留提升了字符串比較的速度。 如果沒有駐留,當我們要比較兩個字符串是否相等時,它的時間復雜度將上升到 O(n),即需要檢查兩個字符串中的每個字符,才能判斷出它們是否相等。
但是,如果字符串是固定的,由于相同的字符串將使用同一個對象引用,因此只需檢查指針是否相同,就足以判斷出兩個字符串是否相等,不必再逐一檢查每個字符。由于這是一個非常普遍的操作,因此,它被典型地實現為指針相等性校驗,僅使用一條完全沒有內存引用的機器指令。
字符串駐留減少了內存占用。 Python 避免內存中充斥多余的字符串對象,通過享元設計模式共享和重用已經定義的對象,從而優(yōu)化內存占用。
像大多數其它現代編程語言一樣,Python 也使用字符串駐留來提高性能。在 Python 中,我們可以使用is運算符,檢查兩個對象是否引用了同一個內存對象。
因此,如果兩個字符串對象引用了相同的內存對象,則is運算符將得出True,否則為False。
>>> 'python' is 'python' True
我們可以使用這個特定的運算符,來判斷哪些字符串是被駐留的。在 CPython 的,字符串駐留是通過以下函數實現的,聲明在 unicodeobject.h 中,定義在 unicodeobject.c 中。
PyAPI_FUNC(void) PyUnicode_InternInPlace(PyObject **);
為了檢查一個字符串是否被駐留,CPython 實現了一個名為PyUnicode_CHECK_INTERNED的宏,同樣是定義在 unicodeobject.h 中。
這個宏表明了 Python 在PyASCIIObject結構中維護著一個名為interned的成員變量,它的值表示相應的字符串是否被駐留。
#define PyUnicode_CHECK_INTERNED(op) (((PyASCIIObject *)(op))->state.interned)
在 CPython 中,字符串的引用被一個名為interned的 Python 字典所存儲、訪問和管理。 該字典在第一次調用字符串駐留時,被延遲地初始化,并持有全部已駐留字符串對象的引用。
4.1 如何駐留字符串?
負責駐留字符串的核心函數是PyUnicode_InternInPlace,它定義在 unicodeobject.c 中,當調用時,它會創(chuàng)建一個準備容納所有駐留的字符串的字典interned,然后登記入參中的對象,令其鍵和值都使用相同的對象引用。
以下函數片段顯示了 Python 實現字符串駐留的過程。
void PyUnicode_InternInPlace(PyObject **p) {
PyObject *s = *p;
.........
// Lazily build the dictionary to hold interned Strings if (interned == NULL) {
interned = PyDict_New();
if (interned == NULL) {
PyErr_Clear();
return;
}
}
PyObject *t;
// Make an entry to the interned dictionary for the // given object t = PyDict_SetDefault(interned, s, s);
.........
// The two references in interned dict (key and value) are // not counted by refcnt. // unicode_dealloc() and _PyUnicode_ClearInterned() take // care of this. Py_SET_REFCNT(s, Py_REFCNT(s) - 2);
// Set the state of the string to be INTERNED _PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL;
}
4.2 如何清理駐留的字符串?
清理函數從interned字典中遍歷所有的字符串,調整這些對象的引用計數,并把它們標記為NOT_INTERNED,使其被垃圾回收。一旦所有的字符串都被標記為NOT_INTERNED,則interned字典會被清空并刪除。
這個清理函數就是_PyUnicode_ClearInterned,在 unicodeobject.c 中定義。
void _PyUnicode_ClearInterned(PyThreadState *tstate) {
.........
// Get all the keys to the interned dictionary PyObject *keys = PyDict_Keys(interned);
.........
// Interned Unicode strings are not forcibly deallocated; // rather, we give them their stolen references back // and then clear and DECREF the interned dict. for (Py_ssize_t i = 0; i < n; i++) {
PyObject *s = PyList_GET_ITEM(keys, i);
.........
switch (PyUnicode_CHECK_INTERNED(s)) {
case SSTATE_INTERNED_IMMORTAL:
Py_SET_REFCNT(s, Py_REFCNT(s) + 1);
break;
case SSTATE_INTERNED_MORTAL:
// Restore the two references (key and value) ignored // by PyUnicode_InternInPlace(). Py_SET_REFCNT(s, Py_REFCNT(s) + 2);
break;
case SSTATE_NOT_INTERNED:
/* fall through */ default:
Py_UNREACHABLE();
}
// marking the string to be NOT_INTERNED _PyUnicode_STATE(s).interned = SSTATE_NOT_INTERNED;
}
// decreasing the reference to the initialized and // access keys object. Py_DECREF(keys);
// clearing the dictionary PyDict_Clear(interned);
// clearing the object interned Py_CLEAR(interned);
}
既然了解了字符串駐留及清理的內部原理,我們就可以找出 Python 中所有會被駐留的字符串。
為了做到這點,我們要做的就是在 CPython 源代碼中查找PyUnicode_InternInPlace 函數的調用,并查看其附近的代碼。下面是在 Python 中關于字符串駐留的一些有趣的發(fā)現。
5.1 變量、常量與函數名
CPython 對常量(例如函數名、變量名、字符串字面量等)執(zhí)行字符串駐留。
以下代碼出自codeobject.c,它表明在創(chuàng)建新的PyCode對象時,解釋器將對所有編譯期的常量、名稱和字面量進行駐留。
PyCodeObject * PyCode_NewWithPosOnlyArgs(int argcount, int posonlyargcount, int kwonlyargcount,
int nlocals, int stacksize, int flags,
PyObject *code, PyObject *consts, PyObject *names,
PyObject *varnames, PyObject *freevars, PyObject *cellvars,
PyObject *filename, PyObject *name, int firstlineno,
PyObject *linetable) {
........
if (intern_strings(names) < 0) {
return NULL;
}
if (intern_strings(varnames) < 0) {
return NULL;
}
if (intern_strings(freevars) < 0) {
return NULL;
}
if (intern_strings(cellvars) < 0) {
return NULL;
}
if (intern_string_constants(consts, NULL) < 0) {
return NULL;
}
........
}
5.2 字典的鍵
CPython 還會駐留任何字典對象的字符串鍵。
當在字典中插入元素時,解釋器會對該元素的鍵作字符串駐留。以下代碼出自 dictobject.c,展示了實際的行為。
有趣的地方:在PyUnicode_InternInPlace函數被調用處有一條注釋,它問道,我們是否真的需要對所有字典中的全部鍵進行駐留?
int PyDict_SetItemString(PyObject *v, const char *key, PyObject *item) {
PyObject *kv;
int err;
kv = PyUnicode_FromString(key);
if (kv == NULL)
return -1;
// Invoking String Interning on the key PyUnicode_InternInPlace(&kv); /* XXX Should we really? */ err = PyDict_SetItem(v, kv, item);
Py_DECREF(kv);
return err;
}
5.3 任何對象的屬性
Python 中對象的屬性可以通過setattr函數顯式地設置,也可以作為類成員的一部分而隱式地設置,或者在其數據類型中預定義。
CPython 會駐留所有這些屬性名,以便實現快速查找。 以下是函數PyObject_SetAttr的代碼片段,該函數定義在文件object.c中,負責為 Python 對象設置新屬性。
int PyObject_SetAttr(PyObject *v, PyObject *name, PyObject *value) {
........
PyUnicode_InternInPlace(&name);
........
}
5.4 顯式地駐留
Python 還支持通過sys模塊中的intern函數進行顯式地字符串駐留。
當使用任何字符串對象調用此函數時,該字符串對象將被駐留。以下是 sysmodule.c 文件的代碼片段,它展示了在sys_intern_impl函數中的字符串駐留過程。
static PyObject * sys_intern_impl(PyObject *module, PyObject *s) {
........
if (PyUnicode_CheckExact(s)) {
Py_INCREF(s);
PyUnicode_InternInPlace(&s);
return s;
}
........
}
只有編譯期的字符串會被駐留。 在解釋時或編譯時指定的字符串會被駐留,而動態(tài)創(chuàng)建的字符串則不會。
Python貓注:這一條規(guī)則值得展開思考,我曾經在上面踩過坑……有兩個知識點,我相信 99% 的人都不知道:字符串的 join() 方法是動態(tài)創(chuàng)建字符串,因此其創(chuàng)建的字符串不會被駐留;常量折疊機制也發(fā)生在編譯期,因此有時候容易把它跟字符串駐留搞混淆。
包含 ASCII 字符和下劃線的字符串會被駐留。 在編譯期間,當對字符串字面量進行駐留時,CPython 確保僅對匹配正則表達式[a-zA-Z0-9_]*的常量進行駐留,因為它們非常貼近于 Python 的標識符。
Python貓注:關于 Python 中標識符的命名規(guī)則,在 Python2 版本只有“字母、數字和下劃線”,但在 Python 3.x 版本中,已經支持 Unicode 編碼。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數據分析師與戰(zhàn)略 / 業(yè)務數據分析:概念辨析與協(xié)同價值 在數據驅動決策的體系中,“戰(zhàn)略數據分析”“業(yè)務數據分析” 是企業(yè) ...
2025-09-11Excel 數據聚類分析:從操作實踐到業(yè)務價值挖掘 在數據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數據中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數據解讀到決策支撐的價值導向 統(tǒng)計模型作為數據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10