眾所周知,執行Python程式可以直接使用python.exe命令,如下所示:
python abc.py
看到python直接執行了abc.py,可能很多同學認為python是解釋執行abc.py的,其實不然。如果要真是解釋執行,那效率慢的就沒法用了。實際上,Python與Java一樣,也是玩位元組碼出身。Java的位元組碼叫Java ByteCode,Python的位元組碼叫Python ByteCode。Python在第一次執行abc.py檔案時,會將原始碼檔案編譯成位元組碼,然後再執行。當然,還可以選擇直接生成位元組碼檔案(副檔名是pyc),然後直接執行Python位元組碼檔案。
通常Python是以原始碼形式釋出的,不過對於一些敏感資訊,不希望以原始碼形式釋出,就可以用位元組碼形式釋出。當然,位元組碼也可以被反編譯。為了讓Python原始碼更安全,可以製作自己的私有Python環境,這些內容我們後面再說。
相信很多沒接觸過過Python位元組碼的同學一定有很多疑問,那麼就繼續看後面的內容吧!
1. 如何檢視Python位元組碼
我們首先來檢視一下Python的位元組碼,以證明在執行Python指令碼時確實是先將Python程式碼編譯成位元組碼,然後執行的是位元組碼,而不是直接執行Python原始碼。
先看下面的程式碼:
在這段程式碼中有一個fun函式,裡面使用了全域性變數value和區域性變數name,並輸出了這兩個變數的值。最後匯入了dis模組。在該模組中有一個disassemble函式,用於輸出任何包含__code__屬性的Python程式碼段的位元組碼形式。
現在執行這段程式碼,會輸出如下內容:
很明顯,disassemble輸出了類似彙編程式碼的東西。其實這就是Python位元組碼的可讀形式。每一條指令對應一個位元組碼。那麼為什麼要檢視位元組碼呢?其實對於應用開發者來說,最直接的作用就是更好地理解Python原始碼。
例如,本例使用了全域性變數,也就是global關鍵字,那麼global關鍵字到底代表什麼呢?從Python位元組碼中就可以很容易看出端倪。
在Python原始碼中發生了2次賦值,程式碼如下:
其中value是全域性變數,name是fun函式的區域性變數。將這兩條賦值操作轉換為Python位元組碼,會得到如下的程式碼:
從Python位元組碼可以看出,每一條賦值語句轉換成了2條Python位元組碼。其中都使用了LOAD_CONST指令,這是裝載常量的指令。因為value和name都被賦予了一個常量,只是一個是整數,另一個是字串。不過由於Python在使用變數時不需要指定變數型別(變數有型別,但不需要在定義變數時指定,使用變數時再確定變數的型別),所以不管是裝載什麼型別的常量給變數賦值,都使用LOAD_CONST指令。
但第2條指令就不同了,對於全域性變數value,使用STORE_GLOBAL指令將常量賦給變數,而區域性變數name,使用了STORE_FAST指令將常量賦給了變數。這兩條指令的區別就是儲存的位置不同。由於Python將全域性變數和變數放到了不同的位置,所以這兩條指令會分別將常量值儲存到這些位置。
從這一點判斷,global value這條語句其實並沒有執行,他只是一個開關,如果加上global value,當為value賦值時就使用STORE_GLOBAL指令,如果沒有global value,當為value賦值時就使用STORE_FAST指令。
如果除了global value外,其他的程式碼都去掉,就看不到global value的身影了。
看下面的Python程式碼:
執行這段程式碼,只會得到下面2條Python位元組碼:
這2條Python位元組碼實際是讓fun函式有一個預設的返回值,也就是如果函式不顯式返回一個值,那麼預設就會返回None。這裡面並沒有看到global value的身影。
2. 用Python程式碼編譯Python程式碼
在使用python命令執行指令碼時,儘管將Python原始碼編譯成了位元組碼,但並沒有將編譯結果儲存成檔案,而一切都是在記憶體中完成的。如果頻繁執行Python的某段程式,執行的實際上是記憶體中的Python位元組碼。不過在釋出時,我們期望像Java一樣,可以釋出.class檔案,其實Python也有類似的檔案,這就是.pyc檔案。
用Python程式碼和命令列都可以將Python原始碼編譯成.pyc檔案,只是在預設情況下,Python做得比較隱蔽,會將.pyc檔案生成到一個預設的目錄,而且很多IDE(如PyCharm)是不會顯示這個目錄的。這個目錄就是__pycache__。
現在做一個實驗,首先建立一個demo.py檔案,然後輸入下面的程式碼:
現在執行下面的程式碼將demo.py檔案編譯生成.pyc檔案。
so easy,只需要兩行程式碼(還有一行是import語句),就可以編譯demo.py,執行程式後,如果在IDE中,什麼都不會發生,別急,切換到demo.py檔案所在的目錄,會看到多了一個__pycache__目錄,開啟一看,目錄裡有一個名為demo.cpython-38.pyc的檔案。在讀者的機器上檔名可能不同,差異就在最後的數字上,這裡的38表示我用的Python版本是3.8,這裡不會顯示小版本號。如果讀者使用的是3.7,那麼生成的.pyc檔案就是demo.cpython-37.pyc。
現在進入控制檯,進入demo.cpython-38.pyc檔案所在的目錄,執行python demo.cpython-38.pyc命令,同樣可以輸出結果,與python demo.py執行的結果完全相同。所以在釋出Python應用時,可以直接釋出pyc檔案。
compile函式在編譯Python檔案時,可以指定第2個引數值,表示要生成的.pyc檔名,這樣就可以指定將pyc檔案放到特定的目錄,程式碼如下:
執行這段程式碼,可以在當前目錄生成一個名為demo.pyc的檔案,執行python demo.pyc命令,同樣會得到我們期望的結果。
如果需要編譯的Python指令碼太多,可以多次呼叫compile函式,也可以使用compileall模組中的compile_dir函式遞迴編譯指定目錄中的所有Python指令碼檔案。
現在做一個實驗,在當前目錄建立3層子目錄:aa/bb/cc,並在每一層目錄建立一個或多個Python指令碼檔案,可以不寫任何程式碼(空檔案即可),如圖1所示。
圖1
現在執行下面的程式碼編譯aa目錄中所有的Python指令碼檔案。
執行這段程式碼,首先會遞迴掃描所有的目錄,然後會編譯所有發現的Python指令碼檔案,如圖2所示。
圖2
檢視這幾個目錄,每一個目錄都有一個名為__pycache__目錄,裡面是對應的pyc檔案。
如果不想遞迴編譯所有目錄中的Python指令碼檔案,可以使用compile_dir函式的第2個引數指定遞迴層次,0表示當前目錄(不遞迴),1表示遞迴一層目錄,以此類推。例如,下面的程式碼只編譯當前目錄中所有的Python指令碼檔案。
3. 在命令列中編譯Python指令碼
python命令同樣可以將.py檔案編譯成.pyc檔案,例如,如果要編譯demo.py檔案,可以使用下面的命令:
python -m demo.py
這裡的-m命令列引數表示編譯demo.py,執行這行命令後,會在當前目錄的__pycache__目錄生成demo.cpython-38.pyc檔案,然後可以使用python直接執行這個檔案。
如果想遞迴編譯目錄中所有的Python檔案,可以使用下面的命令:
python -m compileall aa
這行命令可以遞迴編譯aa目錄中的所有Python檔案。如果還想對編譯結果進行最佳化,可以加-O或-OO,那麼這兩個最佳化引數有什麼區別呢?
如果不加最佳化引數,只加-m,那麼就不會進行最佳化,也就是最佳化層次(Level)為0,當不最佳化時,Python的內部變數__debug__為True,讀者可以在Python Shell中輸出這個變數值。如果設定了-O引數,那麼最佳化層次是1,在這一最佳化層次,會將__debug__變數的值設為False。如果使用-OO引數,最佳化層次是2,不僅將__debug__變數的值設為False,而且將Python中的docstrings也去除了。docstrings就是Python中的文件註釋,可以用來為API自動產生文件。也就是3對單引號或雙引號括起來的部分。
其中上一部分講的compile函式和compile_dir函式也有設定最佳化level的引數,就拿compile函式來說,該函式的第4個引數用於設定最佳化層次,預設值是-1,相當於-O引數。還可以設定為0(不最佳化)、1(與預設值相同)和2(相當於-OO引數)。下面的程式碼用level = 2的層次最佳化編譯demo.py。
py_compile.compile('demo.py', 'demo.pyc', False, 2)
其實這裡的最佳化,並不是指最佳化Python Byte Code,而是去掉不同的除錯資訊和文件。這裡的除錯資訊主要是指為了在Console或日誌中輸出的一些用於展示程式執行狀態的資訊。如果這些隨著程式釋出,會讓程式執行效率大打折扣。因為執行在Console或日誌中輸出資訊的程式碼是很慢的(相對於直接在記憶體中執行的程式碼)。
如果使用命令列方式最佳化編譯.py檔案,如果使用的是-O引數,生成的目標檔案是:demo.cpython-38.opt-1.pyc,如果使用的是-OO引數,生成的目標檔案是:demo.cpython-38.opt-2.pyc。
4. 如何對Python程式碼加密
儘管可以將.py檔案編譯生成.pyc檔案,但.pyc檔案和Java的.class檔案一樣,很容易被反編譯。更穩妥的方式是製作一個私有的Python編譯和執行環境,說白了,就是修改Python編譯器的原始碼。聽著很高大上,其實並不複雜,只需要修改其中的常量即可。
首先下載Python原始碼,然後找到如下兩個檔案:
<Python原始碼根目錄>/Lib/opcode.py <Python原始碼根目錄>/Include/opcode.h
大家可以開啟這兩個檔案看看,opcode.py檔案中的程式碼片段是這樣的:
opcode.h檔案中的程式碼片段是這樣的:
我們可以看到,在opcode.h檔案中定義了一堆宏(相當於常量),而opcode.py檔案中同樣定義了與opcode.h同名的值,對應的整數值也相等。做過編譯器的同學應該能猜出來這是什麼東西,其實就是Python Byte Code對應的指令編碼。編譯出來的.pyc檔案都是由這些指令組成的。例如,for指令定義如下:
也就是說,如果Python程式碼中有for迴圈,就一定會有這個指令。我們可以做個試驗,下面有一段包含1個for迴圈的Python程式碼:
輸出這段這段程式碼的Python位元組碼,如下:
我們可以看到,第4行就是FOR_ITER指令,每一條指令由2個位元組組成,第1個位元組表示指令本身,第2個位元組表示運算元。而在第11行的JUMP_ABSOLUTE指令是跳轉指令,FOR_ITER與JUMP_ABSOLUTE配合才能形成迴圈。JUMP_ABSOLUTE直接跳到了6,也就是FOR_ITER指令所在的位置。
由於FOR_ITER指令對應的數值是93,這是十進位制,轉換為十六進位制是5d,如果考慮後面的運算元12(十六程序是0C,至於為什麼運算元是12,這是FOR_ITER指令的特性,讀者可以查閱Python位元組碼的相關文件,這個問題與本文無關,這裡先不做闡述),那麼完整的指令應該是5d0c。所以編譯demo.py,生成對應的.pyc檔案,然後開啟.pyc檔案(用可以檢視二進位制資料的軟體開啟),會看到如圖1所示的十六進位制形式的程式碼,在第6行可以找到5d0c,這就是for迴圈的起始指令。
圖3
讀者可以再加一個for迴圈,程式碼如下:
檢視pyc檔案的程式碼,會看到如圖4的形式。很明顯,第6行和第7行都有5d0c指令,這就表明這段程式碼中包含2條for語句。
圖4
Python位元組碼的反編譯器都是根據這些規則實現的,但問題是,如果5d不表示for迴圈,而表示if語句,那麼原有的反編譯器豈不是不好使了。
如果在程式碼中有if語句,那麼根據不同的場景,會使用POP_JUMP_IF_FALSE指令或POP_JUMP_IF_TRUE指令,這兩條指令在opcode.h的定義如下:
如果有下面的Python程式碼:
那麼會使用POP_JUMP_IF_FALSE指令,這時pyc程式碼中就會包含72(114的十六進位制表示),但如果將FOR_ITER的93和POP_JUMP_IF_FALSE的114調換一下,變成如下形式,那麼按Python的標準指令會將for當成if,if當成for,這樣反編譯出來的程式碼就亂套了。而反編譯器是無法知道你是如何互換指令值得。這就像直接用標準的base64編碼是無法加密的,但如果將標準的base64編碼隨機打亂,用這個打亂的base64編碼規則進行編碼,是無法用標準的base64編碼表解碼的。除非拿到了變化後的base64編碼表,如果要測試每一種排列,會有64的階乘這麼多種可能,在有限的時間內是根本不可能破解的。而這種修改Python原始碼的方式,就相當於打亂標準base64編碼表的順序,增加了破解的難度和時間。
另外,光修改前面介紹的兩個檔案還不行,還需要修改另外一個檔案,路徑如下:
<Python原始碼根目錄>/Python/opcode_targets.h
讀者可以開啟這個檔案,看看為什麼要修改這個檔案,檔案的程式碼片段如下:
很明顯,這段程式碼用來定義Python位元組碼的指令,而在opcode.h檔案中定義的每一個宏對應的值,就是opcode_targets陣列的索引。我們知道,C語言陣列索引從0開始,所以opcode_targets陣列的第1個元素是一個佔位符(&&_unknown_opcode),而POP_TOP指令在opcode.h檔案中值正是1,所以正好與opcode_targets陣列的第2個元素對應。
我們可以繼續檢視opcode_targets陣列的程式碼,看到下面的程式碼形式:找到TARGET_INPLACE_TRUE_DIVIDE,對應的是INPLACE_TRUE_DIVIDE指令,如圖5所示。
圖5
然後在opcode.h檔案中找到INPLACE_TRUE_DIVIDE指令,正好值是29,正好對應opcode_targets中索引為29的元素值。而TARGET_INPLACE_TRUE_DIVIDE下面是一堆&&_unknown_opcode佔位符,這也說明INPLACE_TRUE_DIVIDE後面有很多空閒的值,再看看opcode.h檔案中的定義,如圖6所示。
圖6
很顯然,INPLACE_TRUE_DIVIDE指令後面的RERAISE指令就直接從48開始了,所以要用多個&&_unknown_opcode作為佔位符,否則就無法找到對應的指令了。
所以修改Python原始碼要遵循下面的規則:
(1)修改opcode.py檔案和opcode.h檔案中程式碼,要統一互換,不能只互換一個;
(2)然後將opcode_targets.h中opcode_targets陣列的相對位置也換過來,否則就無法找到對應的指令了;
都改完了,然後就可以編譯Python程式碼了,執行下面的命令即可:
configure
make
make install
最後在釋出程式時,需要帶上自己編譯的Python環境,標準的Python環境已經無法執行我們自己生成的pyc檔案了。
當然,包含Python程式碼的方式有好很多種,例如,對Python程式碼混淆、將Python程式碼轉換成C程式碼等等,這些內容我後面會專門寫文章講解。