使用 UTF-8 而不是用 GBK 主要有以下幾點原因:
1、UTF-8 比 GBK 使用更廣泛
UTF-8 自 1993 年在聖地牙哥舉行的 USENIX 會議已廣泛應用於各種作業系統中,無論是我們現在用 PC 、移動裝置以及伺服器預設都使用的是 UTF-8 編碼,UTF-8 已經成為一種廣泛使用的國際標準。而反觀 GBK 編碼不僅僅釋出的時間要晚「1995 年釋出」,大多數時候僅僅是在國內或華語區使用。
上圖是谷歌所記錄的2001年至2012年主要編碼的使用情況[1],UTF-8在2008年超過了所有其他資料,2012年使用率接近50%
2、UTF-8 支援的語言更多
UTF-8 支援世界上所有國家的字元,而 BGK 僅僅對中文的支援不較好,對其他國家語言的支援可以說是無。
3、對網際網路的支援
網際網路工程工作小組(IETF)要求所有網際網路協議都必須支援 UTF-8 編碼,這就造成所有與網際網路相關的相關的軟體全部都必須支援 UTF-8,而我們目前又處於網際網路時代,任何人、任何軟體、任何檔案都需要透過網際網路來傳播,那麼使用 UTF-8 就順理成章了,當 UTF-8 編碼必須使用而又能夠滿足要求的情況下,我想沒有人會 GBK 重新生成一遍了把。
4、儲存空間
GBK 編碼使用定長的 2 位元組來儲存中文,使用單位元組和雙位元組兩種方式來表示 ACSII ,最終透過將最高為置 1 來識別中文字元。而 UTF-8 編碼則是用以解決國際上字元的一種多位元組編碼,它對英文使用8位(即一個位元組),中文使用 24 位(三個位元組)來編碼。對於英文字元較多的檔案則用 UTF-8 節省空間。
綜上,由於 UTF-8 是國際性字元編碼使用更廣泛、支援世界上所有國家的字元、是網際網路協議必須支援的編碼,並且節省空間,因此在非特殊情況下優先選用 UTF-8 編碼。
使用 UTF-8 而不是用 GBK 主要有以下幾點原因:
1、UTF-8 比 GBK 使用更廣泛
UTF-8 自 1993 年在聖地牙哥舉行的 USENIX 會議已廣泛應用於各種作業系統中,無論是我們現在用 PC 、移動裝置以及伺服器預設都使用的是 UTF-8 編碼,UTF-8 已經成為一種廣泛使用的國際標準。而反觀 GBK 編碼不僅僅釋出的時間要晚「1995 年釋出」,大多數時候僅僅是在國內或華語區使用。
上圖是谷歌所記錄的2001年至2012年主要編碼的使用情況[1],UTF-8在2008年超過了所有其他資料,2012年使用率接近50%
2、UTF-8 支援的語言更多
UTF-8 支援世界上所有國家的字元,而 BGK 僅僅對中文的支援不較好,對其他國家語言的支援可以說是無。
3、對網際網路的支援
網際網路工程工作小組(IETF)要求所有網際網路協議都必須支援 UTF-8 編碼,這就造成所有與網際網路相關的相關的軟體全部都必須支援 UTF-8,而我們目前又處於網際網路時代,任何人、任何軟體、任何檔案都需要透過網際網路來傳播,那麼使用 UTF-8 就順理成章了,當 UTF-8 編碼必須使用而又能夠滿足要求的情況下,我想沒有人會 GBK 重新生成一遍了把。
4、儲存空間
GBK 編碼使用定長的 2 位元組來儲存中文,使用單位元組和雙位元組兩種方式來表示 ACSII ,最終透過將最高為置 1 來識別中文字元。而 UTF-8 編碼則是用以解決國際上字元的一種多位元組編碼,它對英文使用8位(即一個位元組),中文使用 24 位(三個位元組)來編碼。對於英文字元較多的檔案則用 UTF-8 節省空間。
綜上,由於 UTF-8 是國際性字元編碼使用更廣泛、支援世界上所有國家的字元、是網際網路協議必須支援的編碼,並且節省空間,因此在非特殊情況下優先選用 UTF-8 編碼。