計算機發明後,為了在計算機中表示字元,人們制定了一種編碼,叫ASCII碼。ASCII碼由一個位元組中的7位(bit)表示,範圍是0x00 - 0x7F 共128個字元。
後來他們突然發現,如果需要按照表格方式列印這些字元的時候,缺少了“製表符”。於是又擴充套件了ASCII的定義,使用一個位元組的全部8位(bit)來表示字元了,這就叫擴充套件ASCII碼。範圍是0x00 - 0xFF 共256個字元。
華人利用連續2個擴充套件ASCII碼的擴充套件區域(0xA0以後)來表示一個漢字,該方法的標準叫GB-2312。後來,日文、韓文、阿拉伯文、臺灣繁體(BIG-5)......都使用類似的方法擴充套件了本地字符集的定義,現在統一稱為 MBCS 字符集(多位元組字符集)。這個方法是有缺陷的,因為各個國家地區定義的字符集有交集,因此使用GB-2312的軟體,就不能在BIG-5的環境下執行(顯示亂碼),反之亦然。
為了把全世界人民所有的所有的文字元號都統一進行編碼,於是制定了UNICODE標準字符集。UNICODE 使用2個位元組表示一個字元(unsigned shor int、WCHAR、_wchar_t、OLECHAR)。這下終於好啦,全世界任何一個地區的軟體,可以不用修改地就能在另一個地區運行了。雖然我用 IE 瀏覽日本網站,顯示出我不認識的日文文字,但至少不會是亂碼了。UNICODE 的範圍是 0x0000 - 0xFFFF 共6萬多個字元,其中光漢字就佔用了4萬多個
計算機發明後,為了在計算機中表示字元,人們制定了一種編碼,叫ASCII碼。ASCII碼由一個位元組中的7位(bit)表示,範圍是0x00 - 0x7F 共128個字元。
後來他們突然發現,如果需要按照表格方式列印這些字元的時候,缺少了“製表符”。於是又擴充套件了ASCII的定義,使用一個位元組的全部8位(bit)來表示字元了,這就叫擴充套件ASCII碼。範圍是0x00 - 0xFF 共256個字元。
華人利用連續2個擴充套件ASCII碼的擴充套件區域(0xA0以後)來表示一個漢字,該方法的標準叫GB-2312。後來,日文、韓文、阿拉伯文、臺灣繁體(BIG-5)......都使用類似的方法擴充套件了本地字符集的定義,現在統一稱為 MBCS 字符集(多位元組字符集)。這個方法是有缺陷的,因為各個國家地區定義的字符集有交集,因此使用GB-2312的軟體,就不能在BIG-5的環境下執行(顯示亂碼),反之亦然。
為了把全世界人民所有的所有的文字元號都統一進行編碼,於是制定了UNICODE標準字符集。UNICODE 使用2個位元組表示一個字元(unsigned shor int、WCHAR、_wchar_t、OLECHAR)。這下終於好啦,全世界任何一個地區的軟體,可以不用修改地就能在另一個地區運行了。雖然我用 IE 瀏覽日本網站,顯示出我不認識的日文文字,但至少不會是亂碼了。UNICODE 的範圍是 0x0000 - 0xFFFF 共6萬多個字元,其中光漢字就佔用了4萬多個