Unicode碼擴充套件自ASCII字元集。在嚴格的ASCII中,每個字元用7位元表示,或者電腦上普遍使用的每字元有8位元寬;而Unicode使用全16位元字元集。這使得Unicode能夠表示世界上所有的書寫語言中可能用於電腦通訊的字元、象形文字和其他符號。Unicode最初打算作為ASCII的補充,可能的話,最終將代替它。考慮到ASCII是電腦中最具支配地位的標準,所以這的確是一個很高的目標。
Unicode影響到了電腦工業的每個部分,但也許會對作業系統和程式設計語言的影響最大。從這方面來看,我們已經上路了。WindowsNT從底層支援Unicode。
目前計算機中用得最廣泛的字符集及其編碼,是由美國國家標準局(ANSI)制定的ASCII碼(AmericanStandardCodeforInformationInterchange,美國標準資訊交換碼),它已被國際標準化組織(ISO)定為國際標準,稱為ISO646標準。適用於所有拉丁文字字母,ASCII碼有7位碼和8位碼兩種形式。
Unicode只有一個字符集,中、日、韓的三種文字佔用了Unicode中0x3000到0x9FFF的部分Unicode目前普遍採用的是UCS-2,它用兩個位元組來編碼一個字元,比如漢字"經"的編碼是0x7ECF,注意字元編碼一般用十六進位制來表示,為了與十進位制區分,十六進位制以0x開頭,0x7ECF轉換成十進位制就是32463,UCS-2用兩個位元組來編碼字元,兩個位元組就是16位二進位制,2的16次方等於65536,所以UCS-2最多能編碼65536個字元。編碼從0到127的字元與ASCII編碼的字元一樣,比如字母"a"的Unicode編碼是0x0061,十進位制是97,而"a"的ASCII編碼是0x61,十進位制也是97,對於漢字的編碼,事實上Unicode對漢字支援不怎麼好,這也是沒辦法的,簡體和繁體總共有六七萬個漢字,而UCS-2最多能表示65536個,才六萬多個,所以Unicode只能排除一些幾乎不用的漢字,好在常用的簡體漢字也不過七千多個,為了能表示所有漢字,Unicode也有UCS-4規範,就是用4個位元組來編碼字元
Unicode碼擴充套件自ASCII字元集。在嚴格的ASCII中,每個字元用7位元表示,或者電腦上普遍使用的每字元有8位元寬;而Unicode使用全16位元字元集。這使得Unicode能夠表示世界上所有的書寫語言中可能用於電腦通訊的字元、象形文字和其他符號。Unicode最初打算作為ASCII的補充,可能的話,最終將代替它。考慮到ASCII是電腦中最具支配地位的標準,所以這的確是一個很高的目標。
Unicode影響到了電腦工業的每個部分,但也許會對作業系統和程式設計語言的影響最大。從這方面來看,我們已經上路了。WindowsNT從底層支援Unicode。
目前計算機中用得最廣泛的字符集及其編碼,是由美國國家標準局(ANSI)制定的ASCII碼(AmericanStandardCodeforInformationInterchange,美國標準資訊交換碼),它已被國際標準化組織(ISO)定為國際標準,稱為ISO646標準。適用於所有拉丁文字字母,ASCII碼有7位碼和8位碼兩種形式。
Unicode只有一個字符集,中、日、韓的三種文字佔用了Unicode中0x3000到0x9FFF的部分Unicode目前普遍採用的是UCS-2,它用兩個位元組來編碼一個字元,比如漢字"經"的編碼是0x7ECF,注意字元編碼一般用十六進位制來表示,為了與十進位制區分,十六進位制以0x開頭,0x7ECF轉換成十進位制就是32463,UCS-2用兩個位元組來編碼字元,兩個位元組就是16位二進位制,2的16次方等於65536,所以UCS-2最多能編碼65536個字元。編碼從0到127的字元與ASCII編碼的字元一樣,比如字母"a"的Unicode編碼是0x0061,十進位制是97,而"a"的ASCII編碼是0x61,十進位制也是97,對於漢字的編碼,事實上Unicode對漢字支援不怎麼好,這也是沒辦法的,簡體和繁體總共有六七萬個漢字,而UCS-2最多能表示65536個,才六萬多個,所以Unicode只能排除一些幾乎不用的漢字,好在常用的簡體漢字也不過七千多個,為了能表示所有漢字,Unicode也有UCS-4規範,就是用4個位元組來編碼字元