回覆列表
  • 1 # 木有暱稱123木頭人

    1. ASCII和Ansi編碼

    字元內碼(charcter code)指的是用來代表字元的內碼.讀者在輸入和儲存文件時都要使用內碼,內碼分為 單位元組內碼 -- Single-Byte character sets(SBCS),可以支援256個字元編碼.

    雙位元組內碼 -- Double-Byte character sets)(DBCS),可以支援65000個字元編碼.前者即為ASCII編碼,後者對應ANSI.至於簡體中文編碼GB2312,實際上它是ANSI的一個內碼表936

    2.Unicode符號集

    正如上一節所說,世界上存在著多種編碼方式,同一個二進位制數字可以被解釋成不同的符號。因此,要想開啟一個文字檔案,就必須知道它的編碼方式,否則用錯誤的編碼方式解讀,就會出現亂碼。為什麼電子郵件常常出現亂碼?就是因為發信人和收信人使用的編碼方式不一樣。而Unicode就是這樣一種編碼:它包含了世界上所有的符號,並且每一個符號都是獨一無二的。比如,U+0639表示阿拉伯字母Ain,U+0041表示英語的大寫字母A,U+4E25表示漢字“嚴”。具體的符號對應表,可以查詢unicode.org,或者專門的漢字對應表 。很多人都說Unicode編碼,但其實Unicode是一個符號集(世界上所有符號的符號集),而不是一種新的編碼方式。

    但是正因為Unicode包含了所有的字元,而有些國家的字元用一個位元組便可以表示,而有些國家的字元要用多個位元組才能表示出來。即產生了兩個問題:第一,如果有兩個位元組的資料,那計算機怎麼知道這兩個位元組是表示一個漢字呢?還是表示兩個英文字母呢?第二,因為不同字元需要的儲存長度不一樣,那麼如果Unicode規定用2個位元組儲存字元,那麼英文字元儲存時前面1個位元組都是0,這就大大浪費了儲存空間。

    上面兩個問題造成的結果是:1)出現了unicode的多種儲存方式,也就是說有許多種不同的二進位制格式,可以用來表示unicode。2)unicode在很長一段時間內無法推廣,直到網際網路的出現。

    3.UTF-16

    說到 UTF 必須要提到 Unicode(Universal Code 統一碼),ISO 試圖想建立一個全新的超語言字典,世界上所有的語言都可以透過這本字典來相互翻譯。可想而知這個字典是多麼的複雜,關於 Unicode 的詳細規範可以參考相應文件。Unicode 是 Java 和 XML 的基礎,下面詳細介紹

    Unicode 在計算機中的儲存形式。

    UTF-16 具體定義了 Unicode 字元在計算機中存取方法。

    UTF-16 用兩個位元組來表示 Unicode 轉化格式,這個是定長的表示方法,不論什麼字元都可以用兩個位元組表示,兩個位元組是 16 個 bit,所以叫 UTF-16。UTF-16 表示字元非常方便,每兩個位元組表示一個字元,這個在字串操作時就大大簡化了操作,這也是 Java 以 UTF-16 作為記憶體的字元儲存格式的一個很重要的原因。

    4.UTF-8

    UTF-16 統一採用兩個位元組表示一個字元,雖然在表示上非常簡單方便,但是也有其缺點,有很大一部分字元用一個位元組就可以表示的現在要兩個位元組表示,儲存空間放大了一倍,在現在的網路頻寬還非常有限的今天,這樣會增大網路傳輸的流量,而且也沒必要。而 UTF-8 採用了一種變長技術,每個編碼區域有不同的字碼長度。不同型別的字元可以是由 1~4 個位元組組成。

    UTF-8 有以下編碼規則:

    如果一個位元組,最高位(第 8 位)為 0,表示這是一個ASCII 字元(00 - 7F)。可見,所有 ASCII 編碼已經是UTF-8 了。如果一個位元組,以 11 開頭,連續的 1 的個數暗示這個字元的位元組數,例如:110xxxxx 代表它是雙位元組 UTF-8 字元的首位元組。

    5.GBK/GB2312/GB18030

    GBK和GB2312都是針對簡體字的編碼,只是GB2312只支援六千多個漢字的編碼,而GBK支援1萬多個漢字編碼。而GB18030是用於繁體字的編碼。漢字儲存時都使用兩個位元組來儲存。

  • 中秋節和大豐收的關聯?
  • 腦梗高血壓糖尿病合併適合爬山嗎?