一個漢字相當於幾個位元組？

首頁>Club>2021-02-02 17:39

一個漢字相當於幾個位元組？

回覆列表

1 # yfxvhgf

位元組的理解字通常分為若干個位元組(每個位元組一般是8位)。位元組是指一小組相鄰的二進位制數碼。通常是8位作為一個位元組。它是構成資訊的一個小單位，並作為一個整體來參加操作，比字小，是構成字的單位。位的理解在計算中，底層都是電晶體的開關和關閉狀態，我們把一個表示開關狀態的稱之為位，把八位稱之為一個位元組，也就是一個位元組可以表示（00000000-11111111），也就是0到255。字元實際上還不到128個，按道理7位就夠了，一個說法是程式設計師也比較迷信，認為7是個不吉利的數字，另一種說法，8剛好是2^3地方，更容易計算機去理解。全新的編碼方法隨著網際網路的繼續發展，不同的國家，不同的語言都用著不同的編碼，每當不同的人進行交流，都要先知道對方用的是什麼編碼，這往往就造成了溝通的成本，而且經常因為編碼錯誤造成各種烏龍。國際上就定一了一種全新的編碼方法，全世界所有的字元、文字都有對應的一個編碼，以後，就不需要轉化成不同的編碼了，這便是Unicode編碼。Unicode編碼使用4個位元組來描述一個字元，每個位元組8位，理論上就能表示2^32個不同的字元，全世界的字元都沒這麼多。擴充套件資料：UTF8編碼原先一個英文字元需要1個位元組，一箇中文需要兩個位元組，現在需要4個位元組，相當於儲存變大了。這給網路傳輸、系統儲存都帶來了一定的成本。這個時候，人們覺得壓縮一下，於是提出了UTF8,UTF16這樣的表示方法，UTF8我們最經常使用。對於一個漢字，例如上述學習的學字在Unicode編碼中表示為00000000 00000000 01011011 01100110。很明顯，前面位元組都是0，非常的浪費，最好是能夠把它壓縮起來，又能讓別人知道它原來對應的就是四個位元組。UTF8就是為了解決這個問題，對於原來是雙字元的中文，會變成3個位元組，第一個位元組以1110開頭，後面兩個以10開頭。剩下的16位分攤到這3個位元組當中。圖中便是這個學字如何從Unicode編碼轉成utf8編碼。編碼的歷史1、在Unicode之前，一共存在過3套中文編碼標準。GB2312-80，是中國大陸使用的國家標準，其中一共編碼了6763個常用簡體漢字。2、Big5，是臺灣使用的編碼標準，編碼了臺灣使用的繁體漢字，大概有8千多個。3、HKSCS，是中國香港使用的編碼標準，字型也是繁體，但跟Big5有所不同。這3套編碼標準都採用了兩個擴充套件ASCII的方法，因此，幾套編碼互不相容，而且編碼區間也各有不同。因為其不相容性，在同一個系統中同時顯示GB和Big5基本上是不可能的。後來，由於各方面的原因，國際上又制定了針對中文的統一字符集GBK和GB18030，其中GBK已經在Windows、Linux等多種作業系統中被實現。

∧ 中秋節和大豐收的關聯？

∨ 女人養宮每天吃什麼好？

熱門排行

劇多

一個漢字相當於幾個位元組？