位元組的理解字通常分為若干個位元組(每個位元組一般是8位)。位元組是指一小組相鄰的二進位制數碼。通常是8位作為一個位元組。它是構成資訊的一個小單位,並作為一個整體來參加操作,比字小,是構成字的單位。位的理解在計算中,底層都是電晶體的開關和關閉狀態,我們把一個表示開關狀態的稱之為位,把八位稱之為一個位元組,也就是一個位元組可以表示(00000000-11111111),也就是0到255。字元實際上還不到128個,按道理7位就夠了,一個說法是程式設計師也比較迷信,認為7是個不吉利的數字,另一種說法,8剛好是2^3地方,更容易計算機去理解。全新的編碼方法隨著網際網路的繼續發展,不同的國家,不同的語言都用著不同的編碼,每當不同的人進行交流,都要先知道對方用的是什麼編碼,這往往就造成了溝通的成本,而且經常因為編碼錯誤造成各種烏龍。國際上就定一了一種全新的編碼方法,全世界所有的字元、文字都有對應的一個編碼,以後,就不需要轉化成不同的編碼了,這便是Unicode編碼。Unicode編碼使用4個位元組來描述一個字元,每個位元組8位,理論上就能表示2^32個不同的字元,全世界的字元都沒這麼多。擴充套件資料:UTF8編碼原先一個英文字元需要1個位元組,一箇中文需要兩個位元組,現在需要4個位元組,相當於儲存變大了。這給網路傳輸、系統儲存都帶來了一定的成本。這個時候,人們覺得壓縮一下,於是提出了UTF8,UTF16這樣的表示方法,UTF8我們最經常使用。對於一個漢字,例如上述學習的學字在Unicode編碼中表示為00000000 00000000 01011011 01100110。很明顯,前面位元組都是0,非常的浪費,最好是能夠把它壓縮起來,又能讓別人知道它原來對應的就是四個位元組。UTF8就是為了解決這個問題,對於原來是雙字元的中文,會變成3個位元組,第一個位元組以1110開頭,後面兩個以10開頭。剩下的16位分攤到這3個位元組當中。圖中便是這個學字如何從Unicode編碼轉成utf8編碼。編碼的歷史1、在Unicode之前,一共存在過3套中文編碼標準。GB2312-80,是中國大陸使用的國家標準,其中一共編碼了6763個常用簡體漢字。2、Big5,是臺灣使用的編碼標準,編碼了臺灣使用的繁體漢字,大概有8千多個。3、HKSCS,是中國香港使用的編碼標準,字型也是繁體,但跟Big5有所不同。這3套編碼標準都採用了兩個擴充套件ASCII的方法,因此,幾套編碼互不相容,而且編碼區間也各有不同。因為其不相容性,在同一個系統中同時顯示GB和Big5基本上是不可能的。後來,由於各方面的原因,國際上又制定了針對中文的統一字符集GBK和GB18030,其中GBK已經在Windows、Linux等多種作業系統中被實現。
位元組的理解字通常分為若干個位元組(每個位元組一般是8位)。位元組是指一小組相鄰的二進位制數碼。通常是8位作為一個位元組。它是構成資訊的一個小單位,並作為一個整體來參加操作,比字小,是構成字的單位。位的理解在計算中,底層都是電晶體的開關和關閉狀態,我們把一個表示開關狀態的稱之為位,把八位稱之為一個位元組,也就是一個位元組可以表示(00000000-11111111),也就是0到255。字元實際上還不到128個,按道理7位就夠了,一個說法是程式設計師也比較迷信,認為7是個不吉利的數字,另一種說法,8剛好是2^3地方,更容易計算機去理解。全新的編碼方法隨著網際網路的繼續發展,不同的國家,不同的語言都用著不同的編碼,每當不同的人進行交流,都要先知道對方用的是什麼編碼,這往往就造成了溝通的成本,而且經常因為編碼錯誤造成各種烏龍。國際上就定一了一種全新的編碼方法,全世界所有的字元、文字都有對應的一個編碼,以後,就不需要轉化成不同的編碼了,這便是Unicode編碼。Unicode編碼使用4個位元組來描述一個字元,每個位元組8位,理論上就能表示2^32個不同的字元,全世界的字元都沒這麼多。擴充套件資料:UTF8編碼原先一個英文字元需要1個位元組,一箇中文需要兩個位元組,現在需要4個位元組,相當於儲存變大了。這給網路傳輸、系統儲存都帶來了一定的成本。這個時候,人們覺得壓縮一下,於是提出了UTF8,UTF16這樣的表示方法,UTF8我們最經常使用。對於一個漢字,例如上述學習的學字在Unicode編碼中表示為00000000 00000000 01011011 01100110。很明顯,前面位元組都是0,非常的浪費,最好是能夠把它壓縮起來,又能讓別人知道它原來對應的就是四個位元組。UTF8就是為了解決這個問題,對於原來是雙字元的中文,會變成3個位元組,第一個位元組以1110開頭,後面兩個以10開頭。剩下的16位分攤到這3個位元組當中。圖中便是這個學字如何從Unicode編碼轉成utf8編碼。編碼的歷史1、在Unicode之前,一共存在過3套中文編碼標準。GB2312-80,是中國大陸使用的國家標準,其中一共編碼了6763個常用簡體漢字。2、Big5,是臺灣使用的編碼標準,編碼了臺灣使用的繁體漢字,大概有8千多個。3、HKSCS,是中國香港使用的編碼標準,字型也是繁體,但跟Big5有所不同。這3套編碼標準都採用了兩個擴充套件ASCII的方法,因此,幾套編碼互不相容,而且編碼區間也各有不同。因為其不相容性,在同一個系統中同時顯示GB和Big5基本上是不可能的。後來,由於各方面的原因,國際上又制定了針對中文的統一字符集GBK和GB18030,其中GBK已經在Windows、Linux等多種作業系統中被實現。