前言
話說Java中String是有長度限制的,聽到這裡很多人不禁要問,String還有長度限制?是的有,而且在JVM編譯中還有規範,而且有的家人們在面試的時候也遇到了。
本人就遇到過面試的時候問這個的,而且在之前開發的中也真實地遇到過這個String長度限制的場景(將某固定檔案轉碼成Base64的形式用字串儲存,在執行時需要的時候在轉回來,當時檔案比較大),那這個規範限制到底是怎麼樣的,咱們話不多說先瞜瞜去。
String首先要知道String的長度限制我們就需要知道String是怎麼儲存字串的,String其實是使用的一個char型別的陣列來儲存字串中的字元的。
那麼String既然是陣列儲存那陣列會有長度的限制嗎?是的有限制,但是是在有先提條件下的,我們看看String中返回length的方法。
由此我們看到返回值型別是int型別,Java中定義陣列是可以給陣列指定長度的,當然不指定的話預設會根據陣列元素來指定:
int[] arr1 = new int[10]; // 定義一個長度為10的陣列int[] arr2 = {1,2,3,4,5}; // 那麼此時陣列的長度為5
整數在java中是有限制的,我們透過原始碼來看看int型別對應的包裝類Integer可以看到,其長度最大限制為2^31 -1,那麼說明了陣列的長度是0~2^31-1,那麼計算一下就是(2^31-1 = 2147483647 = 4GB)
看到這我們嘗試透過編碼來驗證一下上述觀點。
以上是我透過定義字面量的形式構造的10萬個字元的字串,編譯之後虛擬機器提示報錯,說我們的字串長度過長,不是說好了可以存21億個嗎?為什麼才10萬個就報錯了呢?
其實這裡涉及到了JVM編譯規範的限制了,其實JVM在編譯時,如果我們將字串定義成了字面量的形式,編譯時JVM是會將其存放在常量池中,這時候JVM對這個常量池儲存String型別做出了限制,接下來我們先看下手冊是如何說的。
常量池中,每個 cp_info 項的格式必須相同,它們都以一個表示 cp_info 型別的單位元組 “tag”項開頭。後面 info[]項的內容 由tag 的型別所決定。
我們可以看到 String型別的表示是 CONSTANT_String ,我們來看下CONSTANT_String具體是如何定義的。
這裡定義的 u2 string_index 表示的是常量池的有效索引,其型別是CONSTANT_Utf8_info 結構體表示的,這裡我們需要注意的是其中定義的length我們看下面這張圖。歷史文章:200期階段彙總
在class檔案中u2表示的是無符號數佔2個位元組單位,我們知道1個位元組佔8位,2個位元組就是16位 ,那麼2個位元組能表示的範圍就是2^16- 1 = 65535 。範中class檔案格式對u1、u2的定義的解釋做了一下摘要:
這裡對java虛擬機器規摘要部分
1、class檔案中檔案內容型別解釋定義一組私有資料型別來表示 Class 檔案的內容,它們包括 u1,u2 和 u4,分別代 表了 1、2 和 4 個位元組的無符號數。
每個 Class 檔案都是由 8 位元組為單位的位元組流組成,所有的 16 位、32 位和 64 位長度的數 據將被構造成 2 個、4 個和 8 個 8 位元組單位來表示。
2、程式異常處理的有效範圍解釋start_pc 和 end_pc 兩項的值表明了異常處理器在 code[]陣列中的有效範圍。
start_pc 必須是對當前 code[]陣列中某一指令的操作碼的有效索引,end_pc 要 麼是對當前 code[]陣列中某一指令的操作碼的有效索引,要麼等於 code_length 的值,即當前 code[]陣列的長度。start_pc 的值必須比 end_pc 小。
當程式計數器在範圍[start_pc, end_pc)內時,異常處理器就將生效。即設 x 為 異常控制代碼的有效範圍內的值,x 滿足:start_pc ≤ x < end_pc。
實際上,end_pc 值本身不屬於異常處理器的有效範圍這點屬於 Java 虛擬機器歷史上 的一個設計缺陷:如果 Java 虛擬機器中的一個方法的 code 屬性的長度剛好是 65535 個位元組,並且以一個 1 個位元組長度的指令結束,那麼這條指令將不能被異常處理器 所處理。
不過編譯器可以透過限制任何方法、例項初始化方法或類初始化方法的code[]陣列最大長度為 65534,這樣可以間接彌補這個 BUG。
注意:這裡對個人認為比較重要的點做了標記,首先第一個加粗說白了就是說陣列有效範圍就是【0-65565】但是第二個加粗的地方又解釋了,因為虛擬機器還需要1個位元組的指令作為結束,所以其實真正的有效範圍是【0-65564】,這裡要注意這裡的範圍僅限編譯時期,如果你是執行時拼接的字串是可以超出這個範圍的。
接下來我們透過一個小實驗來測試一下我們構建一個長度為65534的字串,看看是否就能編譯透過。歷史文章:200期階段彙總
首先透過一個for迴圈構建65534長度的字串,在控制檯列印後,我們透過自己度孃的一個線上字元統計工具計算了一下確實是65534個字元,如下:
然後我們將字元複製後以定義字面量的形式賦值給字串,可以看到我們選擇這些字元右下角顯示的確實是65534,於是乎運行了一波,果然成功了。
看到這裡我們來總結一下:
問:字串有長度限制嗎?是多少?
答:首先字串的內容是由一個字元陣列 char[] 來儲存的,由於陣列的長度及索引是整數,且String類中返回字串長度的方法length() 的返回值也是int ,所以透過檢視java原始碼中的類Integer我們可以看到Integer的最大範圍是2^31 -1,由於陣列是從0開始的,所以陣列的最大長度可以使【0~2^31】透過計算是大概4GB。
但是透過翻閱java虛擬機器手冊對class檔案格式的定義以及常量池中對String型別的結構體定義我們可以知道對於索引定義了u2,就是無符號佔2個位元組,2個位元組可以表示的最大範圍是2^16 -1 = 65535。
其實是65535,但是由於JVM需要1個位元組表示結束指令,所以這個範圍就為65534了。超出這個範圍在編譯時期是會報錯的,但是執行時拼接或者賦值的話範圍是在整形的最大範圍。
END