機器學習時資料量太大，不能一次性裝進記憶體該怎麼辦？

首頁>Club>譖璨TDiz66702021-04-27 13:51

機器學習時資料量太大，不能一次性裝進記憶體該怎麼辦？

8

回覆列表

1 # 煮碼

在當前海量資料的場景下，在做資料分析的過程中經常會遇到資料過大無法裝入記憶體的情況，這種情況提供一些簡單的處理思路：

（1）壓縮資料量。提前對資料進行預處理，將每條樣本使用編碼進行壓縮儲存（結合hash還可進一步減少記憶體佔用），隨後的分析過程中直接讀取壓縮檔案再逐個還原並處理即可，這樣可以使得讀入記憶體的資料量變小，減少記憶體佔用。
（2）採用大資料計算框架。如果資料量太大（百G或者T級別），壓縮可能已經不是較好的解決方案了（處理速度過慢），這時候可以採取hadoop等框架，利用map-reduce的計算模型呼叫大量計算能力進行處理（如果你沒有大量計算力且資料非涉密，可以考慮各大雲服務廠商提供的計算能力），現在的計算框架已經支援了多種語言來實現mr計算模型，使用起來也是十分的方便。

2 # 深度學習筆記

資料分塊：通用做法是將訓練資料分成大小相等的batch，根據視訊記憶體大小調整batch size，剃度的更新也是每個batch size更新一次。
資料壓縮：像tensorflow就可以選擇將資料製作為tfrecord格式，一種二進位制格式，資料處理起來更快。

∧ 中秋節和大豐收的關聯？

∨ 怎麼醃製酸甜辣口的牛肉串？

熱門排行