回覆列表
-
1 # 煮碼
-
2 # 深度學習筆記
資料分塊:通用做法是將訓練資料分成大小相等的batch,根據視訊記憶體大小調整batch size,剃度的更新也是每個batch size更新一次。
資料壓縮:像tensorflow就可以選擇將資料製作為tfrecord格式,一種二進位制格式,資料處理起來更快。
資料分塊:通用做法是將訓練資料分成大小相等的batch,根據視訊記憶體大小調整batch size,剃度的更新也是每個batch size更新一次。
資料壓縮:像tensorflow就可以選擇將資料製作為tfrecord格式,一種二進位制格式,資料處理起來更快。
在當前海量資料的場景下,在做資料分析的過程中經常會遇到資料過大無法裝入記憶體的情況,這種情況提供一些簡單的處理思路:
(1)壓縮資料量。提前對資料進行預處理,將每條樣本使用編碼進行壓縮儲存(結合hash還可進一步減少記憶體佔用),隨後的分析過程中直接讀取壓縮檔案再逐個還原並處理即可,這樣可以使得讀入記憶體的資料量變小,減少記憶體佔用。
(2)採用大資料計算框架。如果資料量太大(百G或者T級別),壓縮可能已經不是較好的解決方案了(處理速度過慢),這時候可以採取hadoop等框架,利用map-reduce的計算模型呼叫大量計算能力進行處理(如果你沒有大量計算力且資料非涉密,可以考慮各大雲服務廠商提供的計算能力),現在的計算框架已經支援了多種語言來實現mr計算模型,使用起來也是十分的方便。