回覆列表
  • 1 # IT人劉俊明

    隨著大資料逐漸開始落地應用,大資料技術的各種指標也逐漸開始引起更多的關注,尤其是對於傳統行業來說,如何有效利用大資料技術來輔助創新和提升運營效率也是必須要思考的問題。

    在實際的生產環境下,要想有效利用大資料首先要對大資料技術的各項技術指標有一個整體的認知能力,其中就涉及到如何來界定準、細、全、穩和快,這些指標對於大資料實現資料價值化也有比較直接的意義。

    所謂的“準”在大資料中涉及到多個元素,涉及到資料的關聯性描述、資料緯度、語義分析、演算法設計等多個內容。簡單的說,資料量越大、資料緯度越高、問題描述越清晰則準確率也會更高,當然大資料是否“準”與演算法設計也有非常直接的關係。

    “細”和“全”分別代表大資料的深度和廣度,“細”主要體現在對資料探勘的深度上能否滿足應用的需求,能否透過資料探勘發現新的價值,深度學習目前在“細”的方面正在不斷向前推進,“細”對於算力的要求是比較高的。要想做到“全”,首先應該重點從資料採集入手,而採集資料與物聯網建設也有比較直接的關係。

    “穩”和“快”是衡量大資料可用性的重要指標,“穩”不僅代表穩定的系統執行能力,更代表了結果的一致性表現,而“快”的定義對於整個系統的執行效率有較為直接的影響。要想做到穩,首先要做到不同型別資料的不同處理方式,而要想做到快則涉及到計算方式,比如在大資料平臺的採用方面,Spark在很多情況下要明顯快於Hadoop。

    最後,大資料系統能否實現準、細、全、穩和快,與多方面因素都有關係,判斷的具體方式除了採用資料集進行驗證之外,另一個辦法就是進行落地應用實踐,這個過程也能夠不斷完善大資料平臺的設計。

  • 中秋節和大豐收的關聯?
  • 學java有必要把jvm弄的特別透徹嗎?