回覆列表
-
1 # 長安財經
-
2 # 聚優技術
第一標準化目前的大資料的這個標準化是非常重要的,就是每一個公司的這個計算標準是不一樣的,這樣的話大資料呢,最後得到的這個答案也是不一樣的。
第二就是所謂的劉恆的資料那麼牛行的資料呢很多,但是呢,大家可以看到這個劉恆的資料呢,透過大資料分析之後可以得到使用者的一些資訊啊,知道使用者的一些取向喜愛的東西,那對於使用者來說呢,其實呢,是不好的,所以說大資料呢,它適合於分析工業商業,但是呢,分析個人的話會產生的個人隱私,所以說大資料的安全這方面的話也是要考慮的。
實際上大資料經過近十來年的發展已經能夠大幅提升資料處理能力及非常複雜場景的處理能力,改變著我們日常生活的方方面面,比如電信賬單,支付,手機銀,電商等等,同時也正因為場景的豐富又不斷產生更大更豐富的資料增量,因此對資料技術的挑戰也很大。現有的技術一般會分為離線計算、實時計算、線上分析來分別選擇技術棧,比如典型hadoop生態(hdfs hbase 解決海量儲存及特定查詢,提高計算能力又提出的MR並行分散式計算模型,進而衍生出了分散式資源排程 yarn mesos等和結構化計算分析數倉,hive 及hiveQL,優先提升資料分析便捷度,降低開發難度.同樣還衍生出了一系列資料工具便於遷移 轉換等,其次實時場景流計算處理框架如 storm 及新一代流計算框架flink,還有成熟生態spark下的近實時處理spark-streaming,為了提升體驗及場景硬需求,OLAP又突出尤為重要去apache kylin,druid,甚至又搜尋引擎衍變的近實時分析ES等,另一方面資料庫也從傳統的結構化關係型資料量,衍生出nosql, newsql等分散式海量處理能力資料庫方案,技術還在不斷演進。
另外隨著使用者的需求增加和認知增長,資料實時性要求不斷提高,無論從先有的技術體系來說都會隨著需求不斷髮展,還會面臨物聯網的超級巨量資料,大資料技術必將迎來超高速發展,但中短期內,仍然不可能透過一種通用技術來形成標準解決方案,分工明細,根據業務場景各取所長組合應用。