話題：[Hadoop]最新消息

首頁> 話題>Hadoop

資料湖是什麼湖？

資料作為一項重要資產，已經成為企業的共識，為了更好地儲存資料、挖掘資料，企業需要：·一個超級大的儲存…

2020-10-6 128

hadoop中常用的資料壓縮演算法？

…

2020-5-29 68 2

Hadoop3.x入門：完全分散式Hadoop叢集安裝部署

一、概述上篇文章我們寫了Hadoop3.1.1的原始碼編譯，這裡我們將編譯的原始碼進行部署，作為我後面遠端程式碼除…

2020-3-28 118

「喵咪大資料」Hbase搭建和基本使用

說完了Hive我們接著來看另外一個建立在Hadoop基礎上的儲存引擎HBase,HBase以記憶體作為快取資料落地到HDFS的Key-Value…

2020-3-1 53

0747-5.16.2-YARN日誌聚合目錄說明

文件編寫目的日誌聚合是YARN提供的日誌集中化管理功能，它能將執行完成的Container任務日誌上傳到HDFS上，從而減…

2020-2-23 92

Apache Hadoop程式碼品質：生產VS測試

在本文中，我們將介紹PVS-Studio靜態分析器對ApacheHadoop程式碼庫的觀察結果。為了獲得高品質的生產程式碼，僅確…

2020-1-14 322

網際網路八大技術崗位分析：前端+後端+移動+測試+大資料+管理等等

網際網路史上最全技術崗位詳解，包括：前端研發、後端研發、移動端研發、大資料、專案管理、測試、運維、技…

2020-1-3 142

這個“一切皆可資料化”的時代，最需要的是什麼？

來了！來了！大資料的時代真的來了！一分鐘內，微博推特上新發的資料量超過10萬；社交網路“臉譜”的瀏覽量…

2020-1-3 28

初學者的營養餐，大神級的加油站，三分鐘總結Hadoop特性

一.hadoop是什麼Hadoop被公認是一套行業大資料標準開源軟體，在分散式環境下提供了海量資料的處理能力。幾乎所…

2019-12-28 60

偉大創業想法，只差一人程式設計？全網最全的開源軟體了解一下

本文約1600字，精讀耗時因人而異；建議速讀，耗時約2分鐘。人們經常談到創業只差程式設計師，拋開段子手的戲…

2019-12-28 252

Kafka的叢集部署

1概述ApacheKafka是一個分散式高吞吐量的流訊息系統，Kafka建立在ZooKeeper同步服務之上。它與ApacheStorm和Spark完美整合…

2019-12-25 182

阿里大佬十年終成大資料技術體系詳解：原理、架構與實踐

這是一部系統、深度講解大資料技術棧的著作，從資料收集、資料儲存、資源管理與服務協調、計算引擎、資料分…

2019-11-30 268 1

Hadoop乾貨丨阿里高階大資料工程師帶你深入了解MapReduce、 HDFS

Hadoop被公認是一套行業大資料標準開源軟體，在分散式環境下提供了海量資料的處理能力。幾乎所有主流廠商都圍…

2019-11-27 323

ETL排程系統及常見工具對比：Azkaban、Oozie、數棲雲

最近遇到了很多正在研究ETL及其工具的同學向我們抱怨：同樣都在用Kettle，起點明明沒差異，但為什麼別人ETL做的…

2019-11-21 343

大資料不是Hadoop，基礎軟體中國產化替代加速

以前，在人們的心目中，大資料就是Hadoop。近年來，大資料產業飛速發展，應用層和基礎層軟體不斷進步，但是實…

2019-11-5 586

Java程式設計師那麼多，如何才能脫穎而出？

JAVA的精密，強大，擁有其它語言不可替代的效能和可維護性，早已經是成為最受歡迎的程式語言之一，很多人想…

2019-11-1 74

從0到1設計一個MQ訊息佇列

訊息佇列作為系統解耦，流量控制的利器，是分散式系統核心元件之一。了解訊息佇列背後的實現是非常重要的。…

2019-10-21 529

大資料？人工智慧？揭祕銀行資料倉庫發展趨勢

整個系列的文章從銀行資料倉庫架構，ETL，模型，資料管理以及幾大方面應用介紹了資料倉庫，可以讓大家對銀行…

2019-10-11 146

Spark讀寫壓縮檔案API使用詳解及部署在k8s

最近簡單的研究了一下SparkonK8s，期間遇到了些許問題，在這裡總結一下分享給大家。環境介紹hadoop叢集：部署在…

2019-10-6 96

整合Streamr 與 Apache Spark

實時資料的去中心化是Streamr專案很重要的一部分。在全球資料產量日益增長的背景下，尤其是隨著物聯網的廣泛…

2019-10-5 39

劇多