回覆列表
  • 1 # 使用者1961530562002

    我剛好在一家網際網路公司, 負責公司的大資料團隊,簡單的說一下我們的工作內容吧.

    我們的資料團隊的主要工作內容圍繞以下幾個方面開展:

    資料採集

    巧婦難為無米之炊,資料中心的第一步當然是採集資料了,我們的原始資料有各種各樣的渠道,而且橫跨了不同的機房,資料格式繁雜且不規範,比如檔案格式,資料庫,syslog,tcp,nginx日誌,xml,httpservice介面資料等等,所以這一步我們的主要工作是ETL,對資料進行規範,統一資料格式.技術上我們最開始採用了開源的flume框架,後來我們發現這個東東不容易管理/監控,而且還會丟資料.所以我們借鑑了它的思想自己實現了一個採集系統,大致思路如下:

    資料儲存

    資料儲存方面我們主要以下幾塊: mysql + hbase +solr + hive

    資料計算

    我們的業務中資料計算有兩大類,一類是業務部門臨時拉取的一些資料單需求,另一方面是沉澱下來的固定需求,這塊一般我們會做成job的方式定時計算.

    資料展現

    資料展現主要指的是資料的視覺化,我們基於birt做了一套報表系統,包括了報表資源管理,資料來源管理,許可權管理等.另外在一個專案中,我們也才用了echart圖表,實現資料的可互動.

    資料應用

    廣告系統:財務系統:產品運營:使用者畫像:

    其他幾點雜項

    資料平臺的工作不可能一蹴而就,它是一個演化的過程.我們的人員匹配: 基礎團隊 : 環境搭建/資料採集/日常維護業務DBA: 基於平臺開發業務需求/報表開發/資料單拉取資料平臺的建設需要了解公司的業務,不能閉門造車,否則就是空中樓閣.一定要建立資料標準,包括資料格式規範和資料指標的定義,比如什麼是日活躍,什麼是留存等;

    第一次這麼認真的答題,寫得不好請見諒哈~~

  • 中秋節和大豐收的關聯?
  • 覺的已經走過人生,最灰暗的路是什麼時候?