我剛好在一家網際網路公司, 負責公司的大資料團隊,簡單的說一下我們的工作內容吧.
我們的資料團隊的主要工作內容圍繞以下幾個方面開展:
資料採集
巧婦難為無米之炊,資料中心的第一步當然是採集資料了,我們的原始資料有各種各樣的渠道,而且橫跨了不同的機房,資料格式繁雜且不規範,比如檔案格式,資料庫,syslog,tcp,nginx日誌,xml,httpservice介面資料等等,所以這一步我們的主要工作是ETL,對資料進行規範,統一資料格式.技術上我們最開始採用了開源的flume框架,後來我們發現這個東東不容易管理/監控,而且還會丟資料.所以我們借鑑了它的思想自己實現了一個採集系統,大致思路如下:
資料儲存
資料儲存方面我們主要以下幾塊: mysql + hbase +solr + hive
資料計算
我們的業務中資料計算有兩大類,一類是業務部門臨時拉取的一些資料單需求,另一方面是沉澱下來的固定需求,這塊一般我們會做成job的方式定時計算.
資料展現
資料展現主要指的是資料的視覺化,我們基於birt做了一套報表系統,包括了報表資源管理,資料來源管理,許可權管理等.另外在一個專案中,我們也才用了echart圖表,實現資料的可互動.
資料應用
其他幾點雜項
第一次這麼認真的答題,寫得不好請見諒哈~~
我剛好在一家網際網路公司, 負責公司的大資料團隊,簡單的說一下我們的工作內容吧.
我們的資料團隊的主要工作內容圍繞以下幾個方面開展:
資料採集
巧婦難為無米之炊,資料中心的第一步當然是採集資料了,我們的原始資料有各種各樣的渠道,而且橫跨了不同的機房,資料格式繁雜且不規範,比如檔案格式,資料庫,syslog,tcp,nginx日誌,xml,httpservice介面資料等等,所以這一步我們的主要工作是ETL,對資料進行規範,統一資料格式.技術上我們最開始採用了開源的flume框架,後來我們發現這個東東不容易管理/監控,而且還會丟資料.所以我們借鑑了它的思想自己實現了一個採集系統,大致思路如下:
資料儲存
資料儲存方面我們主要以下幾塊: mysql + hbase +solr + hive
資料計算
我們的業務中資料計算有兩大類,一類是業務部門臨時拉取的一些資料單需求,另一方面是沉澱下來的固定需求,這塊一般我們會做成job的方式定時計算.
資料展現
資料展現主要指的是資料的視覺化,我們基於birt做了一套報表系統,包括了報表資源管理,資料來源管理,許可權管理等.另外在一個專案中,我們也才用了echart圖表,實現資料的可互動.
資料應用
廣告系統:財務系統:產品運營:使用者畫像:其他幾點雜項
資料平臺的工作不可能一蹴而就,它是一個演化的過程.我們的人員匹配: 基礎團隊 : 環境搭建/資料採集/日常維護業務DBA: 基於平臺開發業務需求/報表開發/資料單拉取資料平臺的建設需要了解公司的業務,不能閉門造車,否則就是空中樓閣.一定要建立資料標準,包括資料格式規範和資料指標的定義,比如什麼是日活躍,什麼是留存等;第一次這麼認真的答題,寫得不好請見諒哈~~