全文共2152字,預計學習時長6分鐘
“這一刻你正在應對什麼挑戰?”這位前研究學者回應道:“嗯,我好像應聘成為首席資料科學家了,在一個沒有資料的公司裡。”
什麼是資料工程?
如果資料科學是讓資料變得有用的一門學科,那麼可以想像資料工程是將資料變得能用的一門學問。資料工程師們是提供幕後基礎設施支援的英雄們,這些基礎設施讓機器能夠記錄工作,讓海量的資料與資料科學工具包相容儲存。
與資料科學家不同,資料工程師們更傾向於不花費那麼多的時間研究資料。與此相反,他們研究並處理那些承載資料的基礎設施。資料科學家是資料的管理者,而資料工程師們是對資料管道進行管理的人。
資料工程有三種主要工作方式:
· 使資料大規模地儲存(資料庫)和傳輸(資料管道)。
· 維護那些支援企業運作的資料流。
· 為資料科學提供資料集。
如果沒有資料,你無法研究資料科學。如果你被一個沒有資料和資料工程的機構聘用為資料科學總監,猜猜誰將會成為一名資料工程師?
資料工程的艱難之處在哪?
食品進購是件簡單的事,如果你只是煮你一個人的晚餐還好說,但規模擴大會將這件瑣事變得複雜無比——你該如何獲得,儲存和處理20噸的冰淇淋,且讓它一點都沒有融化?
相似地,“資料工程”在你為學校專案下載一個小的電子資料表時是相當容易的,但當你在處理千萬億位元組規模的檔案時就會讓人頭暈眼花。規模使其本身成為一個複雜的工程學科。
不幸的是,瞭解這兩個學科其中之一併不代表著你就對另一個的知識有所瞭解。
如果你有了跑去學習兩個學科的衝動,你可能成為了那個(令人倍有壓力且適得其反的)信念的受害者——資料專家們必須對資料的所有事項都有所瞭解。資料宇宙正在飛速地擴充套件著,現在是時候讓人們意識到這個領域有多麼廣闊了,在資料領域的某個領域工作並不自動要求人們去成為全知全能的專家。
講這麼多就是為了說明,這門學科包含了太多的知識,以至於最有決心的天才也無法全部理解和掌握。與其希望資料工程師們全知全能,不如問問彼此(也問問自己),“你是哪一類人?”讓我們齊心協力一起工作,而不是在這條路上孤軍奮鬥。
但這不是一個絕佳的學習機會嗎?可能是。這取決於你對已知的學問有多大的感情。資料工程不同於資料科學,所以如果你是個未經受過資料工程訓練的資料科學家,那麼你得從零開始。
這可能正是你所尋求的樂趣——只要你帶著開放的眼光一路前行。建立你的資料工程團隊可能要花費好幾年的時間。當然,有理由去學習新事物是件好事,但相同的是,你的資料科學“肌肉”可能會因此萎縮。
作為一個類比,想象你是一位能流利使用英日兩語的譯者。你被提供了一個叫做“譯者”的職位。當你來到崗位工作時,你發現你被聘來進行將普通話譯為斯瓦希里語的工作,而這兩種語言你都不會說。抓住機會成為一個四語達人可能是一件振奮人心且有益的事情,但請從現實的角度來思考你該如何有效地利用初級培訓。
換句話來說,如果一個公司沒有任何的資料或者資料工程師,那麼接受首席資料科學家的工作會在你組建資料工程團隊時,為了成為一個數據工程師(你很可能還未達標),將你的資料科學家生涯擱置好幾年的時間。
最終,你會很驕傲地看著你所建的團隊,然後意識到你不再需要親自去處理那些細枝末節。那時你的團隊已經能夠成熟應對那些絕妙的神經網路或者你讀博時研究的複雜巧妙的貝葉斯定理推論,你就只能袖手旁觀,看著他人完成目標。
給你一些小建議
· 弄清你正在接手的事物
如果你在考慮接受一個成為資料科學總管的工作,你第一個應該提出的問題是:“誰來保證我的團隊有資料能研究?”如果答案是你,嗯,至少你將知道自己的簽約將意味著什麼。
· 請記住你是顧客
既然資料科學受資料支配,只有資料工程師們作為同事可能並不夠。如果那些同事們沒能將你認定為他們工作的一個關鍵客戶,你將面對的是一個艱難的鬥爭。如果他們的態度讓你更多的感受到自己是一個博物館策展人,為了資料而儲存資料,那這可不是一個好兆頭。
· 要有全域性觀
誠然你是資料工程師們的關鍵客戶,但很可能你並不是他們的唯一客戶。現代企業使用資料推動業務發展,通常情況下,無需人為干預,資料就能很好地運轉。當你對公司的貢獻只是“可有可無”時,表現得好像世界都是圍繞著你和你的團隊轉的,這是不明智的。
· 堅持問責
在登記你新的十億位元組之前,考慮與資料工程同事協商,讓他們對與你的合作負責。如果他們沒有將你拒之門外的反應,你的團隊就不太可能蓬勃發展。
我們一起分享AI學習與發展的乾貨