1、做演算法
1.1 日常工作
所有人都想做演算法,那麼,說到底,在做演算法到底是幹什麼?真正的演算法工程師最基本的日常工作其實是:讀論文&實現之——確認最新論文中的闡述是否真實可重現,進一步確認是否可應用於本企業的產品,進而將其應用到實踐中提升產品質量。
1.2 必備能力
既然日常工作首先是讀別人論文。那麼,必不可少,作為演算法工程師得具備快速、大量閱讀英語論文的能力。在計算機科學,尤其是人工智慧、機器學習、深度學習這幾個當今世界最熱門的領域裡,大家都在爭分奪秒地搶佔制高點,根本不能容忍耽擱時間。如果要做演算法,平均而言,大致要保持每週讀一篇最新論文的頻率。
1.3 理論聯絡實際,將學術論述與產品、業務結合的能力
一般來說,在大企業裡做到真正的演算法工程師/科學家,也就不需要自己去動手開發產品了。但做 demo/prototype 還是不能避免的。演算法工程師,可不是用別人寫好的工具填幾個引數去執行就可以的,需要負責實際業務問題到數學模型的抽象,並能夠將他人最新成果應用到業務資料上去。
說得更通俗一點,就算是用別人寫的工具或框架,做演算法的,也得是i)第一撥、最前沿那批試用者,或者ii)工具最新玩法的發明者。
2. 做工程
2.1 日常工作
相對於演算法的創新和尖端,做工程要平實得多。這一角色比較有代表性的一種崗位就是:機器學習工程師(或戲稱調參工程師)——他們使用別人開發的框架和工具,執行已有演算法,訓練業務資料,獲得工作模型。
做工程也得讀論文,不過和做演算法不同,做工程讀論文的一般目的不是嘗試最新方法,而是用已知有效的方法來解決實際問題。
2.2 做工程,「機器學習」學到多深夠用
當然,既然是有領域的程式設計師,在專業上達到一定深度也是必要的。雖然做工程一般要使用現成技術框架,但並不是說,直接把演算法當黑盒用就可以做一名合格的“調參”工程師了。把演算法當黑盒用的問題在於:黑盒能夠解決問題的時候,使用方便,而一旦不能解決問題,或者對質量有所要求,就會感覺無所適從。
作為程式設計師、工程人員,想用機器學習演算法解決實際問題,就得對演算法有一定程度的掌握,此外對於資料處理和模型驗證,也需具備相應知識。
3. 做資料
做資料並非資料的清洗和處理——大家可以看到做工程的崗位,有一部分工作內容就是ETL和處理資料。此處說的做資料是指資料標註。
3.1 標註資料的重要性
雖然機器學習中有無監督學習,但在實踐領域被證明有直接作用的,基本上還都是有監督模型。近年來,深度學習在很多應用上取得了巨大的成功,而深度學習的成功,無論是影象、語音、NLP、自動翻譯還是AlphaGo,恰恰依賴於海量的標註資料。
AI技術員需要學什麼?無論是做ML還是DL的工程師,都共同確認一個事實:現階段而言,資料遠比演算法重要。
1、做演算法
1.1 日常工作
所有人都想做演算法,那麼,說到底,在做演算法到底是幹什麼?真正的演算法工程師最基本的日常工作其實是:讀論文&實現之——確認最新論文中的闡述是否真實可重現,進一步確認是否可應用於本企業的產品,進而將其應用到實踐中提升產品質量。
1.2 必備能力
既然日常工作首先是讀別人論文。那麼,必不可少,作為演算法工程師得具備快速、大量閱讀英語論文的能力。在計算機科學,尤其是人工智慧、機器學習、深度學習這幾個當今世界最熱門的領域裡,大家都在爭分奪秒地搶佔制高點,根本不能容忍耽擱時間。如果要做演算法,平均而言,大致要保持每週讀一篇最新論文的頻率。
1.3 理論聯絡實際,將學術論述與產品、業務結合的能力
一般來說,在大企業裡做到真正的演算法工程師/科學家,也就不需要自己去動手開發產品了。但做 demo/prototype 還是不能避免的。演算法工程師,可不是用別人寫好的工具填幾個引數去執行就可以的,需要負責實際業務問題到數學模型的抽象,並能夠將他人最新成果應用到業務資料上去。
說得更通俗一點,就算是用別人寫的工具或框架,做演算法的,也得是i)第一撥、最前沿那批試用者,或者ii)工具最新玩法的發明者。
2. 做工程
2.1 日常工作
相對於演算法的創新和尖端,做工程要平實得多。這一角色比較有代表性的一種崗位就是:機器學習工程師(或戲稱調參工程師)——他們使用別人開發的框架和工具,執行已有演算法,訓練業務資料,獲得工作模型。
做工程也得讀論文,不過和做演算法不同,做工程讀論文的一般目的不是嘗試最新方法,而是用已知有效的方法來解決實際問題。
2.2 做工程,「機器學習」學到多深夠用
當然,既然是有領域的程式設計師,在專業上達到一定深度也是必要的。雖然做工程一般要使用現成技術框架,但並不是說,直接把演算法當黑盒用就可以做一名合格的“調參”工程師了。把演算法當黑盒用的問題在於:黑盒能夠解決問題的時候,使用方便,而一旦不能解決問題,或者對質量有所要求,就會感覺無所適從。
作為程式設計師、工程人員,想用機器學習演算法解決實際問題,就得對演算法有一定程度的掌握,此外對於資料處理和模型驗證,也需具備相應知識。
3. 做資料
做資料並非資料的清洗和處理——大家可以看到做工程的崗位,有一部分工作內容就是ETL和處理資料。此處說的做資料是指資料標註。
3.1 標註資料的重要性
雖然機器學習中有無監督學習,但在實踐領域被證明有直接作用的,基本上還都是有監督模型。近年來,深度學習在很多應用上取得了巨大的成功,而深度學習的成功,無論是影象、語音、NLP、自動翻譯還是AlphaGo,恰恰依賴於海量的標註資料。
AI技術員需要學什麼?無論是做ML還是DL的工程師,都共同確認一個事實:現階段而言,資料遠比演算法重要。