在不穩定的2020年之後,對新的一年有何看法?
關於2020年已經說了太多話了。這麼多恥辱,不幸,悲傷……是的,我們都知道!我們在一起嗎?
但是,圍繞我們的所有這些恥辱和不幸並沒有阻止巨大的研究和進步。偉大的成就並沒有道歉,"抱歉,那我要等2021年……"。太好了,世界在不斷髮展。
> We could focus on the negative aspects of 2020, but that won't leave us margin for the great achievements scientists made this year (image: federize).
當然,像Tensorflow甚至sklearn這樣的核心技術都在發展,但是這些是現在的主要問題嗎?我相信不是。
· 事實與共同點
· 我們都可以做資料科學嗎?
有興趣嗎我們走吧。
1.事實和共同點不能說技術進步不好。它們是我們可以用於我們想像的任何工具的工具,無論好壞。可以找到廣泛的例子,其中技術始於軍事應用,併成功地應用於民用技術(我喜歡這個清單)。但是,有很多我們首先不希望在軍事應用中使用的資料科學工具……
> Ballistic missiles started as a military application but it enabled space exploration years later (image: billjelen).
我為什麼要談論它?讓我呆一會兒,繼續前進……今年,我們(至少)發生了兩個非常特殊的事件-美國大選和COVID-19。我開始注意到側面(觀點/立場/陳述)變得比以往更加兩極化。我個人和朋友們進行了一些艱難的討論。我開始感到我們缺少一些東西–需要一個共同點。基本上,我們之間可以達成共識的是事實?看起來很簡單,但如今卻如此複雜。
> Very rough Data Science pipeline. In red, the early Data Acquisition step where one must ask adequate questions about the data source — Data Provenance.
現在,回到技術進步,並與資料來源聯絡起來,今年,我們看到了通用對抗網路(GAN)的一些令人印象深刻的應用。例如,伊麗莎白女王的Deepfake透過第4頻道到達大眾(youtube影片)。大家的反應不一,但我可以看到,該影片的目的是將信任討論擺到桌面上。我們可以相信自己的眼睛嗎?從現在起,我們可能需要變得更加懷疑。
> Deepfake of the queen Elisabeth on Channel 4, raising the awareness on trust (source: youtube).
2.我們都可以做資料科學嗎?2020年為我們帶來了資料科學應用程式的許多發展,它使用了最近幾年(某種)可用的技術,但現在使用了更多的計算能力。兩個例子:
· OpenAI的生成式預訓練變壓器3(GPT-3)。它使用預先訓練的演算法生成文字。具體來說,他們已經獲取了透過爬網收集的文字資訊以及OpenAI選擇的其他文字,包括Wikipedia的文字。您可以在此處檢查一些出色的應用程式(例如,圖靈測試)。
· Deepmind的AlphaFold。該團隊解決了蛋白質摺疊的巨大挑戰,這一挑戰使科學界困惑了50年。
> Comparison between the predicted (blue) and actual (green) 3D structures for two proteins in the free modeling category (source: Deepmind).
幾年前,我們可以看到資料科學的發展來自單身人士或小型創業公司。如今,由於我們處於一個階段,我們需要大量的計算資源來訓練某些模型,因此這變得更加困難。例如,Deepmind提到Alphafold,
…使用大約16個TPUv3(即128個TPUv3核心或大約相當於100-200個GPU)運行了幾周…
關於OpenAI的GPT-3,
使用Tesla V100雲實例訓練GPT-3的成本將超過460萬美元。
這是否意味著Data Science / AI的民主程度降低了?群眾仍然可以使用嗎?
一種解決方案是對需要較少資料才能取得良好結果的模型的開發進行更深入的研究。我們一直專注於模型的準確性/ ROC / RMSE / etc。在最近幾年中,並沒有太多地影響它們的效率。資源不是無限的,特別是對於業餘資料科學家來說,他們也希望在不依賴大型基礎架構的情況下對應用程式有所瞭解(=高成本,=第三方)。
2021年快樂!> First thing (source: xkcd).
雨果·洛佩斯
PS#1:我覺得我應該寫更多,甚至我個人承諾:"明年我會做"。但是,既然有這麼多其他作家在場,我認為跳過那將不是問題(我不能跟上:))。
PS#2:這篇文章僅代表了我的觀點(可能不準確,對此表示懷疑)。
PS#3:關於資料科學事業,我重新審視了去年的帖子("專注於"讓我一個人,我只想把事情做好")",我相信一切都仍然適用。