首頁>科技>

儘管今年世界上發生了這麼多事情,我們還是有機會看到很多驚人的研究成果。特別是在人工智慧領域。此外,今年還強調了許多重要的方面,比如倫理方面、重要的偏見等等。人工智慧以及我們對人類大腦及其與人工智慧的聯絡的理解在不斷髮展,在不久的將來顯示出有前途的應用。

以下是本年度最有趣的研究論文,如果你錯過了其中的任何一篇的話。簡而言之,它基本上是一個根據釋出日期列出的人工智慧和資料科學最新突破的列表,配有清晰的影片解釋、更深入的文章連結和程式碼(如果適用的話)。

本文最後列出了每篇論文的完整參考文獻。

YOLOv4: Optimal Speed and Accuracy of Object Detection [1]

這第4個版本由Alexey Bochkovsky等人於2020年4月在論文"YOLOv4: Optimal Speed and Accuracy of Object Detection"中介紹。該演算法的主要目標是在精度方面做出一個高質量的超高速目標檢測器。

DeepFaceDrawing: Deep Generation of Face Images from Sketches [2]

您現在可以使用這種新的影象到影象轉換技術,從粗糙甚至不完整的草圖生成高質量的人臉影象,無需繪圖技巧!如果你的畫技和我一樣差,你甚至可以調整眼睛、嘴巴和鼻子對最終影象的影響。讓我們看看它是否真的有效,以及他們是如何做到的。

Learning to Simulate Dynamic Environments with GameGAN [3]

這項研究由英偉達多倫多AI實驗室和日本遊戲大廠萬代南夢宮 *BANDAI NAMCO) 一同開發,技術來自前者,資料來自後者。

簡單來說,僅對簡單的遊戲錄影和玩家輸入進行學習,GameGAN 就能夠模擬出接近真實遊戲的環境,還不需要遊戲引擎和底層程式碼。它的底層是在 AI 領域很有名的生成對抗網路 (GAN)。

PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models [4]

它可以把超低解析度的16x16影象轉換成1080p高畫質晰度的人臉!你不相信我?然後你就可以像我一樣,在不到一分鐘的時間裡自己試穿一下!

Unsupervised Translation of Programming Languages [5]

這種新模型在沒有任何監督的情況下將程式碼從一種程式語言轉換成另一種程式語言!它可以接受一個Python函式並將其轉換成c++函式,反之亦然,不需要任何先前的例子!它理解每種語言的語法,因此可以推廣到任何程式語言!我們來看看他們是怎麼做到的。

PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization [6]

這個人工智慧從2D影象生成3D高解析度的人的重建!它只需要一個單一的影象你生成一個3D頭像,看起來就像你,甚至從背後!

High-Resolution Neural Face Swapping for Visual Effects [7]

迪士尼的研究人員在論文中開發了一種新的高解析度視覺效果人臉交換演算法。它能夠以百萬畫素的解析度渲染照片真實的結果。。它們的目標是在保持actor的效能的同時,從源actor交換目標actor的外觀。這是非常具有挑戰性的,在很多情況下都是有用的,比如改變角色的年齡,當演員不在的時候,甚至當它涉及到一個對主要演員來說太危險的特技場景。目前的方法需要大量的逐幀動畫和專業人員的後期處理。

Swapping Autoencoder for Deep Image Manipulation [8]

這種新技術可以改變任何圖片的紋理,同時使用完全無監督的訓練保持現實!結果看起來甚至比GANs能實現的還要好,而且速度更快!它甚至可以用來製作深度贗品!

GPT-3: Language Models are Few-Shot Learners [9]

當前最先進的NLP系統很難推廣到不同的任務上。 他們需要在成千上萬個示例的資料集上進行微調,而人類只需要檢視幾個示例即可執行新的語言任務。 這是GPT-3的目標,目的是改善語言模型的任務不可知特性。

Learning Joint Spatial-Temporal Transformations for Video Inpainting [10]

與當前的最新技術相比,該AI可以填充移動的物體後面的缺失畫素,並以更高的準確性和更少的模糊度重建整個影片!

Image GPT — Generative Pretraining from Pixels [11]

一個好的人工智慧,比如Gmail中使用的那個,可以生成連貫的文字並完成你的短語。這是使用相同的原理來完成影象處理! 全部在無監督的訓練中完成,根本不需要標籤!

Learning to Cartoonize Using White-box Cartoon Representations [12]

該AI可以將您想要的任何圖片或影片進行卡通化!

Neural Re-Rendering of Humans from a Single Image [14]

該演算法將身體的姿勢和形狀表示為引數網格,可以從單個影象進行重構並輕鬆放置。 給定一個人的影象,他們便能夠以不同的姿勢或從另一個輸入影象獲得的不同衣服來建立該人的合成影象。

I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human Pose and Mesh Estimation from a Single RGB Image [15]

目標是提出一種從單個RGB影象進行3D人體姿勢和網格估計的新技術。 他們稱其為I2L-MeshNet。 I2L代表"影象到畫素"。 就像體素,體積+畫素,是三維空間中的量化單元格一樣,他們將lixel,線和畫素定義為一維空間中的量化單元格。 他們的方法優於以前的方法,並且程式碼是公開可用的!

Beyond the Nav-Graph: Vision-and-Language Navigation in Continuous Environments [16]

語言導航是一個被廣泛研究的領域,也是一個非常複雜的領域。 對於一個人來說,走過一所房子來拿掉您放在床頭櫃上的咖啡就很簡單了。 但這對於AI代理來說是另外一回事了,它是一個使用深度學習執行任務的自主AI驅動的系統。

RAFT: Recurrent All-Pairs Field Transforms for Optical Flow [17]

ECCV 2020最佳論文獎授予普林斯頓大學團隊。 他們為光流開發了一種新的端到端可訓練模型。 他們的方法超越了跨多個數據集的最新架構的準確性,並且效率更高。

Crowdsampling the Plenoptic Function [18]

利用從網際網路上獲得的公開照片,他們能夠重構旅遊場景的多個視點,從而保留逼真的陰影和照明! 這是用於真實感場景渲染的最先進技術的巨大進步,其結果簡直令人讚歎。

Old Photo Restoration via Deep Latent Space Translation [19]

想象一下,當您祖母18歲時,她的老照片,摺疊甚至撕裂的照片都清晰無瑕,清晰度很高。 這就是所謂的舊照片恢復,本文只是使用深度學習方法開闢了一條全新的途徑來解決這一問題。

Neural circuit policies enabling auditable autonomy [20]

來自IST Austria和MIT的研究人員已經成功地使用一種新的人工智慧系統訓練了自動駕駛汽車,該系統基於細小動物(如線蟲)的大腦。 他們實現了這一點,與流行的深度神經網路(如Inceptions,Resnets或VGG)所需的數百萬個神經元相比,只有少數神經元能夠控制自動駕駛汽車。 他們的網路僅使用75,000個引數(由19個控制神經元而不是數百萬個引數)就可以完全控制汽車!

Lifespan Age Transformation Synthesis [21]

來自Adobe Research的一組研究人員僅根據該人的一張照片開發了一種用於年齡轉換合成的新技術。 它可以從您傳送的任何圖片中生成不同年齡的圖片。

DeOldify [22]

COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning [23]

顧名思義,它使用Transformer將影片及其一般描述作為輸入來為影片的每個序列生成準確的文字描述。

Stylized Neural Painting [24]

這種影象到繪畫的翻譯方法,該使用一種新穎的方法模擬多種樣式的真實畫家,並且該方法不涉及任何GAN架構,這與所有當前的最新方法不同!

Is a Green Screen Really Necessary for Real-Time Portrait Matting? [25]

人臉消光是一項非常有趣的任務,目標是在圖片中找到任何人並從中刪除背景。 由於任務的複雜性,必須找到具有完美輪廓的一個或多個人,這確實很難實現。 在本文中,我將回顧這些年來使用的最佳技術以及一種將於2020年11月29日釋出的新穎方法。許多技術都在使用基本的計算機視覺演算法來完成此任務,例如GrabCut演算法,該演算法非常快,但不是非常精確

ADA: Training Generative Adversarial Networks with Limited Data [26]

藉助NVIDIA開發的這種新的訓練方法,您可以使用十分之一的影象訓練強大的生成模型! 使許多無法訪問太多影象的應用程式成為可能!

Improving Data‐Driven Global Weather Prediction Using Deep Convolutional Neural Networks on a Cubed Sphere [27]

當前的傳統天氣預報方法使用了我們所謂的"數值天氣預報"模型。 它使用大氣和海洋的數學模型根據當前條件預測天氣。 它於1920年代首次引入,並在1950年代使用計算機模擬產生了逼真的結果。 這些數學模型可用於預測短期和長期預測。 但是它的計算量很大,無法將其預測基於像深度神經網路一樣多的資料。 這就是為什麼它如此有前途的部分原因。 這些當前的數值天氣預報模型已經使用機器學習來改進預報作為後處理工具。 天氣預報越來越受到機器學習研究人員的關注,已經產生了很好的效果。

NeRV: Neural Reflectance and Visibility Fields for Relighting and View Synthesis [28]

這種新方法能夠生成完整的3維場景,並具有確定場景照明的能力。 與以前的方法相比,所有這些都具有非常有限的計算成本和驚人的結果。

原文地址 https://github.com/louisfb01/BestAIpaper_2020

最後所有的論文列表在這裡:

[1] A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, Yolov4: Optimal speed and accuracy of object detection, 2020. arXiv:2004.10934 [cs.CV].

[2] S.-Y. Chen, W. Su, L. Gao, S. Xia, and H. Fu, "DeepFaceDrawing: Deep generation of face images from sketches," ACM Transactions on Graphics (Proceedings of ACM SIGGRAPH2020), vol. 39, no. 4, 72:1–72:16, 2020.

[3] S. W. Kim, Y. Zhou, J. Philion, A. Torralba, and S. Fidler, "Learning to Simulate DynamicEnvironments with GameGAN," in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun. 2020.

[4] S. Menon, A. Damian, S. Hu, N. Ravi, and C. Rudin, Pulse: Self-supervised photo upsampling via latent space exploration of generative models, 2020. arXiv:2003.03808 [cs.CV].

[5] M.-A. Lachaux, B. Roziere, L. Chanussot, and G. Lample, Unsupervised translation of programming languages, 2020. arXiv:2006.03511 [cs.CL].

[6] S. Saito, T. Simon, J. Saragih, and H. Joo, Pifuhd: Multi-level pixel-aligned implicit function for high-resolution 3d human digitization, 2020. arXiv:2004.00452 [cs.CV].

[7] J. Naruniec, L. Helminger, C. Schroers, and R. Weber, "High-resolution neural face-swapping for visual effects," Computer Graphics Forum, vol. 39, pp. 173–184, Jul. 2020.doi:10.1111/cgf.14062.

[8] T. Park, J.-Y. Zhu, O. Wang, J. Lu, E. Shechtman, A. A. Efros, and R. Zhang,Swappingautoencoder for deep image manipulation, 2020. arXiv:2007.00653 [cs.CV].

[9] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P.Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S.Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei,"Language models are few-shot learners," 2020. arXiv:2005.14165 [cs.CL].

[10] Y. Zeng, J. Fu, and H. Chao, Learning joint spatial-temporal transformations for video in-painting, 2020. arXiv:2007.10247 [cs.CV].

[11] M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan, and I. Sutskever, "Generative pretraining from pixels," in Proceedings of the 37th International Conference on Machine Learning, H. D. III and A. Singh, Eds., ser. Proceedings of Machine Learning Research, vol. 119, Virtual: PMLR, 13–18 Jul 2020, pp. 1691–1703. [Online]. Available:http://proceedings.mlr.press/v119/chen20s.html.

[12] Xinrui Wang and Jinze Yu, "Learning to Cartoonize Using White-box Cartoon Representations.", IEEE Conference on Computer Vision and Pattern Recognition, June 2020.

[13] S. Mo, M. Cho, and J. Shin, Freeze the discriminator: A simple baseline for fine-tuning gans,2020. arXiv:2002.10964 [cs.CV].

[14] K. Sarkar, D. Mehta, W. Xu, V. Golyanik, and C. Theobalt, "Neural re-rendering of humans from a single image," in European Conference on Computer Vision (ECCV), 2020.

[15] G. Moon and K. M. Lee, "I2l-meshnet: Image-to-lixel prediction network for accurate 3d human pose and mesh estimation from a single rgb image," in European Conference on ComputerVision (ECCV), 2020

[16] J. Krantz, E. Wijmans, A. Majumdar, D. Batra, and S. Lee, "Beyond the nav-graph: Vision-and-language navigation in continuous environments," 2020. arXiv:2004.02857 [cs.CV].

[17] Z. Teed and J. Deng, Raft: Recurrent all-pairs field transforms for optical flow, 2020. arXiv:2003.12039 [cs.CV].

[18] Z. Li, W. Xian, A. Davis, and N. Snavely, "Crowdsampling the plenoptic function," inProc.European Conference on Computer Vision (ECCV), 2020.

[19] Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao, and F. Wen, Old photo restoration via deep latent space translation, 2020. arXiv:2009.07047 [cs.CV].

[20] Lechner, M., Hasani, R., Amini, A. et al. Neural circuit policies enabling auditable autonomy. Nat Mach Intell 2, 642–652 (2020). https://doi.org/10.1038/s42256-020-00237-3

[21] R. Or-El, S. Sengupta, O. Fried, E. Shechtman, and I. Kemelmacher-Shlizerman, "Lifespanage transformation synthesis," in Proceedings of the European Conference on Computer Vision(ECCV), 2020.

[22] Jason Antic, Creator of DeOldify, https://github.com/jantic/DeOldify

[23] S. Ging, M. Zolfaghari, H. Pirsiavash, and T. Brox, "Coot: Cooperative hierarchical trans-former for video-text representation learning," in Conference on Neural Information ProcessingSystems, 2020.

[24] Z. Zou, T. Shi, S. Qiu, Y. Yuan, and Z. Shi, Stylized neural painting, 2020. arXiv:2011.08114[cs.CV].

[25] Z. Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan, and R. W. Lau, "Is a green screen really necessary for real-time portrait matting?" ArXiv, vol. abs/2011.11961, 2020.

[26] T. Karras, M. Aittala, J. Hellsten, S. Laine, J. Lehtinen, and T. Aila, Training generative adversarial networks with limited data, 2020. arXiv:2006.06676 [cs.CV].

[27] J. A. Weyn, D. R. Durran, and R. Caruana, "Improving data-driven global weather prediction using deep convolutional neural networks on a cubed sphere", Journal of Advances in Modeling Earth Systems, vol. 12, no. 9, Sep. 2020, issn: 1942–2466.doi:10.1029/2020ms002109

[28] P. P. Srinivasan, B. Deng, X. Zhang, M. Tancik, B. Mildenhall, and J. T. Barron, "Nerv: Neural reflectance and visibility fields for relighting and view synthesis," in arXiv, 2020.

14
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 科技媒體的幻覺和特斯拉的本土策略,以及喬布斯的啟示