回覆列表
-
1 # Python與演算法社群
-
2 # 論智
現在網上有非常多的公開的資料集,不用自己收集。
找公開資料集,除了使用基本的搜尋引擎搜尋外,最集中的一個地方就是Kaggle。
(Kaggle網站截圖)
目前Kaggle上有7k+公開資料集。
此外,找資料集還有一個技巧,就是確定主題後,找一找相關公共部門網站或企業網站,看看有沒有公開資料集提供。或者,找這方面的論文來看,看看其他研究人員用的是什麼資料集(如果是自行收集、整理的資料集,研究人員常常會公開)。
當然,公開資料集只是不用自己收集而已。歸根到底,這些資料集也是收集或合成的。
所以,歸根到底,AI所用的資料,要麼是收集到的,要麼是合成的。
舉個例子,圍棋AI,學習人類棋手對弈的棋譜,那就是使用收集資料,而圍棋AI左右互搏,自己和自己對弈,並學習,那就是使用合成數據。
與此相關的概念是資料增強(data augmentation)。就是對收集到的資料進行一些變換,合成新的基於原始資料的資料。
(圖片來源:Ahmad等. 2017. Data augmentation-assisted deep learning of hand-drawn partially colored sketches for visual search)
資料是玩人工智慧的基礎,也是最值錢的部分。如何獲取? 途徑大致如下
1. 網際網路公司,每天積累的海量資料,像京東,每天線上交易訂單數千萬級,使用者的購買行為資料就全部儲存到大資料平臺上。
2. 前沿研究,自己創造深度學習的資料。如,讓機器人學著抓取物體,谷歌自己購買大量的機器人,攝像機記錄資料。
3. 專門的大資料生產廠家。他們透過各種途徑獲取海量資料。如,資料爬取等。