回覆列表
  • 1 # Python與演算法社群

    資料是玩人工智慧的基礎,也是最值錢的部分。如何獲取? 途徑大致如下

    1. 網際網路公司,每天積累的海量資料,像京東,每天線上交易訂單數千萬級,使用者的購買行為資料就全部儲存到大資料平臺上。

    2. 前沿研究,自己創造深度學習的資料。如,讓機器人學著抓取物體,谷歌自己購買大量的機器人,攝像機記錄資料。

    3. 專門的大資料生產廠家。他們透過各種途徑獲取海量資料。如,資料爬取等。

  • 2 # 論智

    現在網上有非常多的公開的資料集,不用自己收集。

    找公開資料集,除了使用基本的搜尋引擎搜尋外,最集中的一個地方就是Kaggle。

    (Kaggle網站截圖)

    目前Kaggle上有7k+公開資料集。

    此外,找資料集還有一個技巧,就是確定主題後,找一找相關公共部門網站或企業網站,看看有沒有公開資料集提供。或者,找這方面的論文來看,看看其他研究人員用的是什麼資料集(如果是自行收集、整理的資料集,研究人員常常會公開)。

    當然,公開資料集只是不用自己收集而已。歸根到底,這些資料集也是收集或合成的。

    所以,歸根到底,AI所用的資料,要麼是收集到的,要麼是合成的。

    舉個例子,圍棋AI,學習人類棋手對弈的棋譜,那就是使用收集資料,而圍棋AI左右互搏,自己和自己對弈,並學習,那就是使用合成數據。

    與此相關的概念是資料增強(data augmentation)。就是對收集到的資料進行一些變換,合成新的基於原始資料的資料。

    (圖片來源:Ahmad等. 2017. Data augmentation-assisted deep learning of hand-drawn partially colored sketches for visual search)

  • 中秋節和大豐收的關聯?
  • 廁所裡的小蟲子是什麼?怎麼能消滅掉?