人工智慧（AI）用到的大資料是收集到的嗎？

首頁>Club>Ch1Ee_大水2021-03-30 05:54

人工智慧（AI）用到的大資料是收集到的嗎？

8

回覆列表

1 # Python與演算法社群

資料是玩人工智慧的基礎，也是最值錢的部分。如何獲取? 途徑大致如下
1. 網際網路公司，每天積累的海量資料，像京東，每天線上交易訂單數千萬級，使用者的購買行為資料就全部儲存到大資料平臺上。
2. 前沿研究，自己創造深度學習的資料。如，讓機器人學著抓取物體，谷歌自己購買大量的機器人，攝像機記錄資料。
3. 專門的大資料生產廠家。他們透過各種途徑獲取海量資料。如，資料爬取等。

2 # 論智

現在網上有非常多的公開的資料集，不用自己收集。

找公開資料集，除了使用基本的搜尋引擎搜尋外，最集中的一個地方就是Kaggle。

（Kaggle網站截圖）

目前Kaggle上有7k+公開資料集。

此外，找資料集還有一個技巧，就是確定主題後，找一找相關公共部門網站或企業網站，看看有沒有公開資料集提供。或者，找這方面的論文來看，看看其他研究人員用的是什麼資料集（如果是自行收集、整理的資料集，研究人員常常會公開）。
當然，公開資料集只是不用自己收集而已。歸根到底，這些資料集也是收集或合成的。

所以，歸根到底，AI所用的資料，要麼是收集到的，要麼是合成的。

舉個例子，圍棋AI，學習人類棋手對弈的棋譜，那就是使用收集資料，而圍棋AI左右互搏，自己和自己對弈，並學習，那就是使用合成數據。

與此相關的概念是資料增強（data augmentation）。就是對收集到的資料進行一些變換，合成新的基於原始資料的資料。

（圖片來源：Ahmad等. 2017. Data augmentation-assisted deep learning of hand-drawn partially colored sketches for visual search）

相關內容

∧ 中秋節和大豐收的關聯？

∨ 廁所裡的小蟲子是什麼？怎麼能消滅掉？

熱門排行