回覆列表
  • 1 # 二哥侃影片

    現如今構建人工智慧或機器學習系統比以往任何時候都要更加容易。普遍存在的尖端開源工具如 TensorFlow、Torch 和 Spark,再加上透過 AWS 的大規模計算力、Google Cloud 或其他供應商的雲計算,這些都意味著你可以在下午休閒時間使用膝上型電腦去訓練出最前沿的機器學習模型。

    雖然不算是人工智慧訓練的最前沿,但人工智慧的無名英雄確實就是資料,許多許多標註或未標註的資料。研究部門和公司也都認識到資料民主化是加快人工智慧的必要步驟。

    然而,涉及到機器學習或人工智慧的大多數產品強烈依賴於那些通常沒有開放的私有資料集,而本文將指出解決這種困境的辦法。

    事實上,我們很難用一篇文章來說明哪些開放資料集是有用的,因為那些有用的開放資料集必須是可概念證明的,而什麼資料集對產品或確認特徵是有用的,在你收集你自己所有資料之前是不知道的。

    重要的是,如果資料集有良好的表現並不能保證其訓練的機器學習系統在實際產品場景中表現良好。許多人在構建人工智慧系統時常常忘了構建一個新人工智慧解決方案或產品最困難的部分不是人工智慧本身或演算法,通常最困難的地方是資料收集和標註。標準資料集可以作為驗證或構建更優良解決辦法的良好起點。

    計算機視覺

    MNIST: 最通用的健全檢查。25x25 的資料集,中心化,B&W 手寫數字。這是個容易的任務——但是在 MNIST 有效,不等同於其本身是有效的。 地址:http://pjreddie.com/projects/mnist-in-csv/

    CIFAR 10 & CIFAR 100: 32x32 彩色影象。雖不再常用,但還是用了一次,可以是一項有趣的健全檢查。 地址:https://www.cs.toronto.edu/~kriz/cifar.html

    ImageNet: 新演算法實際上的影象資料集。很多圖片 API 公司從其 REST 介面獲取標籤,這些標籤被懷疑與 ImageNet 的下一級 WordNet 的 1000 個範疇很接近。 地址:http://image-net.org/

    LSUN: 場景理解具有很多輔助任務(房間佈置評估、顯著性預測等)和一個相關競爭。 地址:http://lsun.cs.princeton.edu/2016/

    PASCAL VOC: 通用影象分割/分類:對於構建真實世界的影象註釋毫無用處,對於基線則意義重大。 地址:http://host.robots.ox.ac.uk/pascal/VOC/

    SVHN: 來自谷歌街景檢視(Google Street View)的門牌號資料集。把這想象成荒野之中的週期性 MNIST。 地址:http://ufldl.stanford.edu/housenumbers/

    MS COCO: 帶有一個相關性競爭的通用影象理解/字幕。 地址:http://mscoco.org/

    Visual Genome: 非常詳細的視覺知識庫,並帶有 100K 影象的深字幕。 地址:http://visualgenome.org/

    Labeled Faces in the Wild:透過名稱識別符號,已經為被裁剪的面部區域(用 Viola-Jones)打了標籤。現有人類的子集在資料集中有兩個影象。對於這裡做面部匹配系統訓練的人來說,這很正常。 地址:http://vis-www.cs.umass.edu/lfw/

    自然語言 文字分類資料集(2015 年來自 Zhang 等人):一個用於文字分類的合 8 個數據集為 1 個的大型資料集。這些是用於新文字分類的最常被報道的基線。樣本大小從 120K 到 3.6M, 問題從 2 級到 14 級。資料集來自 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。 地址https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

    WikiText:來自由 Salesforce MetaMind 精心策劃的維基百科文章中的大型語言建模語料庫。 地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

    Question Pairs:從包含重複/語義相似性標籤的 Quora 釋放出來的第一個資料集。 地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

    SQuAD: 斯坦福大學問答資料集(The Stanford Question Answering Dataset)——一個被廣泛應用於問題回答和閱讀理解的資料集,其中每個問題的答案形式是文字的一個片段或碎片。 地址:https://rajpurkar.github.io/SQuAD-explorer/

    CMU Q/A Dataset: 手動生成的模擬陳述問題/回答與維基百科文章的難度評級相對應。 地址:http://www.cs.cmu.edu/~ark/QA-data/

    Maluuba Datasets: 用於狀態性自然語言理解研究的人工生成的精密資料集。 地址:https://datasets.maluuba.com/

    Billion Words: 大型,有統一目標的語言建模資料集。常被用來訓練諸如 word2vec 或 Glove 的分散式詞表徵。 地址:http://www.statmt.org/lm-benchmark/

    Common Crawl: PB 級規模的網路爬行——常被用來學習詞嵌入。可從 Amazon S3 上免費獲取。由於它是 WWW 的抓取,同樣也可以作為網路資料集來使用。 地址:http://commoncrawl.org/the-data/

    bAbi: 來自 FAIR(Facebook AI Research)的合成式閱讀理解與問答資料集。 地址:https://research.fb.com/projects/babi/

    The Children’s Book Test:從來自古登堡計劃的童書中提取(問題+上下文,回答)組的基線。這對問題回答、閱讀理解和模擬陳述查詢有用。 地址:https://research.fb.com/projects/babi/

    Stanford Sentiment Treebank: 標準的情感資料集,在每一個句子解析樹的節點上帶有細膩的情感註解。 地址:http://nlp.stanford.edu/sentiment/code.html

    20 Newsgroups: 文字分類經典資料集中的一個。通常可用作純分類或任何 IR/索引演算法的基準。 地址:http://qwone.com/~jason/20Newsgroups/

    Reuters: 舊的,純粹基於分類的資料集與來自新聞專線的文字。常用於教程。 地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

    IMDB:一個用於二元情感分類的更舊更小的資料集。 地址:http://ai.stanford.edu/~amaas/data/sentiment/

    UCI’s Spambase: 來自著名的 UCI 機器學習庫較久的經典垃圾電子郵件資料集。由於資料集的策劃細節,這可以是一個學習個性化過濾垃圾郵件的有趣基線。 地址:https://archive.ics.uci.edu/ml/datasets/Spambase

    語音 大多數語音識別資料集是有所有權的,這些資料為收集它們的公司帶來了大量的價值,所以在這一領域裡,許多可用的資料集都是比較舊的。

    2000 HUB5 English: 僅僅只包含英語的語音資料,最近百度發表的論文《深度語音:擴充套件端對端語音識別(Deep Speech: Scaling up end-to-end speech recognition)》就是使用了該語音資料集。 地址:https://catalog.ldc.upenn.edu/LDC2002T43

    LibriSpeech:包括文字和語音的有聲讀物資料集。它是近 500 小時由多人朗讀清晰的各類有聲讀物資料集,且由包含文字和語音的書籍章節組織起結構。 地址:http://www.openslr.org/12/

    VoxForge:帶口音的語音清潔資料集,特別是對於如期望對不同口音或腔調的語音有魯棒性需求的系統很有用。 地址:http://www.voxforge.org/

    TIMIT:只包含英語的語音識別資料集。 地址:https://catalog.ldc.upenn.edu/LDC93S1

    CHIME:包含噪聲的語音識別資料集。該資料集包含真實、模擬和清潔的語音記錄。實際上是記錄四個說話者在四個噪聲源的情況下近 9000 份記錄,模擬資料是在結合話語行為和清潔無噪語音記錄的多環境下生成的。 地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

    TED-LIUM:TED 演講的語音轉錄資料集。1495 份 TED 演講的語音記錄,並且這些語音記錄有對應的全文字。 地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus 推薦和排序系統

    Netflix Challenge:第一個主要 Kaggle 風格的資料庫。因為存在隱私問題,只能非正式地獲得授權。 地址:http://www.netflixprize.com/

    Million Song Dataset:在 Kaggle 上大量、富元資料(metadata-rich)、開源的資料集,有利於人們試驗混合推薦系統(hybrid recommendation systems)。 地址:https://www.kaggle.com/c/msdchallenge

    Last.fm:音樂推薦資料集,該資料集能有權訪問底層社交網路和其他元資料,而這樣的資料集正對混合系統有巨大的作用。 地址:http://grouplens.org/datasets/hetrec-2011/ 網路和圖表

    Amazon Co-Purchasing 和 Amazon Reviews:從亞馬遜以及相關產品評論資料網路爬取的如「使用者買了這個同時也會買哪個」這樣的語句。適合在網際網路中進行推薦系統的測試。 地址:http://snap.stanford.edu/data/#amazon 和 http://snap.stanford.edu/data/amazon-meta.html

    Friendster Social Network Dataset:在 Friendster 的重心轉入到遊戲網站之前,這家網站釋出了包含 103,750,348 個使用者好友列表的匿名資料集。 地址:https://archive.org/details/friendster-dataset-201107 地理測繪資料庫

    OpenStreetMap:免費許可的全球向量資料集。其包含了舊版的美華人口統計局的 TIGER 資料。 地址:http://wiki.openstreetmap.org/wiki/Planet.osm

    Landsat8:整個地球表面的衛星拍攝資料,每隔幾週會更新一次。 地址:https://landsat.usgs.gov/landsat-8

    NEXRAD:多普雷達掃描的美國大氣環境。 地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad 人們常常認為解決一個數據集上的問題就相當於對產品進行了一次完整的審視。因為我們可以使用這些資料集進行驗證或證明一個概念,但是也不要忘了測試模型或原型是如何獲取新的和更實際的資料來提高運算效果,獲得優良產品的。資料驅動的成功公司通常從他們收集新資料、私有資料的能力中獲得力量,從而以一種具有競爭力的方式提高他們的表現。 參考連結:https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2#.mdlhr7kod

  • 中秋節和大豐收的關聯?
  • 孩子自閉症,上幼兒園的話會被老師區別對待嗎?會遭到同學的排斥嗎?