回覆列表
  • 1 # AI智媒體

    要從事大資料與人工智慧的學習與研究,首先要對大資料、人工智慧的基本概念、研究範疇有一個概要性的認識。然後明確自己的學習目標,制訂為實現這個目標的學習路線,按照既定路線有計劃地進行學習。下面將圍繞這幾個方面進行介紹。

    一、大資料的基本概念

    資料是事實或觀察的結果,不僅指狹義上的數字,還可以是具有一定意義的文字、字母、數字符號的組合、圖形、影象、影片、音訊等,也是客觀事物的屬性、數量、位置及其相互關係的抽象表示。

    大資料具有5V特點,即:Volume(資料量非常大)、Velocity(產生資料的速度非常高)、Variety(資料形式多樣)、Value(資料價值密度低)、Veracity(資料具有真實性)。

    大資料的起始計量單位至少是PB(1000多個TB)、EB(100多萬個TB)或ZB(10億多個TB)。資料型別包括網路日誌、音訊、影片、圖片、地理位置資訊等,種類繁雜。

    由於大資料的量非常大,具有結構化、半結構化、非結構化特徵,無論從儲存、計算等方面,傳統的方法已難以處理。這就需要發展專門用於大資料處理的技術、系統、方法。

    二、人工智慧的基本概念

    人工智慧是對以人類為主的自然智慧的功能、結構的模擬和延伸。要了解機器學習和人工智慧,首先應知道什麼是自然智慧。

    自然智慧主要指人類智慧,也包括一些生物的群體智慧。對於人類智慧,普遍認為應包括以下幾種能力。

    1. 透過眼睛、耳朵、鼻子、身體表面的末梢神經來感知與認識客觀事物、客觀世界與自我的能力;

    2. 透過學習取得經驗、積累知識的能力;

    3. 運用知識和經驗分析問題並解決問題的能力;

    4. 推理、判斷、決策的能力;

    5. 行為能力。

    此外,人類智慧還包括:運用語言進行抽象、概括的能力;發現、發明、創造、創新的能力;實時地、迅速地、合理地應付複雜環境的能力;預測、洞察事物發展變化的能力,等等。

    除了人類個體智慧以外,人類個體間的協作還體現出群體智慧。主要表現在不同個體間如何進行分工與協作、資訊溝通與交換等能力。

    一些生物也能夠透過大量個體間的相互協作,表現出一定的群體智慧,如螞蟻覓食、魚類覓食、蜜蜂採蜜等,都表現出驚人的群體智慧。

    智慧行為具有試探性、不精確、甚至允許出現錯誤等特點,關於人類智慧的研究,人們的觀點具有不統一性,關於人類智慧如何由物質產生,科學家還沒有徹底研究清楚。

    人工智慧是使用機器模仿、延伸和擴充套件人的智慧,根據人類智慧的表現,則人工智慧相應地要研究如何賦予機器感知、思維、學習、行為等能力。

    機器感知,是要讓計算機具有類似於人的感知能力,如視覺、聽覺、觸覺、嗅覺、味覺。人們對機器感知的研究已在人工智慧中形成了一些專門的研究領域,如計算機視覺、模式識別、自然語言理解等。

    機器思維是讓計算機能夠對感知到的外界資訊和自己產生的內部資訊進行思維型加工。為了實現機器的思維功能,需要在知識的表示、組織及推理方法,各種啟發式搜尋及控制策略,神經網路、思維機理等方面進行深入研究。

    機器學習是讓計算機能夠像人那樣自動地獲取新知識,並在實踐中不斷地完善自我和增強能力。機器學習是機器具有智慧的重要標誌,也是人工智慧研究的核心問題之一。目前人們已經研究出了不少機器學習方法,如記憶學習、歸納學習、解釋學習、發現學習、神經學習、遺傳學習等。

    機器行為是讓計算機能夠具有像人那樣的行動和表達能力,如走、跑、拿、說、唱、寫、畫等。機器行為可看成智慧系統的輸出,如智慧控制、智慧製造、智慧排程、智慧機器人等。

    有了以上對大資料和人工智慧的基本理解,就可以明確目標,制訂科學的學習路線。

    三、大資料的建議學習路線

    1. Java語言,以java語言為基礎掌握面向物件程式設計思想;

    2. 資料結構與演算法;

    3. 資料庫原理與MYSQL資料庫;

    4. LINUX作業系統,掌握LINUX下的管理命令、使用者管理、網路配置管理等,掌握SHELL指令碼程式設計;

    5. Hadoop,包括分散式檔案系統HDFS和分散式計算框架MapReduce;

    6. 分散式資料庫技術HBASE;

    7. 資料倉庫HIVE;

    8. Python語言;

    9. Spark高階程式設計技術;

    10. 真實大資料專案實戰。

    四、人工智慧的建議學習路線

    人工智慧涉及多學科交叉,研究和應用範疇非常廣泛。大致來講,人工智慧的研究內容可以粗略地分為知識表示、搜尋技術、自動推理、機器學習、專家系統、分散式人工智慧、機器人學、自然語言處理等。

    鑑於你要學習大資料和人工智慧,應該把機器學習作為人工智慧的一個主要學習內容。

    機器學習分為監督學習、無監督學習、半監督學習,以及其他演算法。典型的機器學習方法有:迴歸分析、分類(決策樹、支援向量機、神經網路)、聚類(K-means)、降維、特徵抽取等。

    建議使用Pythony語言和scikit-learn機器學習庫進行機器學習的學習和練習。

    Python可使用 Anaconda版本,它涵蓋了NumPy, SciPy, Matplotlib, scikit-learn, scikit-image等許多常用的模組,不需要使用者自己逐個安裝,非常適合初學者。

    scikit-learn提供一系列有監督和無監督的學習演算法,提供資料預處理、迴歸、分類、聚類、降維、模型選擇等功能。它提供大量的API,涵蓋聚類、交叉驗證、資料集、降維、整合學習、特徵選擇、特徵抽取、引數調優、監督學習、流形學習,幾乎涵蓋了機器學習的每個領域。使用者可以很方便的使用。

    在熟悉了這些機器學習方法後,建議你再掌握一個深度學習框架。TensorFlow是Google推出的一款開源人工智慧學習系統,是一個基於資料流程式設計的符號數學系統,被廣泛應用於各類機器學習演算法的程式設計實現。Tensorflow擁有多層級結構,可部署於各類伺服器、PC終端和網頁,並支援GPU和TPU高效能數值計算。

    此外Facebook人工智慧研究院(FAIR)提出的PyTorch也是一個開源的Python機器學習庫,它是一個基於Python的可續計算包,提供兩個高階功能:1、具有強大的GPU加速的張量計算(如NumPy)。2、包含自動求導系統的的深度神經網路。

    至於選擇使用哪個深度學習框架,由你自己決定。

  • 2 # 智慧坊

    人工智慧建立在以線性代數和機率論為骨架的基礎數學上,透過簡單模型的組合實現複雜功能。在工程上,深度神經網路通常其複雜的引數讓人望而卻步;可在理論上,其數學原理卻具有更好的可解釋性。

  • 3 # IT人劉俊明

    作為一名研究生導師,同時大資料和機器學習也是我的主要研究方向,所以我來回答一下這個問題。

    首先,大資料雖然與人工智慧有緊密的聯絡,但是大資料方向與人工智慧方向有較為明顯的區別。大資料方向往往致力於資料價值化,涉及到資料採集、資料整理、資料分析(挖掘)、資料呈現等內容,另外還涉及到大資料平臺研發和大資料應用研發。

    人工智慧研究的細分方向包括機器學習、計算機視覺、自然語言處理、知識表示、自動推理和機器人學,另外人工智慧按照行業領域劃分還可以選擇智慧醫療、智慧出行、智慧城市、智慧金融、智慧裝備、智慧教育等方向。從技術體系結構上來看,人工智慧與物聯網、雲計算、大資料、邊緣計算也都有比較緊密的聯絡。

    對於剛入學的研究生來說,從大資料開始學習然後再進入人工智慧領域也是可以的,比如從大資料分析轉向機器學習就是比較常見的選擇。從大資料分析轉向機器學習可以按照以下學習路線展開學習步驟:

    第一:系統學習一下演算法知識。通常大資料方向的研究生在研二的時候會進駐專案組,具體的研發內容要根據導師的安排來進行,而在研一期間一定要做好基礎知識的深入學習,其中演算法知識就是比較重要的內容。無論是從事大資料還是人工智慧,演算法知識都是重要的基礎。

    第二:學習一下大資料平臺知識。學習大資料平臺知識能夠鍛鍊自身的動手實踐能力,同時也能夠積累一定的開發經驗。大資料平臺可以從Hadoop開始學起,然後系統的學習一下程式語言,可以選擇Java或者Python,目前可以重點關注一下Python。

    第三:採用機器學習的方式完成資料分析。機器學習是目前進行資料分析的兩種主要方式之一,透過採用機器學習的方式實現資料分析包括資料整理、演算法設計、演算法實現、演算法訓練和演算法應用幾個步驟。實驗可以從比較常見的演算法開始,比如kNN、決策樹、支援向量機、樸素貝葉斯等等。

  • 中秋節和大豐收的關聯?
  • 有人說全民健身時代來臨,我們該如何科學健身?