-
1 # ID金額胡說不完i
-
2 # 西線學院
決策樹是一種樹形結構,為人們提供決策依據,決策樹可以用來回答yes和no問題,它透過樹形結構將各種情況組合都表示出來,每個分支表示一次選擇(選擇yes還是no),直到所有選擇都進行完畢,最終給出正確答案。
如果你對統計學有所瞭解,那麼你必定聽說過線性迴歸。最小均方就是用來求線性迴歸的。如下圖所示,平面內會有一系列點,然後我們求取一條線,使得這條線儘可能擬合這些點分佈,這就是線性迴歸。這條線有多種找法,最小二乘法就是其中一種。最小二乘法其原理如下,找到一條線使得平面內的所有點到這條線的歐式距離和最小。這條線就是我們要求取得線。
線性指的是用一條線對資料進行擬合,距離代表的是資料誤差,最小二乘法可以看做是誤差最小化。
那麼為什整合分類器要比單個分類器效果好呢?
1.偏差均勻化:如果你將民主黨與共和黨的投票數算一下均值,可定會得到你原先沒有發現的結果,整合學習與這個也類似,它可以學到其它任何一種方式都學不到的東西。
2.減少方差:總體的結果要比單一模型的結果好,因為其從多個角度考慮問題。類似於股票市場,綜合考慮多隻股票可以要比只考慮一隻股票好,這就是為什麼多資料比少資料效果好原因,因為其考慮的因素更多。
3.不容易過擬合。如果的一個模型不過擬合,那麼綜合考慮多種因素的多模型就更不容易過擬合了。
首要問題:“語言的選擇”
擺在題主面前的首要問題是“入門”,所以我們需要在前人的基礎上進行理解和應用。在這裡我推薦Python,除了Python語法簡潔靈活以外,目前人工智慧或者機器學習庫在Python語言上最為豐富和完善——是的,沒有之一。
這裡我想解釋一下“庫”的概念,目前語言的一個趨勢就是提高工作效率,也即“拿來主義”,別人做好的東西你可以直接拿來用,單這並不是說你什麼都不需要做了,而是這只是一個工具,單是理解如何使用工具就不是一個輕鬆的事情。
如果題主想從0開始自己寫機器學習的工具,那麼我不推薦,一般來說大多數人沒有這個能力,也確實沒有必要。
所謂【分類】,舉個列子,就是人有男女性別之分,回答有正確錯誤之分,相貌有美醜之分;所謂【聚類】,你不能判斷一個東西的具體類別而是說大致更接近什麼,通俗來說就是更加模糊的分類,一個四不像的動物從機率來說更像什麼;所謂【迴歸】,針對一系列連續的值,比如明天的天氣是20℃還是21或者30這樣、或者小明數學成績考了60分還是72分。
明白了問題的型別,我們才能選擇特定的演算法:針對【分類】問題,可以選擇KNN演算法、決策樹、樸素貝葉斯、支援向量機、邏輯斯蒂迴歸;針對【聚類】可以使用K-mean演算法;針對【迴歸】問題,可以選決策樹、樸素貝葉斯、支援向量機。(對的,我沒有寫錯,決策樹、樸素貝葉斯、支援向量機既可以分類也可以迴歸)值得一提得是,邏輯斯蒂迴歸雖然是迴歸命名,但卻只能用於分類。
-
3 # 英語學人
當前運用的人工智慧的演算法,在本質上就是輸入x得到反饋y。
至於怎麼從x得到的y,我們可以列一個線性方程y = mx + b。
它表示是x和y的關係。只不過是從前我們學的是根據x求y,在人工智慧領域是,知道輸入x和輸出y,要求出的是係數m和常數b。
線性迴歸有監督學習就是持續輸入大量的配對的x和y,調整係數m和常數b,讓線性方程更好的匹配資料。這個方程永遠不能以百分之百的準確率匹配x和y,但是它能被用來做預測。一旦你確定了一個可靠的函式,你輸入x的值,變成得到一個正確率很高的y值。
即使複雜如阿爾法狗,它不過是得到了一個無比複雜的係數m,萬變不離其宗,它的演算法仍然能被表達為y = mx + b。
聚類分析有監督學習還可以被用來做分類,類似於把水從池子裡分到桶裡。例如,如果資料帶有特點x,它進入一號桶;如果沒有,它進入二號桶。在這種情況下,你仍然可能認為這是在用x預測y,只是在這裡y不是數值而是類別。當然,分水的桶可以準備很多。
分類演算法可以來過濾垃圾郵件,分析x光片的異常,確認案件的相關資料,為一個崗位選擇合適的簡歷,甚至做market segmentation。
回覆列表
人工智慧是個大概念,包含的方向和內容很多。可以說只要有點智慧的都可以叫人工智慧,想影象識別,視覺導航,神經網路,控制領域模糊控制等等,目前他本身並無明確的發展方向,分之也多很難說要從哪上手。選擇你自己喜歡的一個方向就好。個人感覺目前的技術里人工智慧還很遠,有過度炒作,泡沫化的趨勢。字面意思人工智慧,什麼叫人工智慧?顧名思義就是模仿人腦的思維。現在各行各業,為了炒作自己的熱度,只要有點技術含量的都冠以人工智慧,這種掛羊頭賣狗肉風氣值得警惕。發展人工智慧是好事,但是我們必須以嚴謹的心態實事求是的做下去才行。