回覆列表
-
1 # 今日頭條是我衣食父母
-
2 # 也許276544771
大資料分析主要依靠機器學習和大規模計算。機器學習包括監督學習、非監督學習、強化學習等,而監督學習又包括分類學習、迴歸學習、排序學習、匹配學習等。分類是最常見的機器學習應用問題,比如垃圾郵件過濾、人臉檢測、使用者畫像、文字情感分析、網頁歸類等,本質上都是分類問題。分類學習也是機器學習領域,研究最徹底、使用最廣泛的一個分支。
K最近鄰演算法。給定一些已經訓練好的資料,輸入一個新的測試資料點,計算包含於此測試資料點的最近的點的分類情況,哪個分類的型別佔多數,則此測試點的分類與此相同,所以在這裡,有的時候可以複製不同的分類點不同的權重。近的點的權重大點,遠的點自然就小點。詳細介紹連結
樸素貝葉斯演算法。樸素貝葉斯演算法是貝葉斯演算法裡面一種比較簡單的分類演算法,用到了一個比較重要的貝葉斯定理,用一句簡單的話概括就是條件機率的相互轉換推導。詳細介紹連結
樸素貝葉斯分類是一種十分簡單的分類演算法,叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素,樸素貝葉斯的思想基礎是這樣的:對於給出的待分類項,求解在此項出現的條件下各個類別出現的機率,哪個最大,就認為此待分類項屬於哪個類別。
大資料演算法有:1、圖形搜尋演算法;2、集束搜尋;3、二分查詢;4、分支界定演算法;5、Buchberger演算法;6、資料壓縮;7、Diffie-Hellman金鑰交換演算法;8、Dijkstra演算法;9、離散微分演算法;10、動態規劃演算法等等。
大資料等最核心的關鍵技術:32個演算法
1、A* 搜尋演算法——圖形搜尋演算法,從給定起點到給定終點計算出路徑。其中使用了一種啟發式的估算,為每個節點估算透過該節點的最佳路徑,並以之為各個地點排定次序。演算法以得到的次序訪問這些節點。因此,A*搜尋演算法是最佳優先搜尋的範例。
2、集束搜尋(又名定向搜尋,Beam Search)——最佳優先搜尋演算法的最佳化。使用啟發式函式評估它檢查的每個節點的能力。不過,集束搜尋只能在每個深度中發現最前面的m個最符合條件的節點,m是固定數字——集束的寬度。
3、二分查詢(Binary Search)——線上性陣列中找特定值的演算法,每個步驟去掉一半不符合要求的資料。
4、分支界定演算法(Branch and Bound)——在多種最最佳化問題中尋找特定最最佳化解決方案的演算法,特別是針對離散、組合的最最佳化。
5、Buchberger演算法——一種數學演算法,可將其視為針對單變數最大公約數求解的歐幾里得演算法和線性系統中高斯消元法的泛化。
6、資料壓縮——採取特定編碼方案,使用更少的位元組數(或是其他資訊承載單元)對資訊編碼的過程,又叫來源編碼。
7、Diffie-Hellman金鑰交換演算法——一種加密協議,允許雙方在事先不瞭解對方的情況下,在不安全的通訊通道中,共同建立共享金鑰。該金鑰以後可與一個對稱密碼一起,加密後續通訊。
8、Dijkstra演算法——針對沒有負值權重邊的有向圖,計算其中的單一起點最短演算法。
9、離散微分演算法(Discrete differentiation)。
10、動態規劃演算法(Dynamic Programming)——展示互相覆蓋的子問題和最優子架構演算法
11、歐幾里得演算法(Euclidean algorithm)——計算兩個整數的最大公約數。最古老的演算法之一,出現在公元前300前歐幾里得的《幾何原本》。
12、期望-最大演算法(Expectation-maximization algorithm,又名EM-Training)——在統計計算中,期望-最大演算法在機率模型中尋找可能性