資料探勘主要研究方向包含演算法研究和應用研究兩個方面。
1.資料探勘演算法研究。目前資料探勘的主流演算法包含統計學習類演算法和機器學習類演算法(監督學習、半監督學習、強化學習等)、 而機器學習演算法裡面最熱門的就是深度神經網路演算法,主要工作是找到更加先進的演算法或改進這些演算法,使其在資料探勘方面更有 效率,或者將這些演算法做成工具,使用起來更方便,降低演算法門檻。
2.應用研究,主要是大資料分析範疇。資料探勘在人文社科、經濟、醫療、理工科等各個領域都有極強的應用前景。
第一步,選定某個自己擅長的領域,找到獲取該領域資料的途徑,這一步看似簡單,其實很難,一方面是需要的資料量非常大而 且要全面,另一方面是要儘可能保證獲取的資料的真實性,這個前提沒做好,後面的分析毫無意義。
第二步,資料清理,必須瞭解資料清理的常用演算法,對資料進行冗餘清理和標準化處理等。
第三步,選擇合適的演算法,不斷做實驗,獲得實驗結論
第四步,建立適當的結論評價標準,判斷第三步的結論是否有實際意義,如果結論存在明顯錯誤或者無法自洽,則從新選擇演算法 ,如果換了多個演算法,結論仍然無意義,則考慮是資料存在問題,很可能需要從新找資料,或者考慮之前的資料不夠充分,還需要 補充其他方面的資料重新分析。
另外,資料探勘需要具備的知識體系至少包含統計分析、機器學習、神經網路、資料庫。入門門檻建議是985碩士及以上。
資料探勘主要研究方向包含演算法研究和應用研究兩個方面。
1.資料探勘演算法研究。目前資料探勘的主流演算法包含統計學習類演算法和機器學習類演算法(監督學習、半監督學習、強化學習等)、 而機器學習演算法裡面最熱門的就是深度神經網路演算法,主要工作是找到更加先進的演算法或改進這些演算法,使其在資料探勘方面更有 效率,或者將這些演算法做成工具,使用起來更方便,降低演算法門檻。
2.應用研究,主要是大資料分析範疇。資料探勘在人文社科、經濟、醫療、理工科等各個領域都有極強的應用前景。
第一步,選定某個自己擅長的領域,找到獲取該領域資料的途徑,這一步看似簡單,其實很難,一方面是需要的資料量非常大而 且要全面,另一方面是要儘可能保證獲取的資料的真實性,這個前提沒做好,後面的分析毫無意義。
第二步,資料清理,必須瞭解資料清理的常用演算法,對資料進行冗餘清理和標準化處理等。
第三步,選擇合適的演算法,不斷做實驗,獲得實驗結論
第四步,建立適當的結論評價標準,判斷第三步的結論是否有實際意義,如果結論存在明顯錯誤或者無法自洽,則從新選擇演算法 ,如果換了多個演算法,結論仍然無意義,則考慮是資料存在問題,很可能需要從新找資料,或者考慮之前的資料不夠充分,還需要 補充其他方面的資料重新分析。
另外,資料探勘需要具備的知識體系至少包含統計分析、機器學習、神經網路、資料庫。入門門檻建議是985碩士及以上。