對於一個數據科學愛好者來說,透過資料科學競賽來訓練自己的思維和演算法能力。那怎麼正常開啟資料科學競賽?下面以Kaggle上資料科學競賽為例,大家都知道Kaggle是,是一個進行資料發掘和預測競賽的線上平臺。
雖然Kaggle比賽歡迎每一個數據科學愛好者,但是還是需要一點專業門檻才能更好提高提升。參賽者最好具有統計、計算機或數學相關背景,有一定的coding技能,對機器學習和深度學習有基本的瞭解。Kaggle任務雖然不限制程式語言,但絕大多數隊伍會選用Python和R,所以你應該至少熟悉其中一種。此外,對於那些對成績有追求的人,Feature Engineering也是必不可少的。
所以在參加這些競賽之前還是需要有這麼基礎,不過學習一段時間還是可以入門的。如果一開始還沒參加過專案,可以從練習賽開始:
1.Titanic(泰坦尼克之災)
中文教程:
https://blog.csdn.net/han_xiaoyang/article/details/49797143
2.House Prices: Advanced Regression Techniques(房價預測)
英文教程:
https://www.kaggle.com/neviadomski/how-to-get-to-top-25-with-simple-model-sklearn
以上兩個專案認真學習別人是怎麼分析的,一開始就是學會看懂別人的,但去自己按照自己的思路再去寫一遍。
jupyter
PyCharm+flake8
Flake8 是由Python官方釋出的一款輔助檢測Python程式碼是否規範的工具,相對於目前熱度比較高的Pylint來說,Flake8檢查規則靈活,支援整合額外外掛,擴充套件性強。Flake8是對下面三個工具的封裝:1)PyFlakes:靜態檢查Python程式碼邏輯錯誤的工具。2)Pep8: 靜態檢查PEP8編碼風格的工具。3)NedBatchelder’s McCabe script:靜態分析Python程式碼複雜度的工具。不光對以上三個工具的封裝,Flake8還提供了擴充套件的開發介面。
對於一個數據科學愛好者來說,透過資料科學競賽來訓練自己的思維和演算法能力。那怎麼正常開啟資料科學競賽?下面以Kaggle上資料科學競賽為例,大家都知道Kaggle是,是一個進行資料發掘和預測競賽的線上平臺。
需要哪些技能?雖然Kaggle比賽歡迎每一個數據科學愛好者,但是還是需要一點專業門檻才能更好提高提升。參賽者最好具有統計、計算機或數學相關背景,有一定的coding技能,對機器學習和深度學習有基本的瞭解。Kaggle任務雖然不限制程式語言,但絕大多數隊伍會選用Python和R,所以你應該至少熟悉其中一種。此外,對於那些對成績有追求的人,Feature Engineering也是必不可少的。
所以在參加這些競賽之前還是需要有這麼基礎,不過學習一段時間還是可以入門的。如果一開始還沒參加過專案,可以從練習賽開始:
1.Titanic(泰坦尼克之災)
中文教程:
https://blog.csdn.net/han_xiaoyang/article/details/49797143
2.House Prices: Advanced Regression Techniques(房價預測)
英文教程:
https://www.kaggle.com/neviadomski/how-to-get-to-top-25-with-simple-model-sklearn
以上兩個專案認真學習別人是怎麼分析的,一開始就是學會看懂別人的,但去自己按照自己的思路再去寫一遍。
開發IDEjupyter
EDA視覺化任務PyCharm+flake8
Flake8 是由Python官方釋出的一款輔助檢測Python程式碼是否規範的工具,相對於目前熱度比較高的Pylint來說,Flake8檢查規則靈活,支援整合額外外掛,擴充套件性強。Flake8是對下面三個工具的封裝:1)PyFlakes:靜態檢查Python程式碼邏輯錯誤的工具。2)Pep8: 靜態檢查PEP8編碼風格的工具。3)NedBatchelder’s McCabe script:靜態分析Python程式碼複雜度的工具。不光對以上三個工具的封裝,Flake8還提供了擴充套件的開發介面。
對kaggle參賽者建議去論壇複製借鑑一下別人的核心程式碼調整一些引數,重新訓練你的模型,提交你的預測結果發展出這一種直覺,你需要能夠感覺出什麼方案可行或者什麼方案不可行在這一階段,你就需要將學習作為實驗的一部分首先就是在mlcourse.ai, CS231n網站上或者專業書中學習數學、統計學、如何編寫程式碼等基礎知識其次,你會在論壇上看到很多與你試圖解決的問題相關的新術語,你需要記住這些術語,這些都是你需要學習的新事物你不能只學習或者實驗,你需要兩個同時進行瀏覽論壇,看一看那些獲勝者分享的解決方案,嘗試著去找到更好的解決辦法。當下一次你遇到了相似問題的時候,你會比現在好得多。在不同的競賽中一遍又一遍的嘗試,你就可以到達頂峰。更重要的是,對於各種問題你都會有好的解決方法。同時,如果你在比賽、工作或者科研中遇到了一些機器學習的難題,你會擁有更好的直覺知道下一步該怎麼解決。我是DaTalker,資料科學愛好者,資料分析師,歡迎關注我,挖掘資料價值。