如何正確開啟資料科學競賽？

首頁>Club>科技小Pro2021-04-05 14:55

如何正確開啟資料科學競賽？

回覆列表

1 # DataTalking

對於一個數據科學愛好者來說，透過資料科學競賽來訓練自己的思維和演算法能力。那怎麼正常開啟資料科學競賽？下面以Kaggle上資料科學競賽為例，大家都知道Kaggle是，是一個進行資料發掘和預測競賽的線上平臺。
需要哪些技能？
雖然Kaggle比賽歡迎每一個數據科學愛好者，但是還是需要一點專業門檻才能更好提高提升。參賽者最好具有統計、計算機或數學相關背景，有一定的coding技能，對機器學習和深度學習有基本的瞭解。Kaggle任務雖然不限制程式語言，但絕大多數隊伍會選用Python和R，所以你應該至少熟悉其中一種。此外，對於那些對成績有追求的人，Feature Engineering也是必不可少的。
所以在參加這些競賽之前還是需要有這麼基礎，不過學習一段時間還是可以入門的。如果一開始還沒參加過專案，可以從練習賽開始：

1.Titanic（泰坦尼克之災）

中文教程：

https://blog.csdn.net/han_xiaoyang/article/details/49797143

2.House Prices: Advanced Regression Techniques（房價預測）

英文教程：

https://www.kaggle.com/neviadomski/how-to-get-to-top-25-with-simple-model-sklearn

以上兩個專案認真學習別人是怎麼分析的，一開始就是學會看懂別人的，但去自己按照自己的思路再去寫一遍。
開發IDE
jupyter
EDA視覺化任務
PyCharm+flake8

Flake8 是由Python官方釋出的一款輔助檢測Python程式碼是否規範的工具，相對於目前熱度比較高的Pylint來說，Flake8檢查規則靈活，支援整合額外外掛，擴充套件性強。Flake8是對下面三個工具的封裝：1）PyFlakes：靜態檢查Python程式碼邏輯錯誤的工具。2）Pep8：靜態檢查PEP8編碼風格的工具。3）NedBatchelder’s McCabe script：靜態分析Python程式碼複雜度的工具。不光對以上三個工具的封裝，Flake8還提供了擴充套件的開發介面。
對kaggle參賽者建議去論壇複製借鑑一下別人的核心程式碼調整一些引數，重新訓練你的模型，提交你的預測結果發展出這一種直覺，你需要能夠感覺出什麼方案可行或者什麼方案不可行在這一階段，你就需要將學習作為實驗的一部分首先就是在mlcourse.ai, CS231n網站上或者專業書中學習數學、統計學、如何編寫程式碼等基礎知識其次，你會在論壇上看到很多與你試圖解決的問題相關的新術語，你需要記住這些術語，這些都是你需要學習的新事物你不能只學習或者實驗，你需要兩個同時進行瀏覽論壇，看一看那些獲勝者分享的解決方案，嘗試著去找到更好的解決辦法。當下一次你遇到了相似問題的時候，你會比現在好得多。在不同的競賽中一遍又一遍的嘗試，你就可以到達頂峰。更重要的是，對於各種問題你都會有好的解決方法。同時，如果你在比賽、工作或者科研中遇到了一些機器學習的難題，你會擁有更好的直覺知道下一步該怎麼解決。我是DaTalker，資料科學愛好者，資料分析師，歡迎關注我，挖掘資料價值。

∧ 中秋節和大豐收的關聯？

∨ 中華V7跟瑞虎8，哪個更適合7人坐？買哪個合適？

熱門排行

劇多

如何正確開啟資料科學競賽？