首頁>Club>
7
回覆列表
  • 1 # DataTalking

    對於一個數據科學愛好者來說,透過資料科學競賽來訓練自己的思維和演算法能力。那怎麼正常開啟資料科學競賽?下面以Kaggle上資料科學競賽為例,大家都知道Kaggle是,是一個進行資料發掘和預測競賽的線上平臺。

    需要哪些技能?

    雖然Kaggle比賽歡迎每一個數據科學愛好者,但是還是需要一點專業門檻才能更好提高提升。參賽者最好具有統計、計算機或數學相關背景,有一定的coding技能,對機器學習和深度學習有基本的瞭解。Kaggle任務雖然不限制程式語言,但絕大多數隊伍會選用Python和R,所以你應該至少熟悉其中一種。此外,對於那些對成績有追求的人,Feature Engineering也是必不可少的。

    所以在參加這些競賽之前還是需要有這麼基礎,不過學習一段時間還是可以入門的。如果一開始還沒參加過專案,可以從練習賽開始:

    1.Titanic(泰坦尼克之災)

    中文教程:

    https://blog.csdn.net/han_xiaoyang/article/details/49797143

    2.House Prices: Advanced Regression Techniques(房價預測)

    英文教程:

    https://www.kaggle.com/neviadomski/how-to-get-to-top-25-with-simple-model-sklearn

    以上兩個專案認真學習別人是怎麼分析的,一開始就是學會看懂別人的,但去自己按照自己的思路再去寫一遍。

    開發IDE

    jupyter

    EDA視覺化任務

    PyCharm+flake8

    Flake8 是由Python官方釋出的一款輔助檢測Python程式碼是否規範的工具,相對於目前熱度比較高的Pylint來說,Flake8檢查規則靈活,支援整合額外外掛,擴充套件性強。Flake8是對下面三個工具的封裝:1)PyFlakes:靜態檢查Python程式碼邏輯錯誤的工具。2)Pep8: 靜態檢查PEP8編碼風格的工具。3)NedBatchelder’s McCabe script:靜態分析Python程式碼複雜度的工具。不光對以上三個工具的封裝,Flake8還提供了擴充套件的開發介面。

    對kaggle參賽者建議去論壇複製借鑑一下別人的核心程式碼調整一些引數,重新訓練你的模型,提交你的預測結果發展出這一種直覺,你需要能夠感覺出什麼方案可行或者什麼方案不可行在這一階段,你就需要將學習作為實驗的一部分首先就是在mlcourse.ai, CS231n網站上或者專業書中學習數學、統計學、如何編寫程式碼等基礎知識其次,你會在論壇上看到很多與你試圖解決的問題相關的新術語,你需要記住這些術語,這些都是你需要學習的新事物你不能只學習或者實驗,你需要兩個同時進行瀏覽論壇,看一看那些獲勝者分享的解決方案,嘗試著去找到更好的解決辦法。當下一次你遇到了相似問題的時候,你會比現在好得多。在不同的競賽中一遍又一遍的嘗試,你就可以到達頂峰。更重要的是,對於各種問題你都會有好的解決方法。同時,如果你在比賽、工作或者科研中遇到了一些機器學習的難題,你會擁有更好的直覺知道下一步該怎麼解決。我是DaTalker,資料科學愛好者,資料分析師,歡迎關注我,挖掘資料價值。

  • 中秋節和大豐收的關聯?
  • 中華V7跟瑞虎8,哪個更適合7人坐?買哪個合適?