IBM的開源資料和人工智慧技術中心(CODAIT)正在釋出一個新的工具包,幫助開發人員和資料科學家回答有關疫情的問題。COVID notebooks旨在幫助完成一些任務,包括獲取有關疫情現狀的權威資料,清理最嚴重的資料質量問題,將資料整理成便於使用Pandas和Scikit-Learn等工具進行分析的格式,以及構建一組初始的示例報告和圖表。
處理好這些任務,開發人員和資料科學家就可以解放出來,專注於高階分析和建模任務,而不用擔心資料格式和資料清理等問題。該儲存庫使用開發者友好的Jupyter notebook來涵蓋每個初始資料分析步驟。此外還有使用Elyra Notebook Pipelines Visual Editor和KubeFlow Pipelines的資料處理管道。
“對於正在分析COVID-19效果並試圖根據資料提出可操作計劃的資料科學家和政策制定者來說,資訊景觀是壓倒性的,”IBM開源資料和AI技術中心的首席架構師Frederick Reiss說。“來自研究報告、新聞媒體、社交媒體和健康組織的資料幾乎源源不斷,這使得將資料分析為有用的行動的任務幾乎不可能完成。開發人員和資料科學家需要回答他們關於資料來源、工具以及如何從不斷變化的資料中得出有意義的、統計上有效的結論的問題。”
IBM的開源資料和人工智慧技術中心(CODAIT)正在釋出一個新的工具包,幫助開發人員和資料科學家回答有關疫情的問題。COVID notebooks旨在幫助完成一些任務,包括獲取有關疫情現狀的權威資料,清理最嚴重的資料質量問題,將資料整理成便於使用Pandas和Scikit-Learn等工具進行分析的格式,以及構建一組初始的示例報告和圖表。
處理好這些任務,開發人員和資料科學家就可以解放出來,專注於高階分析和建模任務,而不用擔心資料格式和資料清理等問題。該儲存庫使用開發者友好的Jupyter notebook來涵蓋每個初始資料分析步驟。此外還有使用Elyra Notebook Pipelines Visual Editor和KubeFlow Pipelines的資料處理管道。
“對於正在分析COVID-19效果並試圖根據資料提出可操作計劃的資料科學家和政策制定者來說,資訊景觀是壓倒性的,”IBM開源資料和AI技術中心的首席架構師Frederick Reiss說。“來自研究報告、新聞媒體、社交媒體和健康組織的資料幾乎源源不斷,這使得將資料分析為有用的行動的任務幾乎不可能完成。開發人員和資料科學家需要回答他們關於資料來源、工具以及如何從不斷變化的資料中得出有意義的、統計上有效的結論的問題。”