回覆列表
-
1 # 孤獨小小小
-
2 # 湘藍宇軒
1、資料採集:ETL工具負責將分佈的、異構資料來源中的資料如關係資料、平面資料檔案等抽取到臨時中間層後進行清洗、轉換、整合,最後載入到資料倉庫或資料集市中,成為聯機分析處理、資料探勘的基礎。
2、資料存取:關係資料庫、SQL等。
3、基礎架構:雲端儲存、分散式檔案儲存等。
4、資料處理:自然語言處理是研究人與計算機互動的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解,也稱為計算語言學。一方面它是語言資訊處理的一個分支,另一方面它是人工智慧的核心課題之一。
5、統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、迴歸分析、簡單迴歸分析、多元迴歸分析、逐步迴歸、迴歸預測與殘差分析、嶺迴歸、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)等等。
6、資料探勘:分類 、估計、預測、相關性分組或關聯規則、聚類、描述和視覺化、複雜資料型別挖掘圖形影象,影片,音訊等)
7、模型預測:預測模型、機器學習、建模模擬。
8、結果呈現:雲計算、標籤雲、關係圖等。
大資料技術龐大複雜,基礎的技術包含資料的採集、資料預處理、分散式儲存、NoSQL資料庫、資料倉庫、機器學習、平行計算、視覺化等範疇