-
1 # 融信教育
-
2 # 翊文化
幹資料這行的小夥伴們是不是經常聽到資料分析與資料探勘這兩個詞?有沒有覺得一頭霧水?那麼他們之間有什麼區別與聯絡呢?今天就為你一 一道來。
資料分析可以分為廣義的資料分析和狹義的資料分析,廣義的資料分析就包括狹義的資料分析和資料探勘,我們常說的資料分析就是指狹義的資料分析。
我們可以從定義、目的、方法、結果這四個角度來了解對比資料分析(狹義)與資料探勘之間的區別與聯絡。
綜合起來,資料分析(狹義)與資料探勘的本質都是一樣的,都是從資料裡面發現關於業務的知識(有價值的資訊),從而幫助業務運營、改進產品以及幫助企業做更好的決策。所以資料分析(狹義)與資料探勘構成廣義的資料分析。
-
3 # 非人類SsS
我覺得對於大資料分析,你首先要弄明白大資料分析的目的是什麼,無論用什麼工具分析和處理資料,最終輸出的結果都是為了:1.得到有價值的結論(對應分析報告);2.得到有價值的決策過程(對應機器學習模型)。
它包括以下幾個步驟:1.提出假設;2.用統計方法驗證假設;3.選取資料(excel/Hive/Spark);3.清洗和整理資料(R);4.視覺化(excel);5.顯示給其他人(PPT)。
所以在學習過程中,要學會提取資料(很多資料都不是一手的,要學會提取有效有用資料),清洗資料(去除噪聲和無關資料)處理資料(用軟體處理資料),分析資料(要能看懂資料得到有價值的結論),視覺化(將資料轉為影象或圖形)。也要學會資料庫需要,必要的程式設計等。
這是一個慢慢進階的過程,需要多學習,多實踐,多堅持。
-
4 # 加米穀大資料
大資料分析是指對規模巨大的資料進行分析。
對大資料bigdata進行採集、清洗、挖掘、分析等,大資料主要有資料採集、資料儲存、資料管理和資料分析與挖掘技術等:
資料處理:自然語言處理技術。
統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、多元迴歸分析、逐步迴歸、迴歸預測與殘差分析等。
資料探勘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和視覺化、Description and Visualization)、複雜資料型別挖掘(Text, Web ,圖形影象,影片,音訊等)。
隨著大資料的發展,大資料分析廣泛應用在各行各業,其中金融與零售行業 應用較為廣泛。
大資料分析方法:
大資料探勘:定義目標,並分析問題
開始大資料處理前,應該定好處理資料的目標,然後才能開始資料探勘。
大資料探勘:建立模型,採集資料
可以透過網路爬蟲,或者歷年的資料資料,建立對應的資料探勘模型,然後採集資料,獲取到大量的原始資料。
大資料探勘:匯入並準備資料
在透過工具或者指令碼,將原始轉換成可以處理的資料,
大資料分析演算法:機器學習
透過使用機器學習的方法,處理採集到的資料。根據具體的問題來定。這裡的方法就特別多。
大資料分析目標:語義引擎
處理大資料的時候,經常會使用很多時間和花費,所以每次生成的報告後,應該支援語音引擎功能。
大資料分析目標:產生視覺化報告,便於人工分析
透過軟體,對大量的資料進行處理,將結果視覺化。
大資料分析目標:預測性
透過大資料分析演算法,應該對於資料進行一定的推斷,這樣的資料才更有指導性。
-
5 # 山兆
我認為資料分析是一個很不專業的叫法,導致很多人對這個職業不瞭解,一頭霧水,不知道到底是要會統計還是要會程式設計,還是要懂業務?。如果我們把它換成統計分析,可能更恰當點。統計分析就是應用統計學的方法對資料進行分解彙總歸納總結,從而得出有意義的結論。這麼來說,統計分析師,應該是能把統計學和具體業務聯絡起來的人。統計學包含的內容比較廣泛,但是肯定和程式設計技術是有一定的分割界限的。統計分析師重在對統計方法數學模型的理解和運用,這是重點。然後說程式設計技能,這不過是提升統計分析效率的一個工具而已。程式設計這個事情是可以獨立出來成為一個職業的,美其名曰資料開發工程師,這裡面還可以再細分,這裡就不展開了。而且業務也可以和統計分析剝離開來,有管理,產品,運營,銷售,市場,科學研究等等,都可以用統計學的方法來提升業務效率。而且上述各部門都可以是一個獨立的體系,能要求統計分析人員都精通嗎?不太可能。所以,統計分析實際上充當了業務和資料之間的橋樑。具體統計側重和誰結合,都會成為一個不同的方向。統計分析本身也是很廣的,有偏重演算法挖掘的,演算法又能再細分。總之,資料分析師太過籠統,幾乎所有和資料打交道的人都能算資料分析師,採集資料的,存資料的,清洗資料的,分析研究資料的,做資料報表的都可以算,這就是它模糊讓人不知所措的原因。
-
6 # 誨知留學
以下內容是我翻譯過來的,水平不高,大家多多包涵。
什麼是大資料
大資料產生的原始驅動力
•人口增加
•我們產生了更多的資料,尤其是網際網路活動(非常重要)
•我們重視這些資料。我們現在知道如何收集資料(在商業、科學、醫療等方面)。因此,在從任何資料來源收集/儲存資料方面都投入了大量精力。
大資料科學的主要任務:
•利用大資料:儲存、操作、挖掘、分析
•它帶來了十幾種新的吸引力:資料科學家、資料探勘者、資料分析師……等等。
大資料 vs 傳統研究方式
傳統的研究方式:
步驟1:建立一個物理模型(最難的一步)
步驟2:在實驗中進行測試步驟
基於大資料的研究方式:
步驟1: 進行足夠的實驗並收集資料
步驟 2: 直接從資料中分析出patterns ,即使無法解釋這些patterns是怎麼來的,也可以使用
大資料分析師的專業基礎和能力要求
分析能力
• 88%的資料分析師有碩士學位,46%有博士學位
• 專業方面,數學和統計佔32%,計算機19%,工程16%
程式語言
• 越來越多的人使用python程式設計,特別是人工智慧相關領域;
• R在非人工智慧領域的使用面也非常廣,一般美國的統計系都是用R;
• 藥廠一般用SAS,但醫療其他科研人員用R非常多;
• Matlab使用率在下降
計算機技能
• Hadoop平臺:在網際網路和金融公司比較多;
• SQL資料庫:傳統零售、銀行等用的比較多;
• 非結構化資料:在媒體、自然語言、社交網路用的比較多;
非技術方面
• 領域知識:金融、遊戲、社交網路、醫藥等各個領域要精通一方面;
• 溝通能力:如書面、口頭表達能力,工作中慢慢培養;
• 持續學習:各種技術模型持續發展,自己也要保持進步
-
7 # 數通暢聯
大資料分析是指對規模巨大的資料進行採集、儲存、管理和分析。大資料主要分為視覺化分析、資料探勘演算法、預測性分析能力、語義引擎、資料管理、資料質量、資料儲存和資料倉庫六個基本方面。
首先企業需要制定一套完善的資料治理標準,來簡化資料的清洗工作,將內外部的基礎資料進行統一治理整合,解決資料不精確、不完整、不一致的問題。透過資料來發現問題、然後將發現的問題進行反饋,透過一些數學演算法深入挖掘資料的價值從而獲取黃金資料,保證資料的一致性、完整性、準確性,實現資料的價值。
然後可以透過構建大資料分析平臺對資料進行處理和分析,其中大資料分析平臺具備資料採集、資料儲存、資料交換、資料分析與處理、資料展示等功能。在企業已有資料的基礎上構建資料倉庫,然後將資料使用ETL進行抽取到中間庫,在中間庫對資料進行處理後再儲存到數倉之中,接著對處理後的資料進行分析和預測判斷。
最終再以匯出報表、大屏視覺化展示或者以PPT的形式直觀的提供給企業經營決策者,方便決策者進行經營決策方面的管控以及幫助企業分析利潤、專案、經營、營銷等執行情況。
回覆列表
大資料分析的六個基本方面1. Analytic Visualizations(視覺化分析) 不管是對資料分析專家還是普通使用者,資料視覺化是資料分析工具最基本的要求。視覺化可以直觀的展示資料,讓資料自己說話,讓觀眾聽到結果。[1] 2. Data Mining Algorithms(資料探勘演算法) 視覺化是給人看的,資料探勘就是給機器看的。叢集、分割、孤立點分析還有其他的演算法讓我們深入資料內部,挖掘價值。這些演算法不僅要處理大資料的量,也要處理大資料的速度。[1] 3. Predictive Analytic Capabilities(預測性分析能力) 資料探勘可以讓分析員更好的理解資料,而預測性分析可以讓分析員根據視覺化分析和資料探勘的結果做出一些預測性的判斷。[1] 4. Semantic Engines(語義引擎) 我們知道由於非結構化資料的多樣性帶來了資料分析的新的挑戰,我們需要一系列的工具去解析,提取,分析資料。語義引擎需要被設計成能夠從“文件”中智慧提取資訊。[1] 5. Data Quality and Master Data Management(資料質量和資料管理)資料質量和資料管理是一些管理方面的最佳實踐。透過標準化的流程和工具對資料進行處理可以保證一個預先定義好的高質量的分析結果。[1] 假如大資料真的是下一個重要的技術革新的話,我們最好把精力關注在大資料能給我們帶來的好處,而不僅僅是挑戰。[1] 6.資料儲存,資料倉庫資料倉庫是為了便於多維分析和多角度展示資料按特定模式進行儲存所建立起來的關係型資料庫。在商業智慧系統的設計中,資料倉庫的構建是關鍵,是商業智慧系統的基礎,承擔對業務系統資料整合的任務,為商業智慧系統提供資料抽取、轉換和載入(ETL),並按主題對資料進行查詢和訪問,為聯機資料分析和資料探勘提供資料平臺。[2]