大資料時代和大資料分析時代已經來臨。到2025年,全球資料領域估計將增長到175ZB。
當然,網際網路流量只是全球建立和儲存的資料餅中的一小部分,其中也包括所有個人和企業資料。如今,整個世界的總資料量介於10至50ZB之間。我們如何處理所有這些資料?透過網路,個人裝置,物聯網等不斷收集資料有什麼好處?
答案是:“分析以獲取見解”。
在無盡的資料海洋中的某個地方,存在著問題的答案,這些問題將推動企業、政府和整個社會的未來決策。
但是有了這麼多資料,應該從哪裡開始呢?
在本文中,我將向大家介紹大資料分析的基礎知識,並幫助理解為什麼它如此重要。你將瞭解它帶來的好處、面臨的挑戰、如何分析資料以及大資料分析領域的諸多問題。
-------------------------------------------------------------------------------------------
目錄什麼是大資料分析大資料分析的好處大資料分析挑戰資料型別大資料分析的型別資料分析過程-------------------------------------------------------------------------------------------
一、什麼是大資料分析?大資料涉及“三個V”:體積、速度、種類。
IBM將大資料定義為一個術語,適用於其大小或型別超出傳統關係資料庫以低延遲捕獲、管理和處理資料的能力的資料集。
大資料具有以下一個或多個特徵:高容量、高速度、高多樣性。人工智慧(AI)、移動、社交和物聯網(IoT)透過新的資料形式和資料來源來推動資料複雜性。例如,大資料來自感測器、裝置、影片和音訊、網路、日誌檔案、事務性應用程式、Web和社交媒體,其中大部分實時且大規模生成。
二、大資料分析的好處大資料洞察力可以為公司的營收和營收帶來重大利益。從幫助發現根本問題到更好地瞭解客戶和運營,再到通知交流,大資料洞察力對組織的影響幾乎無窮大。
1、大資料分析在業務中的好處
更快,更明智的決策:實時處理和分析資料的能力意味著公司可以立即採取行動來解決問題,調整策略或破譯市場趨勢。
高效的運營:許多公司使用大資料分析來獲取有關內部供應鏈或服務的見解,允許他們進行更改並根據最新資訊簡化運營。
降低成本:公司不僅可以透過提高運營效率來降低成本,而且當今的大資料分析基礎架構的成本要比過去的資料系統低得多。藉助雲,公司不再需要建立整個資料中心、管理硬體或僱用大型IT人才來維持工作。這些基於雲的分析“堆疊”意味著他們可以從自己的資料中獲得更多收益而無需花費很多資金。
改進的產品或服務開發:實時的市場,客戶或行業洞察力可以幫助公司構建下一個出色的產品,或建立客戶急需的服務。
2、大資料分析在政務中的好處
大資料分析的影響並不僅限於私營部門。如今,政府利用大資料為新的政策議程提供資訊,對基礎設施進行全面改進,並投資於新的社會計劃。以下是一些公共部門工作的大資料分析的最新示例。
公共教育:教育部使用大資料來改善教學方法和學生學習。高等教育機構應用分析來提高服務質量,從而提高學生的成績。
經濟法規:大資料分析有助於從歷史經濟資料建立財務模型,以制定未來的政策。證券交易委員會使用大資料來規範金融活動,發現不良行為者並發現金融欺詐行為。
環境保護:二十多年來,能源部在其研究中一直使用資料分析來更好地預測天氣模式、森林火災和其他環境風險。
三、大資料分析面臨的挑戰儘管大資料應用程式在企業中無處不在,但是部署大資料分析策略的公司和政府仍然面臨許多挑戰。
1、資料增長
如前所述,資料建立的速度驚人。企業使用大資料分析面臨的最大挑戰之一是儲存和分析每天收集的所有資料。使得這一點特別困難的是必須進行分析的非結構化資料量(稍後會詳細介紹)。
如果公司要使用資料,則必須將其儲存在某種型別的分析資料庫中,例如資料倉庫。隨著人工智慧(AI)和機器學習(ML)應用的興起,資料湖也經常被使用。當然,儲存只是其中的一部分,維護沒有錯誤、重複和過時或“壞”資料的健康資料庫,還需要人力資源進行管理。這就是為什麼當今一些以資料為主導的公司擁有由工程師、資料科學家和分析師組成的大型資料團隊的原因。隨著公司擴充套件和建立更多資料,隨著時間的推移,資料基礎架構變得越來越復。
2、資料整合
由於資料整合仍然是公司面臨的挑戰,因此現代ETL和ELT工具不斷湧現,它們透過自動執行資料收集和傳輸到資料倉庫來簡化資料管道。這項技術使資料集中成為可能,並消除了業務團隊無法訪問的資料孤島。
3、及時的見解
就像這個世界上大多數事物一樣,資料也會過期。隨著當今建立新資料的速度加快,團隊必須利用最新資訊來制定決策,這不僅是必要的,而且也是當務之急。否則,他們冒著按照過時的假設進行操作的風險。
由於資料的保質期相對較短,因此組織必須在收集資料時實時分析資料。這需要強大的資料系統來在建立資料後立即收集資料,並將其轉換並存儲在分析資料庫中,以便在幾分鐘內就可以對其進行查詢。
4、管治
管理業務資料可能具有挑戰性。如前所述,它在不斷變化、老化並在多個系統之間移動。這可能會難以確保整個組織的資料完整性、可用性、可訪問性和安全性。這就是治理流程的來龍去脈。有了正確的大資料治理策略,資料就可以集中、一致、準確、可用且安全。大資料治理(和資料建模)還允許使用一組通用的資料格式和定義。
資料治理至關重要。如果資料對於業務部門不可用或不準確,則他們將無法做出明智的決策。資料隱私法規的增加也需要其他治理實踐來滿足合規性。這些法規正在推動大量未來的治理策略。
5、安全
資料安全將始終為企業帶來挑戰。資料非常有價值,並且隨著收集的敏感資訊量的增加,總會有減輕安全隱患的機會。
一些更常見的挑戰來自需要跟上快速變化的法規和安全形勢。這需要更新安全補丁,並在出現新威脅時更新IT系統。當今的分散式技術框架中固有的漏洞可以為不良行為者提供破壞系統的機會。還普遍使用了虛假資料或反情報資訊,這些資料可用於破壞資料庫並阻礙公司從虛構資訊中破譯事實。
四、資料型別1、定量資料和定性數
定量資料:
定量資料由硬數字組成,將其視為可以計數的事物。定量分析技術包括:
迴歸:預測因變數和一個或多個自變數之間的關係。分類(機率估計):預測或計算個人屬於某個類別的可能性。聚類:基於相似性對總體中的個體進行分組。定性資料:
定性資料比定量資料更具主觀性,結構性也較差。在業務領域,會遇到來自客戶調查和訪談的定性資料。常見的分析方法包括:
內容分析:用於對不同型別的文字和媒體進行分類。敘事分析:分析來自各種來源的內容,包括訪談和實地觀察。在進行分析時,確保指標採用公司已使用的格式。例如,如果公司按季度預算,則指標應反映相同的內容。2、結構化資料與非結構化資料
資料(無論是定量的還是定性的)可以根據資訊的性質、資訊的收集方式、儲存的位置以及是由人還是由機器建立的,而採用多種形狀。要考慮的資料結構有兩個主要級別:結構化資料和非結構化資料。
結構化資料:
結構化資料是經過嚴格格式化的資訊,因此可以在關係資料庫中輕鬆地進行搜尋。通常是定量資訊。示例包括名稱、日期、電子郵件、價格以及我們用來檢視儲存在電子表格中的其他資訊。
結構化資料透過機器程式碼進行組織和讀取,從而使使用SQL在關係資料庫中輕鬆新增、搜尋或操作結構化資料成為可能。例如,電子商務在銷售點收集的資訊可能包括產品名稱、購買日期、價格、UPC編號、付款方式和客戶資訊,所有這些資訊很容易在以後搜尋或分析以發現趨勢或回答問題。
乍一看,很難僅從結構化資料中提取見解。但是使用分析工具,可能會破譯有趣的趨勢,例如波士頓的客戶傾向於在2月和3月以更高的價格購買特定產品。這種洞察力可能會提醒你在那幾個月內增加零售商店該商品的庫存,以滿足區域需求。
非結構化資料:
非結構化資料與結構化資料完全相反。它通常是定性資料,使用傳統的資料庫或電子表格進行搜尋,操作和分析具有挑戰性。常見示例包括影象、音訊檔案、文件格式或某人的社交媒體活動。
非結構化資料缺乏預先定義的資料模型,因此不容易在關係資料庫中讀取或分析,這意味著需要非關係(或NoSQL)資料庫或資料湖來進行搜尋。要從此類資料中提取見解,需要使用高階分析技術,例如資料探勘、資料堆疊和統計。
非結構化的資料洞察力可以幫助公司瞭解諸如客戶情緒和偏好、購買習慣等內容。分析這些型別的資料更具難度。但是,有了正確的資源,可以為你帶來競爭優勢的情報。
半結構化資料:
半結構化資料介於結構化和非結構化資料格式之間。該資料具有明確定義的特徵,但缺乏嚴格的關係結構。它包括可建立分類層次結構的語義標籤或元資料,從而使其在分析過程中更易於機讀。
大多數人遇到的最常見的日常示例是智慧手機照片。用智慧手機拍攝的普通照片包含非結構化的影象內容,但帶有時間戳,經過地理標記並攜帶有關裝置本身的可識別資訊。一些常見的半結構化資料格式包括JSON,CSV和XML檔案型別。
半結構化資料構成了當今世界上生成的大多數資料。想一想每天拍攝的所有照片。半結構化資料通常與移動應用程式,裝置和物聯網(IoT)相關聯。
五、大資料分析的型別有四種主要型別的分析,它們的複雜性和可為組織生成的見解的程度各不相同。儘管有這四個類別,但每個類別都是相互關聯的,可以彼此結合使用,以解鎖更深入,更有意義的理解。
1、描述性分析
描述性分析可幫助你回答“正在發生什麼?”的問題。它是最常見的分析形式,也是所有其他型別分析的基礎。
任何看過實時儀表板或閱讀季度報告的人都應該熟悉描述性分析。通常與跟蹤組織內的關鍵績效指標相關。實際上,這可能包括衡量市場營銷和銷售指標,例如第四季度合格潛在客戶的數量。
2、診斷分析
一旦你知道發生了什麼,自然會追蹤到一個問題:“為什麼發生?” 這就是診斷分析的亮點。
這種型別的分析需要在“儀表板後面”進行深入挖掘,以更好地瞭解特定結果或持續趨勢的根本原因。在實踐中,診斷分析可以幫助營銷團隊瞭解哪些廣告系列吸引了合格的潛在客戶。
3、預測分析
預測分析可以幫助回答“未來最有可能發生什麼?”
基於過去的趨勢,這種型別的分析使用歷史資料來預測未來的結果。預測分析建立在透過描述性和診斷性分析獲得的見解的基礎上,並使用統計模型來預測未來最可能發生的情況。
4、規範分析
規範分析有助於組織理解“下一步我們該做什麼?” 解決當前的趨勢或問題。它比其他分析形式更為複雜,這意味著大多數企業都缺乏部署它的資源。
規範分析通常需要使用高階資料科學和人工智慧來消化大量資訊,並提出解決現有組織問題的決策。
六、大資料分析流程如果沒有正確的流程,將很難從組織的資料中獲得分析見解。收集、處理和分析資料的過程與僅原始資料一樣重要。正確的過程可以確保從資料中得出的見解是準確、一致的,並且沒有產生錯誤趨勢。
1、瞭解資料目標和要求
對公司目標和需求的清晰瞭解將幫助你從一開始就進行大資料分析。你將收集什麼型別的資料?你將如何儲存它?誰來分析?所有這些問題都很重要,最終不僅決定你需要建立的資料基礎架構,而且還決定了你需要哪種型別的分析工具。
2、收集和集中資料以進行分析
明確瞭解目標後,需要從系統和應用程式中提取資料並將其傳輸到資料倉庫或資料湖。這就是ELT和ETL解決方案發揮作用的地方。它們幫助將資料複製到雲倉庫進行分析。這種集中式資料儲存可讓你更全面地瞭解整個公司的情況,並消除了沿途可能存在的任何資料孤島。可以從應用程式、電子商務事件、其他資料庫等捕獲資料。
3、為分析建模資料
一旦將資料放在中央資料儲存中,就可以從技術上對其進行分析。但是在開啟資料大門之前,你可能需要首先考慮資料模型。資料建模定義了資料如何關聯,其含義以及如何一起聯動。一個有效的模型可以使資料易於訪問和使用,並確保人們在適當的環境中使用正確的資訊,並且它需要資料與領域專家之間的緊密協作。
4、分析資料
在可查詢的資料倉庫中收集、處理、儲存和建模資料之後,你將需要一個分析工具,該工具可以完成所有資料的搜尋並返回可操作的見解以指導業務決策。從實時分析工具中充分了解你的需求至關重要。每個公司都是獨一無二的,需求會有所不同。我們建議評估內部需求,並使採購決策與這些目標保持一致。
還需要注意的是,並非所有分析工具都是相同的。公司通常會為不同的團隊或業務部門部署多種工具。考慮到這一點,這裡是選擇分析工具時要考慮的一些準則。
5、解釋見解並告知決策
使用各種型別的分析方法,你可以從公司資料中發現各種見解。可以分析過去,實時跟蹤操作,甚至預測未來可能發生的情況。這些趨勢可以提高競爭優勢,幫助建立更好的產品和服務,提供更好的客戶體驗等等。