回覆列表
  • 1 # 自由職業者2925

    什麼是大資料:大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程最佳化能力的海量、高增長率和多樣化的資訊資產。

    大資料的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性),百度隨便找找都有。 

    大資料處理流程:

     1.是資料採集,搭建資料倉庫,資料採集就是把資料透過前端埋點,介面日誌呼叫流資料,資料庫抓取,客戶自己上傳資料,把這些資訊基礎資料把各種維度儲存起來,感覺有些資料沒用(剛開始做只想著功能,有些資料沒采集,  後來被老大訓了一頓)。

        2.資料清洗/預處理:就是把收到資料簡單處理,比如把ip轉換成地址,過濾掉髒資料等。

        3.有了資料之後就可以對資料進行加工處理,資料處理的方式很多,總體分為離線處理,實時處理,離線處理就是每天定時處理,常用的有阿里的maxComputer,hive,MapReduce,離線處理主要用storm,spark,hadoop,透過一些資料處理框架,可以吧資料計算成各種KPI,在這裡需要注意一下,不要只想著功能,主要是把各種資料維度建起來,基本資料做全,還要可複用,後期就可以把各種kpi隨意組合展示出來。

        4.資料展現,資料做出來沒用,要視覺化,做到MVP,就是快速做出來一個效果,不合適及時調整,這點有點類似於Scrum敏捷開發,資料展示的可以用datav,神策等,前端好的可以忽略,自己來畫頁面。

    資料採集:

        1.批資料採集,就是每天定時去資料庫抓取資料快照,我們用的maxComputer,可以根據需求,設定每天去資料庫備份一次快照,如何備份,如何設定資料來源,如何設定出錯,在maxComputer都有文件介紹,使用maxComputer需要註冊阿里雲服務

        2.實時介面呼叫資料採集,可以用logHub,dataHub,流資料處理技術,DataHub具有高可用,低延遲,高可擴充套件,高吞吐的特點。

    高吞吐:最高支援單主題(Topic)每日T級別的資料量寫入,每個分片(Shard)支援最高每日8000萬Record級別的寫入量。

    實時性:透過DataHub ,您可以實時的收集各種方式生成的資料並進行實時的處理,

    設計思路:首先寫一個sdk把公司所有後臺服務呼叫介面呼叫情況記錄下來,開闢執行緒池,把記錄下來的資料不停的往dataHub,logHub儲存,前提是設定好接收資料的dataHub表結構

    3.前臺資料埋點,這些就要根據業務需求來設定了,也是透過流資料傳輸到資料倉庫,如上述第二步。

    資料處理:

    資料採集完成就可以對資料進行加工處理,可分為離線批處理,實時處理。

        1.離線批處理maxComputer,這是阿里提供的一項大資料處理服務,是一種快速,完全託管的TB/PB級資料倉庫解決方案,編寫資料處理指令碼,設定任務執行時間,任務執行條件,就可以按照你的要求,每天產生你需要資料

        2.實時處理:採用storm/spark,目前接觸的只有storm,strom基本概念網上一大把,在這裡講一下大概處理過程,首先設定要讀取得資料來源,只要啟動storm就會不停息的讀取資料來源。Spout,用來讀取資料。Tuple:一次訊息傳遞的基本單元,理解為一組訊息就是一個Tuple。stream,用來傳輸流,Tuple的集合。Bolt:接受資料然後執行處理的元件,使用者可以在其中執行自己想要的操作。可以在裡邊寫業務邏輯,storm不會儲存結果,需要自己寫程式碼儲存,把這些合併起來就是一個拓撲,總體來說就是把拓撲提交到伺服器啟動後,他會不停讀取資料來源,然後透過stream把資料流動,透過自己寫的Bolt程式碼進行資料處理,然後儲存到任意地方,關於如何安裝部署storm,如何設定資料來源,網上都有教程,這裡不多說。

    資料展現:做了上述那麼多,終於可以直觀的展示了,由於前端技術不行,借用了第三方展示平臺datav,datav支援兩種資料讀取模式,第一種,直接讀取資料庫,把你計算好的資料,透過sql查出,需要配置資料來源,讀取資料之後按照給定的格式,進行格式化就可以展現出來

    @jiaoready @jiaoready 第二種採用介面的形式,可以直接採用api,在資料區域配置為api,填寫介面地址,需要的引數即可,這裡就不多說了。

  • 2 # 安世辰

    誠邀。

    大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程最佳化能力的海量、高增長率和多樣化的資訊資產。

    一、資料收集

    在資料收集過程中,資料來源會影響大資料質量的真實性、完整性資料收集、一致性、準確性和安全性。對於Web資料,多采用網路爬蟲方式進行收集,這需要對爬蟲軟體進行時間設定以保障收集到的資料時效性質量。比如可以利用八爪魚爬蟲軟體的增值API設定,靈活控制採集任務的啟動和停止。

    二、資料預處理

    大資料採集過程中通常有一個或多個數據源,這些資料來源包括同構或異構的資料庫、檔案系統、服務介面等,易受到噪聲資料、資料值缺失、資料衝突等影響,因此需首先對收集到的大資料集合進行預處理,以保證大資料分析與預測結果的準確性與價值性。

    大資料的預處理環節主要包括資料清理、資料整合、資料歸約與資料轉換等內容,可以大大提高大資料的總體質量,是大資料過程質量的體現。 資料清理技術包括對資料的不一致檢測、噪聲資料的識別、資料過濾與修正等方面,有利於提高大資料的一致性、準確性、真實性和可用性等方面的質量;

    資料整合則是將多個數據源的資料進行整合,從而形成集中、統一的資料庫、資料立方體等,這一過程有利於提高大資料的完整性、一致性、安全性和可用性等方面質量;。

    資料歸約是在不損害分析結果準確性的前提下降低資料集規模,使之簡化,包括維歸約、資料歸約、資料抽樣等技術,這一過程有利於提高大資料的價值密度,即提高大資料儲存的價值性。

    資料轉換處理包括基於規則或元資料的轉換、基於模型與學習的轉換等技術,可透過轉換實現資料統一,這一過程有利於提高大資料的一致性和可用性。

    總之,資料預處理環節有利於提高大資料的一致性、準確性、真實性、可用性、完整性、安全性和價值性等方面質量,而大資料預處理中的相關技術是影響大資料過程質量的關鍵因素

    三、資料處理與分析

    1、資料處理

    大資料的分散式處理技術與儲存形式、業務資料型別等相關,針對大資料處理的主要計算模型有MapReduce分散式計算框架、分散式記憶體計算系統、分散式流計算系統等。MapReduce是一個批處理的分散式計算框架,可對海量資料進行並行分析與處理,它適合對各種結構化、非結構化資料的處理。分散式記憶體計算系統可有效減少資料讀寫和移動的開銷,提高大資料處理效能。分散式流計算系統則是對資料流進行實時處理,以保障大資料的時效性和價值性。

    總之,無論哪種大資料分散式處理與計算系統,都有利於提高大資料的價值性、可用性、時效性和準確性。大資料的型別和儲存形式決定了其所採用的資料處理系統,而資料處理系統的效能與優劣直接影響大資料質量的價值性、可用性、時效性和準確性。因此在進行大資料處理時,要根據大資料型別選擇合適的儲存形式和資料處理系統,以實現大資料質量的最最佳化。

    2、資料分析

    大資料分析技術主要包括已有資料的分散式統計分析技術和未知資料的分散式挖掘、深度學習技術。分散式統計分析可由資料處理技術完成,分散式挖掘和深度學習技術則在大資料分析階段完成,包括聚類與分類、關聯分析、深度學習等,可挖掘大資料集合中的資料關聯性,形成對事物的描述模式或屬性規則,可透過構建機器學習模型和海量訓練資料提升資料分析與預測的準確性。

    資料分析是大資料處理與應用的關鍵環節,它決定了大資料集合的價值性和可用性,以及分析預測結果的準確性。在資料分析環節,應根據大資料應用情境與決策需求,選擇合適的資料分析技術,提高大資料分析結果的可用性、價值性和準確性質量。

    四、資料視覺化與應用環節

    資料視覺化是指將大資料分析與預測結果以計算機圖形或影象的直觀方式顯示給使用者的過程,並可與使用者進行互動式處理。資料視覺化技術有利於發現大量業務資料中隱含的規律性資訊,以支援管理決策。資料視覺化環節可大大提高大資料分析結果的直觀性, 便於使用者理解與使用,故資料視覺化是影響大資料可用性和易於理解性質量的關鍵因素。

    大資料應用是指將經過分析處理後挖掘得到的大資料結果應用於管理決策、戰略規劃等的過程,它是對大資料分析結果的檢驗與驗證,大資料應用過程直接體現了大資料分析處理結果的價值性和可用性。

    大資料應用對大資料的分析處理具有引導作用。在大資料收集、處理等一系列操作之前,透過對應用情境的充分調研、對管理決策需求資訊的深入分析,可明確大資料處理與分析的目標,從而為大資料收集、儲存、處理、分析等過程提供明確的方向,並保障大資料分析結果的可用性、價值性和使用者需求的滿足。

  • 中秋節和大豐收的關聯?
  • 鈴木摩托車電瓶沒電怎麼打火?