-
1 # 生愛康
-
2 # 可樂售賣機¥
"大資料"是一個體量特別大,資料類別特別大的資料集,並且這樣的資料集無法用傳統資料庫工具對其內容進行抓取、管理和處理。 "大資料"首先是指資料體量(volumes)?大,指代大型資料集,一般在10TB?規模左右,但在實際應用中,很多企業使用者把多個數據集放在一起,已經形成了PB級的資料量;其次是指資料類別(variety)大,資料來自多種資料來源,資料種類和格式日漸豐富,已衝破了以前所限定的結構化資料範疇,囊括了半結構化和非結構化資料。接著是資料處理速度(Velocity)快,在資料量非常龐大的情況下,也能夠做到資料的實時處理。最後一個特點是指資料真實性(Veracity)高,隨著社交資料、企業內容、交易與應用資料等新資料來源的興趣,傳統資料來源的侷限被打破,企業愈發需要有效的資訊之力以確保其真實性及安全性。資料採集:ETL工具負責將分佈的、異構資料來源中的資料如關係資料、平面資料檔案等抽取到臨時中間層後進行清洗、轉換、整合,最後載入到資料倉庫或資料集市中,成為聯機分析處理、資料探勘的基礎。 資料存取:關係資料庫、NOSQL、SQL等。 基礎架構:雲端儲存、分散式檔案儲存等。 資料處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機互動的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言資訊處理的一個分支,另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。 統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、迴歸分析、簡單迴歸分析、多元迴歸分析、逐步迴歸、迴歸預測與殘差分析、嶺迴歸、logistic迴歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。 資料探勘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和視覺化、Description and Visualization)、複雜資料型別挖掘(Text, Web ,圖形影象,影片,音訊等) 模型預測:預測模型、機器學習、建模模擬。 結果呈現:雲計算、標籤雲、關係圖等。要理解大資料這一概念,首先要從"大"入手,"大"是指資料規模,大資料一般指在10TB(1TB=1024GB)規模以上的資料量。大資料同過去的海量資料有所區別,其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。 第一,資料體量巨大。從TB級別,躍升到PB級別。 第二,資料型別繁多,如前文提到的網路日誌、影片、圖片、地理位置資訊,等等。 第三,價值密度低。以影片為例,連續不間斷監控過程中,可能有用的資料僅僅有一兩秒。 第四,處理速度快。1秒定律。最後這一點也是和傳統的資料探勘技術有著本質的不同。物聯網、雲計算、移動網際網路、車聯網、手機、平板電腦、PC以及遍佈地球各個角落的各種各樣的感測器,無一不是資料來源或者承載的方式。 大資料技術是指從各種各樣型別的巨量資料中,快速獲得有價值資訊的技術。解決大資料問題的核心是大資料技術。目前所說的"大資料"不僅指資料本身的規模,也包括採集資料的工具、平臺和資料分析系統。大資料研發目的是發展大資料技術並將其應用到相關領域,透過解決巨量資料處理問題促進其突破性發展。因此,大資料時代帶來的挑戰不僅體現在如何處理巨量資料從中獲取有價值的資訊,也體現在如何加強大資料技術研發,搶佔時代發展的前沿。
回覆列表
大資料(big data),IT行業術語,是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程最佳化能力的海量、高增長率和多樣化的資訊資產。大資料於2008年8月份提出,目前,中國大資料中心位於貴州省貴陽市觀山湖區,貴陽市政府成立了大資料金融學院,位於貴州財經大學老校區MBA中心。隨著大資料的發展,工作、生活、學習均融入於其中,大資料是社會資訊化發展的產物,是網際網路時代的資料量集合。大資料利國利民,促進社會發展,更好地服務國家,服務人民,服務生活。大資料在社會和諧穩定、便民利民等領域的重要性日益顯現,只有管好、用好大資料,人類社會的生活將越來越美好。