回覆列表
  • 1 # 就取這個名字吧

      近年來,有關大資料的熱點話題一浪高過一浪,關注大資料應用的人也越來越多。總體來說,人們對大資料的前景持樂觀態度,比如談到大資料的技術特徵,人們最容易想起的就是4個“v”:vast(數量龐大)、variety(種類繁多)、velocity(增長迅速)和value(總價值高)。這些都沒錯,但仔細一想,它們都是偏重說明大資料的正面優勢的。但其實,大也有大的難處,大資料也不可避免地存在著一些負面劣勢。這些負面劣勢可以概括四點:

      inflated——大資料是肥胖的。大資料的大不僅僅體現在資料記錄的行數多,更體現在欄位變數的列數多,這就為分析多因素之間的關聯性帶來了難度。哪怕是最簡單的方差分析,計算一兩個還行,計算一兩百個就讓人望而生畏了。

      unstructured——大資料是非結構化的。大資料的結構也是非常複雜的,既包括像交易額、時間等連續型變數,像性別、工作型別等離散型變數這樣傳統的結構化資料,更增添了如文字、社會關係網路,乃至語音、影象等大量新興的非結構化資料,而這些非結構化資料蘊含的資訊量往往更加巨大,但分析手段卻略顯單薄。 

    incomplete——大資料是殘缺的。在現實的世界裡,由於使用者登記的資訊不全、計算機資料儲存的錯誤等種種原因,資料缺失是常見的現象。在大資料的場景下,資料缺失更是家常便飯,這就為後期的分析與建模質量增加了不確定的風險。 

    abnormal——大資料是異常的。大資料裡還有不少異常值(outlier)。比如某些連續型變數(如一個短期時間內的交易金額)的取值太大,某些離散型變數(如某個被選購的產品名稱)裡的某個水平值出現的次數太少,等等。如果不刪除,很可能干擾模型係數的計算和評估;如果直接刪除,又覺得缺乏說服力,容易引起他人的質疑。這使得分析人員落到了一個進退兩難的境地。利用大資料的分析,已經可以預見和分析出很多當下時代的大趨勢了。但是,資料的真實性如何保證?如果沒有全面、客觀認識大資料的過程,即便得到很多可預見的資料,又有幾分準確性? 想要真正運用好大資料,並不是一項在常規條件下資料分析的簡單升級,而是一項需要大智慧的綜合工作。

  • 2 # 貴州新華電腦學院官方

    即時獲取實時資料可能看起來像是一個理想的場景,但具有優勢,也有缺點。

    在這個資料爆炸時代,組織正在以越來越多的速度收集和儲存資料。但是,只需為您的組織收集資料就沒有任何商業價值。這種大資料的實時分析和視覺化將大量資料轉化為有價值的統計資料。雖然這種實時洞察可以對您的組織有很大的價值,但它既有利弊。

    什麼是大資料,以及與實時大資料分析有何不同?

    通常以預定的間隔收集和分析大資料。然而,透過實時大資料分析,收集和分析是連續的,為企業提供最新的洞察力。(有關大資料分析的更多資訊,請參閱大資料分析如何最佳化IT效能。)

    Hadoop是用於分析大資料的最有名的工具,但它不適合處理實時大資料分析。一些實時大資料工具包括:

    風暴 - 這是一種實時分散式計算系統,可與任何程式語言一起工作,並且可擴充套件。它目前由Twitter擁有。

    GridGain - 這是一個企業開源網格計算工具。它與Hadoop DFS相容,它可以替代Hadoop的MapReduce。

    優點

    快速識別錯誤 - 讓我們假設發生錯誤,需要儘快解決。透過實時大資料分析,可立即識別此錯誤並快速修復。這可以幫助防止更多的和/或更嚴重的故障。從長遠來看,這也有助於企業的聲譽 - 快速的錯誤更正可以幫助獲得更多的客戶。

    儲蓄 - 儘管實時大資料分析的實施可能是昂貴的,但立即資料分析的高價值可以彌補這一支出。

    逐步服務 - 透過大資料分析監控產品和服務可能會為客戶帶來更高的轉化率,從而可能導致更高的利潤。可以透過分析輕鬆預測即將發生的錯誤和問題,這也有助於更多地關注客戶需求。

    實時欺詐檢測 - 管理系統和伺服器安全性的團隊可以快速,輕鬆地通知欺詐,一旦發現欺詐,就可以實時採取措施。(要了解有關欺詐檢測的更多資訊,請參閱下一代欺詐檢測中的機器學習和Hadoop。)

    對競爭對手的策略 - 競爭對手今天在市場上屢屢受挫,大資料分析可幫助您提供競爭對手的詳細圖片,例如推出新產品,降低/提高特定時間的價格或專注於特定地點的使用者。

    洞察 - 銷售洞察對於瞭解銷售的地位至關重要。這些見解可能導致額外的收入,例如長期不會失去客戶,檢查跳出率,並透過分析實時大資料分析找到最佳的銷售增長方式。

    趨勢 - 透過分析客戶趨勢的決策可以透過實時大資料分析完成。這可能包括產品,廣告,客戶需求,特定季節可用的優惠等。因此,它也可以改善長期的決定。

    缺點現在我們來看看這些缺點。

    Hadoop不相容 - 如前所述,Hadoop是最廣泛使用的大資料分析工具,目前不能處理實時資料。因此,需要一些其他工具,期望在未來Hadoop將為實時方法新增功能。

    需要新的方法 - 有些組織習慣每週接受一次洞察。然而,隨著實時大資料的不斷流入,需要一種完全不同的方法。這可能是一些組織的挑戰,可能會導致一些決策和計劃的重塑。

    可能的失敗 - 一些組織可能會將實時大資料分析視為一個閃亮的新玩具,並希望立即實施。但是,如果不能正確實施,可能會導致許多問題。如果一個企業不是以這麼快的速度來處理資料,那可能會導致不正確的分析,這可能會給組織帶來更大的問題。

    結論

  • 3 # 呂氏講堂

    大資料的發展存在一個節點,及網際網路同步現實世界資訊的佔比,是否達到較為全面反映現實世界的執行規律。越過這個比率,研究大資料就會有價值,反之,研究大資料只會得到失真的結論。所以大資料存在虛擬化的最小值。

    1)訊號噪聲增大

    當審視資料當中的某個表象的時候,常常需要考慮這種表象是否是偶然產生的。如果這種表象看起來不太可能是隨機產生的時候,就稱“統計上顯著的”。如果做足夠多不同的相關性測試,偶然產生的結果就會淹沒真實的發現。有很多辦法可以解決上述的問題,然而在大資料中這種問題會更加嚴重。和一個小規模的資料集合相比,大資料的情況下有太多可以用作比較的標準。如果不做仔細的分析,那麼真實的表象與虛假表象之比——相當於訊號噪聲比——很快就會趨近於0。

    2)資料型“乾草垛”

    納西姆.塔勒布(Nassim Taleb)提出:隨著我們掌握的資料越來越多,可以發現的統計上顯著的相關關係也就越來越多。在這個龐大的“乾草垛”裡,我們要找的那根針被越埋越深。大資料時代的特徵之一就是,“重大”發現的數量被資料擴張帶來的噪音所淹沒。

    3)直覺的價值

    如果每個人都求助於資料,都利用大資料工具的話,那麼不可預測性——例如人類的本能、冒險、意外甚至失誤——也許將會成為差異的關鍵。如果真是這樣的話,那麼需要專門為人為因素闢出一席之地——即為直覺、常識、運氣留出空間,以確保它們不會被資料和機器生成的答案擠走。

    4)資料不懂社交

    大腦在數學方面很差勁(請迅速心算一下437的平方根是多少),但是大腦懂得社會認知。人們擅長反射彼此的情緒狀態,擅長偵測出不合作的行為,擅長用情緒為事物賦予價值。在社交關係的決策中,情感大於資料。

    5)資料不懂背景

    人們擅長講述交織了多重原因和多重背景的故事。資料分析則不懂得如何敘事,也不懂得思維的浮現過程。即便是一部普通通的小說,資料分析也無法解釋其中的思路。

    6)資料偏愛潮流

    當大量個體對某種流行產品迅速產生興趣時,資料分析可以敏銳地偵測到這種趨勢。一些重要的(也是有收益的)產品在一開始就被資料擯棄了,僅僅因為它們的特異之處不為人所熟知。

    7)褒貶分析的侷限

    褒貶分析只提供輿情的一個概覽,它本身並不是 actionable insights。褒貶輿情太過抽象,不能提供有價值的情報。

    8)理解為主,解釋為輔

    大資料是一種資源和一種工具。它的目的是告知,而不是解釋。意在促進理解,但仍然會導致誤解——關鍵在於人們對它的掌握程度。人們必須以一種不僅欣賞其力量,而且承認其侷限的態度來接納這種技術。

    9)宜預測,不宜總結

    大資料分析不宜做回顧,更適合做預測。

    10)小決策和大決策

  • 4 # 優就業IT小助手666

    當前,大部分中國企業在資料基礎系統架構和資料分析方面都面臨著諸多挑戰。根據產業資訊網調查,目前國內大部分企業的系統架構在應對大量資料時均有擴充套件性差、資源利用率低、應用部署複雜、運營成本高和高能耗等缺陷。

  • 中秋節和大豐收的關聯?
  • 查出HPV的女人,最好別吃什麼?