回覆列表
  • 1 # 生態三農

    大資料是目前網際網路及商務應用最重要的組成部分。

    關於資料來源,網際網路及物聯網是產生並承載大資料的基地。網際網路公司是天生的大資料公司,在搜尋、社交、媒體、交易等各自核心業務領域,積累並持續產生海量資料。如阿里,百度,騰訊等。物聯網裝置每時每刻都在採集資料,裝置數量和資料量都與日俱增。這兩類資料資源都是大資料金礦,還有一些企業,在業務中也積累了許多資料,如房地產交易、大宗商品價格、特定群體消費資訊等。當然還有另外一類是政府部門掌握的資料資源。

    大資料主要特點:

    1.準確(Veracity)

    這是一個在討論大資料時時常被忽略的一個屬性,部分原因是這個屬性相對來說比較新,儘管它與其他的屬性同樣重要。這是一個與資料是否可靠相關的屬性,也就是那些在資料科學流程中會被用於決策的資料(而這不同於與傳統的資料分析流程),精確性與信噪比(signal-to-noise ratio)有關。

    例如,在大資料中發現哪些資料對商業是真正有效的,這在資訊理論中是個十分重要的概念。由於並不是所有的資料來源都具有相等的可靠性,在這個過程中,大資料的精確性會趨於變化,如何增加可用資料的精確性是大資料的主要挑戰。

    2.高速(Velocity)

    大資料是在運動著的,通常處於很高的傳輸速度之下。它經常被認為是資料流,而資料流通常是很難被歸檔的(考慮到有限的網路儲存空間,單單是高速就已經是一個巨大的問題)。這就是為什麼只能收集到資料其中的某些部分。如果我們有能力收集資料的全部,長時間儲存大量資料也會顯得非常昂貴,所以週期性的收集資料遺棄一部分資料以節省空間,僅保留資料摘要(如平均值和方差)。

    這個問題在未來會顯得更為嚴重,因為越來越多的資料正以越來越快的速度所產生。

    3.體量(Volume)

    大資料由大量資料組成,從幾個TB到幾個ZB。這些資料可能會分佈在許多地方,通常是在一些連入因特網的計算網路中。

    一般來說,凡是滿足大資料的幾個V的條件的資料都會因為太大而無法被單獨的計算機處理。單單這一個問題就需要一種不同的資料處理思路,這也使得平行計算技術(例如MapReduce)得以迅速崛起。

    4.多樣(Variety)

    結構化資料多被發現在傳統資料庫中,資料的型別被預定義在定長的列欄位中。半結構化資料有一些結構特徵,但不總是保持一致(舉例來說,看一看JSON檔案),使得這種型別難以處理。更富於挑戰的是非結構化資料(例如純文字檔案)毫無結構特徵可言。在大資料中,更常見的是半結構化資料,而且這些資料來源的資料格式還各不相同。

    在過去的幾年裡,半結構化資料和結構化資料成為了大資料的主體資料型別。

    儘管有些網路資料披著大資料的外衣,但並不是每一種資料融合都可以叫做大資料。注意,即使有些資料擁有這4種屬性中的一種或多種,也不能被歸類為大資料,要完全擁有以上4種特性才能稱得上是大資料。

    大資料應用

    大資料主要有以下幾種較為常用的功能:

    追蹤。網際網路和物聯網無時無刻都在記錄,大資料可以追蹤、追溯任何一個記錄,形成真實的歷史軌跡。包括消費者購買行為、購買偏好、支付手段、搜尋和瀏覽歷史、位置資訊,等等。

    識別。在對各種因素全面追蹤的基礎上,透過定位、比對、篩選,可以實現精準識別,尤其是對語音、影象、影片進行識別,使可分析內容大大豐富,得到的結果更為精準。

    畫像。透過對同一主體不同資料來源的追蹤、識別、匹配,形成更立體的刻畫和更全面的認識。對消費者畫像,可以精準推送廣告和產品;對企業畫像,可以準確判斷信用及風險。

    匹配。在海量資訊中精準追蹤和識別,利用相關性、接近性等進行篩選比對,更有效率地實現產品搭售和供需匹配。大資料匹配功能是網際網路約車、租房、金融等共享經濟新商業模式的基礎。

    最佳化。按距離最短、成本最低等給定的原則,透過各種演算法對路徑、資源等進行最佳化配置。對企業而言,提高服務水平、提升內部效率;對公共部門而言,節約公共資源、提升公共服務能力。

    在不久的將來,多智時代一定會徹底走入我們的生活,有興趣入行未來前沿產業的朋友,可以收藏 多智時代 ,及時獲取人工智慧、大資料、雲計算和物聯網的前沿資訊和基礎知識,讓我們一起攜手,引領人工智慧的未來!

  • 2 # Victor19901028

    科學測量資料,價值高;行為交易資料,如旅行、購物、往來賬等資料,價值高;系統執行資料,如工業控制系統狀態資料;物聯網感知資料,精度低;網際網路爬取資料,質量低。

  • 3 # 智慧城市研究

    1.越來越多的機器配備了持續測量和報告操作條件的裝置。幾年前,跟蹤遙測發動機的執行僅限於價值數百萬美元的太空梭。現在,汽車製造商已在其車輛中配備了監視器,以持續提供車輛機械系統的整體執行。一旦資料可用,公司將盡一切可能從中獲利。這些機器感測資料屬於大資料範圍。

    2.計算機生成的資料可能包含有關網際網路和其他使用者的行為和行為的有趣資訊,提供對其願望和需求的潛在有用的理解。

    3.使用者自己生成的資料/資訊。人們透過電子郵件,簡訊,微博等生成的文字資訊。

    4.迄今為止最大的資料是音訊,影片和符號資料。這些資料結構鬆散且數量龐大,因此難以提取有意義的結論和有用的資訊。

    大資料改變了公司在所有行業中的運作方式。 從瞭解市場到如何挖掘商業資訊,大資料可以看到每一個變化。 致力於收集和分析大資料的行業已經形成,並對現有公司產生了深遠的影響。 根據調查,10%的公司認為,在過去五年中,大資料徹底改變了他們的運營方式。 46%的公司認為大資料是決策過程中的重要支撐因素。

  • 中秋節和大豐收的關聯?
  • 黃綠痰變淡變稀是不是好轉?