-
1 # 奇想瞎扯淡
-
2 # 職業培訓老劉
用資料預測,只能說是統計分析的演算法問題。
而大資料的預測更多的是發現未知的規律和未知事物的聯絡。
因此,用大資料的預測更多的是發現事物的發展趨勢,而不是預測準確的數值。
-
3 # 電商灰狼任昱衡
大資料另一核心就是預測,它能夠讓企業在預測中迎接現實。企業把數學運算應用到海量的資料中來,來預測未來可能發生的事情。
預測是大資料的力量的核心,已經被多次證明。微軟公司認為:“微軟生產的一款資料驅動軟體,能夠透過風扇、空調、電器、電燈等電器積累下來的海量資料,便可知道怎樣節省能源的浪費,就這個資料的蒐集可以為世界節省43%的電能。”與此類似的事情,還有谷歌對於關鍵詞的搜尋進行分析,它能夠比政府檢測部門提前兩週預測到流感的分佈情況,提供預警服務。
大資料的出現,可以對資料進行分析獲得對商機、社會服務的預測,大資料從侷限於學術圈子擴大到了商業機構和政府部門。大資料開啟了一個重大的時代轉型。就像是望遠鏡讓我們看到了宇宙的廣闊,顯微鏡讓我們看到了看不見的東西一樣,大資料正在改變我們的生活方式和對世界的瞭解,成為了眾多發明和服務不可缺少的工具,而大資料對於世界更多的改變還沒有到來。維克托·邁爾-舍恩伯格曾說,利用大資料預測商機,將成為行業人士爭相追捧的焦點。
如今各界對於大資料都是格外的關注。首要原因在於,大資料的預測在在一般情況下預測很準,可以給很多人帶來利益。比如股民們可以利用大資料預測股票走勢,如果大資料可以預測到股票的趨勢,會贏得大部分股民對於大資料的關注。在世界盃期間,如果大資料可以根據比賽的記錄球員群的信心預測比賽的輸贏,那麼也會贏得球迷們的關注。在以後的的奧運會或是世界盃上,大資料也會扮演重要角色。
從以上的幾個案例來看,很多人對大資料預測有了一定的瞭解,不過還值得大家思考的是如何提升大資料預測的精準率呢?
一方面,大資料應用的範圍和領域越來越廣,但是有的領域不存在大資料,也就是說,大資料還沒有覆蓋到有些領域中去,在這種情況下,大資料的預測就有可能會出現預測不準的情況。
另一方面,要想利用大資料預測必須建立好資料模型,在2015年的世界盃期間,百度、谷歌、微軟等網際網路巨頭對64場比賽的勝負結果以及冠軍全部進行了預測。無論是決賽還是淘汰賽,百度的預測都非常精準高達100%,甚至比微軟和谷歌的精準度還要高出很多。其中預測精準度的原因就是它們採用了不同的資料模型,才導致了預測結果相差甚遠。
要想建立資料模型應用到預測當中去,我們應當怎麼做才能從中獲取收益?
有人將自己的積蓄都花費在股市交易預測系統上,但結果是一無所有。利用大資料去預測就意味著要依據預測結果去行動,要在預測和實踐中學到東西並尊重資料所揭示的規律。要想利用大資料做到精準的預測必須做到這一點,否則,它們只能失敗。
回覆列表
大資料的“4V”特徵表明大資料不僅僅是資料海量,對於大資料的分析將更加複雜、更追求速度、更注重實效。資料量呈指數增長的同時,隱藏在海量資料的有用資訊卻沒有相應比例增長,反而使我們獲取有用資訊的難度加大。以影片為例,連續的監控過程,可能有用的資料僅有一兩秒。資料科學家必須藉助預測分析軟體來評估他們的分析模型和規則,預測分析軟體透過整合統計分析和機器學習演算法發揮作用。
統計與分析主要利用分散式資料庫,或者分散式計算叢集來對儲存於其內的海量資料進行普通的分析和分類彙總等,以滿足大多數常見的分析需求,在這方而,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於MySQL的列式儲存Infobright等,而一些批處理,或者基於半結構化資料的需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的資料量大,其對系統資源,特別是I/O會有極大的佔用。
IBM SPSS和SAS是兩個資料科學家常用的分析軟體。R專案則是一個非常流行的開源工具。如果資料量大到“大資料”的程度,那麼還需要一些專門的大資料處理平臺如Hadoop或資料庫分析機如0racle的Exadata。