-
1 # java全棧之路
-
2 # 笑笑
大資料是指無法再一定時間範圍內用常規軟體進行捕捉,管理和處理的資料集合。是需要新處理模式才能具有更強的決策力,洞察發展力和流程最佳化能力的海量,高增長率和多樣化的資訊資產。
那麼大資料是如何計算的,又是如何發揮其巨大作用的。
首先我們看下歷史,歷史上我們國家的綜合國力一直都是世界之巔,發明創造一直在影響著整個世界。其實我們就是得益於國家巨大的人口基數,能夠將各種思想經驗進行融合,取長補短進而少走彎路創造出影響世界的理論和發明。因此我們可以大致的看出大資料發揮作用就是大資料進行整合的過程。
大資料必須依賴充足的資料來源,比如淘寶京東這部分電商平臺,他們所依賴的大資料就是客戶在使用電腦和各種資料埠所獲取的客戶喜好,需求,性格,消費能力,層次等等資料,進而把這些資料進行整個進行精準的推送。整個的過程就是多臺計算機組合成的計算群或者直接用超級計算機對現有的儲存的資料進行分析從而得出結論的過程。 我們把利用各種手段採集的資訊叫做大資料,我們用計算機對這些資料進行計算整理叫做資料處理,資料處理完畢以後,我們使用最終結果作為決策的依據叫做利用大資料。
舉一個最簡單的例子,我們透過現實或者書本或者經驗知道狗喜歡吃肉和骨頭,那麼這個資訊就屬於大資料。那麼針對不同品種的狗,我們會透過思考或者其他的方法對其進行細化,比如泰迪喜歡吃精肉,黑背喜歡吃肉骨頭,位元喜歡吃帶血的牛肉等,這個就是資料處理。那麼針對各種不同的狗投放不同的肉,這個就是資料應用。
-
3 # 一點潮科技
大資料是什麼計算的,這樣的提問真是讓我摸不著頭腦。
通俗的說大資料是海量的無規律資訊,為什麼說它作用很大,因為在現在這個時代,可以有效的快速的提供服務,那麼企業就可以獲得巨大優勢,而大資料分析就可以為企業提供你這服務。
說點簡單例子,淘寶可以透過大資料分析,可以得知不同使用者的需求,這樣針對不同的使用者提供其相應的服務,例如你想買一個衣服,開啟淘寶就有推薦的衣服,並且你也很喜歡,那麼你是不覺得淘寶很好用呢。
一般來說大資料需要和雲計算配合使用,巨量的資料分析,如果沒有高效能的計算機去分析,那麼效率就會變得很低,雲計算因其擁有大量的伺服器,可以快速的完成客戶所需的資料分析,從而體現出大資料的重要作用。
-
4 # 道生一二三萬物
其實說真的,題主這個問題讓我有點摸不著頭腦,估計其它很多人也是。
所謂大資料是指符合4v特徵的資料群體,包括未處理和處理後的資料。所謂未處理的資料是指企業在日常使用過程中收集到的原始資料,包括機器資料,比如感測器收集到的資料,一般都是生產製造企業才有。還包括產品的使用者在使用操作過程中產生的行為資料,一般都是網際網路企業。還包括社交資料等。處理後資料是指將這些原始資料經過資料預處理,資料處理等過程之後產生的有業務含義,人能直接理解,能夠反應企業執行情況或者產品的被接受情況的指標資料。
你的意思是不是如何被處理的?
資料處理包括資料預處理,即資料清洗,是將那些髒資料過濾掉。髒資料就是那些資料不一致,有空值,有錯誤資訊,有重複資訊等的資料。另外的過程就是資料處理,資料處理是利用各種資料探勘演算法,幷包含一定的業務規則對資料進行計算,轉換,最終得到想要的資料的過程。
整個過程算是比較複雜的,基本上沒有固定的模式。
回覆列表
怎麼計算的?用於計算什麼的?問題描述不是很清楚。
大資料最早可以追溯到Google提出的MapReduce計算方式,Apache透過Hadoop實現了一個基於MapReduce演算法的實現,主要用於大規模資料的處理。它與傳統的平行計算有很大的不同,傳統的平行計算主要利用的是單臺伺服器的效能,透過不斷的擴充套件伺服器的硬體資源來提高運算效率。而MapReduce主要就是利用多臺機器甚至可以是廢棄的機器組成叢集來將任務分配在不同節點上同時進行運算,以此來提高運算效率。
由於效能方面可以透過不斷的擴充節點而得到提升,因此使用成本、擴充套件性方面都比傳統的平行計算要出色得多。
其運算過程如下圖:
整個過程可以分成兩步:
第一步:Map,將整個計算過程細分,典型的如基因序列比對演算法,需要從基因庫中查詢到匹配的基因;在Map這一步中,會將查詢的庫中的基因進行細分,每個節點分配一個指定數目的基礎序列;然後在每個節點上同時進行序列比較;每個節點上會出來一個比對結果。
第二步:Reduce,將每個節點運算的結果進行彙總,最終返回給呼叫方。
基於這種原理,再加上目前網際網路產生的資料量越來越大,而傳統的平行計算所需的硬體資源過於昂貴,因此Hadoop的應用已經越來越廣泛。它可以用於檔案儲存,也可以用於替換傳統的資料庫來進行資料的收集與統計,也可以用於日誌儲存分析等方面。