大資料技術的應用不在於收集海量的資料資訊,而是對於這些海量的資料資訊進行分析處理。將海量的各類資料資訊經過分散式的處理後就可以得到視覺化的結果。主要是藉助圖形對資料的結果視覺化,能夠清晰的傳達資料結果的資訊。
依據資料以及內在的關聯模式,利用計算機生成影象可以獲得更多的資料資訊。
為什麼要對資料進行分析呢?
因為大資料不等同於優質資料而且越來越多的資料專家也這樣認為,大資料不會自動產生好的分析結果。如果收集來的資料不完整、有紕漏、或者是被破壞過,就可能會導致企業管理者做出錯誤決策。
美國哈佛大學的教授就曾因為分析資料時對資料斷章取義,得出了錯誤地判斷。他發起的是一個大資料分析專案,透過社交網路對社會人群中的工作失業進行分類,來預測美國的失業率有多高。
透過情感分析的辦法,他和他的團隊分析了社交網路帖子和社會失業人員的關聯性。在觀察這些內容的時候,研究人員發現關於工作的帖子在急劇的上升,隨後它們發現這個工作的帖子和失業率沒有絲毫的關係。因為它們忽略了“喬布斯”的名字也是有工作的意思,正好喬布斯去世不久,有很多人是在貼吧紀念他,所以這個關鍵詞和失業率無關。從這個例子中我們就會了解到應該先分析資料的來源與資料的準確性,再去做決策。
“喬布斯”的名字具有雙重的意思,這也只是諸多事件之一。在大資料領域內工作的人員多少都遇到過這樣的問題。有些關鍵字的資料資訊在短期內還行,但從長遠的目光去看,會帶來毀滅性的傷害。這就需要企業收集更多的關鍵字資訊來解決問題,這就需要更多的人來參與。
可以在百度頁面搜尋一個關鍵字,便會看到有相關的和沒有相關的頁面同時出現,如果不更改關鍵字,再接著頁面往下瀏覽,就會發現這些頁面的內容與最初搜尋的關鍵字正在以某種形式偏離,有時候偏離的比較小,有時候偏離的會很大。
大資料發展以來,這也不在是一個新的問題,因為大資料不會自己產生良好的分析結果,“喬布斯”的例子就很經典,資料只是一種表現形式,而不是智慧。
鼓勵人們健康的生活是一件好事,但這方面涉及到個人隱私就顯得讓人不安。收集病人的病服會使病人感到不安而且這種隱私的洩露也是很嚴重的。曾有報道公佈,一個人購買藥物的記錄被一家保險公司得到,就拒絕為其上醫療保險。因為從這個人的買藥記錄中看出這個人有心理健康問題。
大資料是一個輔助企業的工具,它將大量的資訊呈現在企業面前時,需要企業去理解分析,才能得到有價值的東西。
大資料技術的應用不在於收集海量的資料資訊,而是對於這些海量的資料資訊進行分析處理。將海量的各類資料資訊經過分散式的處理後就可以得到視覺化的結果。主要是藉助圖形對資料的結果視覺化,能夠清晰的傳達資料結果的資訊。
依據資料以及內在的關聯模式,利用計算機生成影象可以獲得更多的資料資訊。
為什麼要對資料進行分析呢?
因為大資料不等同於優質資料而且越來越多的資料專家也這樣認為,大資料不會自動產生好的分析結果。如果收集來的資料不完整、有紕漏、或者是被破壞過,就可能會導致企業管理者做出錯誤決策。
美國哈佛大學的教授就曾因為分析資料時對資料斷章取義,得出了錯誤地判斷。他發起的是一個大資料分析專案,透過社交網路對社會人群中的工作失業進行分類,來預測美國的失業率有多高。
透過情感分析的辦法,他和他的團隊分析了社交網路帖子和社會失業人員的關聯性。在觀察這些內容的時候,研究人員發現關於工作的帖子在急劇的上升,隨後它們發現這個工作的帖子和失業率沒有絲毫的關係。因為它們忽略了“喬布斯”的名字也是有工作的意思,正好喬布斯去世不久,有很多人是在貼吧紀念他,所以這個關鍵詞和失業率無關。從這個例子中我們就會了解到應該先分析資料的來源與資料的準確性,再去做決策。
“喬布斯”的名字具有雙重的意思,這也只是諸多事件之一。在大資料領域內工作的人員多少都遇到過這樣的問題。有些關鍵字的資料資訊在短期內還行,但從長遠的目光去看,會帶來毀滅性的傷害。這就需要企業收集更多的關鍵字資訊來解決問題,這就需要更多的人來參與。
可以在百度頁面搜尋一個關鍵字,便會看到有相關的和沒有相關的頁面同時出現,如果不更改關鍵字,再接著頁面往下瀏覽,就會發現這些頁面的內容與最初搜尋的關鍵字正在以某種形式偏離,有時候偏離的比較小,有時候偏離的會很大。
大資料發展以來,這也不在是一個新的問題,因為大資料不會自己產生良好的分析結果,“喬布斯”的例子就很經典,資料只是一種表現形式,而不是智慧。
鼓勵人們健康的生活是一件好事,但這方面涉及到個人隱私就顯得讓人不安。收集病人的病服會使病人感到不安而且這種隱私的洩露也是很嚴重的。曾有報道公佈,一個人購買藥物的記錄被一家保險公司得到,就拒絕為其上醫療保險。因為從這個人的買藥記錄中看出這個人有心理健康問題。
大資料是一個輔助企業的工具,它將大量的資訊呈現在企業面前時,需要企業去理解分析,才能得到有價值的東西。