回覆列表
-
1 # 陳輝博士
-
2 # IT人劉俊明
通常情況下,採集資訊有以下幾個渠道:
第一:傳統資訊系統。傳統資訊系統採集的資訊往往具有較高的價值,一方面原因是傳統資訊系統採集的往往是結構化資料,易於統計和分析,另一方面原因是傳統資訊系統採集的資料往往是比較重要的資料,對後續的資料分析有重要的參考價值。傳統資訊系統包含的內容比較廣泛,比如常見的ERP系統。對於企業來說,傳統資訊系統的建設應該是資訊化建設的第一步。
第二:Web平臺。資訊來源的另一個重要渠道是各種Web平臺,隨著Web應用的普及,尤其是Web2.0的普及應用之後,整個Web系統產生了大量的資料,這些資料也是大資料系統的重要資料來源之一。Web系統的資料具備幾個典型的特點,比如數量大、結構多樣性、真假難辨等等,這就需要透過資料分析來進一步體現其價值了。
第三:物聯網系統。物聯網與大資料的關係非常緊密,物聯網系統的普及應用是產生大資料的重要原因之一,大資料的大部分資料來源就是物聯網系統。通常情況下,物聯網系統有五層結構,分別是裝置、網路、平臺、分析處理和服務應用,裝置往往是資料的來源。與傳統資訊系統和Web系統不同,物聯網的資料大部分都是非結構化資料和半結構化資料,要想對其進行分析需要採用特定的處理方式,比較常見的處理方式包括批處理和流處理。批處理比較常見的平臺包括Hadoop和Spark,而流處理通常採用Spark Streaming、Storm等。
除了以上幾個比較常見的資訊採集渠道之外,透過線下活動進行資訊採集也是一種獲取資訊的手段和方式。對於廣大使用者來說,要注意線下資訊採集的安全性。
在資料的江湖裡,既有波瀾壯闊的大資料(Big Data),也有微波漣漪的小資料(Small Data),二者相輔相成,才能相映生輝。目前大資料流行,人們就“言必稱大資料”,這不是做學問的態度,不要碰到大量的資料,就給它戴上一頂 “大資料”的帽子。大資料體現出規律,小資料蘊含著智慧,它們都閃爍著理想之光。
古人云:“聖人見微知著,睹始知終。”道家的一部重要著作《淮南子·說山訓》中說:“以小明大,見一葉落而知歲之將暮,睹瓶中之水而知天下之寒。”意思是說,看見一片落葉,就知道秋天來臨;看到瓶中水結冰,就知道天氣的寒冷程度,這是對見微知著的形象比喻。
吳甘沙先生用《一代宗師》的臺詞來比擬大、小資料的區分,倒也甚是恰當。他說,小資料“見微”,作個人刻畫,可用《一代宗師》中“見自己”形容之;而大資料“知著”,反映自然和群體的特徵和趨勢,可用《一代宗師》中的“見天地、見眾生”比喻之。
大就是大資料,就是全量資料;小就是小資料,就是個體資料。所以,對於資料科學,我們必須在把情況搞清楚的基礎上懂得哪些是大、哪些是小、怎樣處理大小辯證關係,才能在具體資料應用中做到抓大放小、以大兼小,以小帶大、小中見大。在研究小資料時,要以大兼小、以小見大,必須考慮目標的正確性、可操作性和決策的科學性、可行性。在研究大資料時,要抓大放小、以小帶大,既要考慮整體共性,又要注重個體特徵。這樣,資料應用中,大能與小資料量化的自我保持高度一致,小能與大資料預見的未來保持一致,既不能見小不見大,也不能見大不見小。對於資料科學,從資料中來,到資料中去,既要見大,也要見小,以小帶大、小中見大,才能真正用好資料。
當認知科學領域發生“天翻地覆”的變化時,我們的未來又會是怎樣?認知革命,特別是“真相時代”的到來,“預測”將被“預見”取代,那麼,“預見未來”將不再是遙遠的星辰。如果認知科學的本質是計算科學,那麼,“大資料”和“小資料”爭奪所謂“大小”的“江湖地位”意義何在?但我們需要覺悟的是:此“資料”非彼“資料”。面向未來,“大資料”和“小資料”將開啟一個“全新故事”,一個“預見未來”的故事。