如何做大資料的資料採集？

首頁>Club>2022-01-10 23:16

如何做大資料的資料採集？

回覆列表

1 # 智慧城市研究

雖然大資料不再是一個新詞，每個人都可以說出兩個關於大資料的話，一旦你仔細觀察，什麼是大資料，大資料來自哪裡，如何應用它，我相信很多人目前尚不清楚。

由東北大學，沉陽市政府和戰略投資者共同投資的東北大學東網科技有限公司擁有一個計算中心和雲計算中心，每秒計算能力為1170 teraflops，雲端儲存空間為30 PB。目前，東旺科技正與沉陽市環境保護局合作，透過大資料技術開展大氣環境監測預報。隨著對大資料的好奇，記者走訪了公司。
得到10％的資訊，預測剩餘的90％，這是小資料;並掌握90％的資訊，預測其餘的，這是大資料

在尚未平整的荒野中，矗立著一座具有現代科技感的建築：深藍色圓形玻璃幕牆和航空級安全。這種場景類似於美國科幻大片中的場景。

這與大資料有什麼關係？ “超級計算能力和雲端儲存相當於大資料的大腦，這是大資料的必要硬體條件。”東網科技總經理楊寶偉作了個比喻。對於東圃科技每秒1170萬億次浮點運算的計算能力，楊寶偉表示，這是中國目前超級計算機中最好的，而30PB是一個儲存容量，相當於64GB智慧手機儲存的約50萬容量。能力之和。

什麼是大資料？從網際網路上，答案是多種多樣的。 “對於某些事情，如果您瞭解10％的資訊，預測剩餘的90％，這是小資料，您需要進行抽樣然後進行機率分析;並掌握80％ - 90％的資訊，預測剩下的10個％ - 20％，是大資料。也就是說，大資料是透過智慧分析，預測和預測事物來覆蓋某個事物的樣本空間。“楊寶偉試圖解釋他所理解的大資料。最簡單的話。
對於大資料，楊寶維被稱為“經驗主義的復活”。在過去，我們透過觀察和經驗，在大腦分析之後引導人類活動，例如觀察一些天文現象。後來，人類發展到一定階段後，人腦計算的資訊越來越多，卻發明了一臺計算機來幫助處理資訊。當前的超級計算有助於處理更多資訊，大資料下的超級計算是透過大量可靠樣本提供的經驗計算和預測複雜事件。

天氣預報是一個直觀的例子。人類能夠進行天氣預報，因為可以在數字世界中使用足夠的資料虛擬化事物。因此，對於天氣預報，我們將今天的天氣資料放入計算機並模擬虛擬世界中的天氣變化。也許超級計算機只需10分鐘即可預測某個地方3天后的天氣狀況。

大資料技術包括資料採集 - 傳輸 - 集中儲存 - 再處理 - 重新應用等，其中採集是關鍵
大資料來自哪裡，我們可以透過什麼方式獲得它？很多人直觀地認為資料主要來自網際網路。

目前有三種獲取資料的渠道：

第一，來自網際網路的資料。例如，阿里巴巴的交易資料，百度的查詢資料，騰訊的通訊資料，“這些都是外圍裝置”。

第二，來自政府的資料。這是真正的核心資料。例如經濟執行資料，人口資料，地理資料，政府服務資料和公共服務資料。

第三，重新獲得原始世界的資料收集。這是因為越來越多的先進技術被用於收集更多資料。這是物聯網。我們希望每個物件都是一個感測器，並始終返回資料，而物聯網的發展將極大地豐富資料。

然而，大資料的真實核心資料，即政府持有的資料，大多處於“死亡”狀態。如何啟用它還有待探索。該行業的許多專家都呼籲政府開放一些不敏感的資料和影響

2 # Mario女陶

我認為資料的採集有兩種方式。
第一種就是我們日常上網產生的大量的流量資料。這些資料都是公司進行管理的，我們一般是見不著的。
第二個方式就是經過有目的的去爬取網站上的資料。在這個方面，我建議您可以在網上學習一下網站爬蟲的知識。
有幫助的話，關注支援一下喲
感謝堅持關注的朋友~
世界很大，幸好有你~
3 # 大資料搬運工

大資料採集有以下幾種方式：

一，如果數量較少的話，可以自己瀏覽，利用簡單地文件工具來進行採集；

二，是大量採集，這樣很顯然手動是無法滿足需求的，所以一般使用工具來進行採集，工具的話，目前有以下幾種：

1.使用python爬蟲進行採集，或者是JAVA語言來進行程式設計採集，但是這就需要有專業的知識作為支撐，適合專業的資料探勘師，可採集比較男的網站或者app資料。
2.使用市場已有的資料採集工具，現在市場上的資料採集工具也都很成熟了，大部分網路上的資料還是可以採集的，一般都是視覺化操作，簡單易學，難一些的網站可能需要配置規則，市場上現在比較實用的資料採集工具有：前嗅ForeSpider，火車頭，八爪魚等，我們公司也許需求，用的就是前嗅ForeSpider，因為他的功能更全一些，基本上網頁上的資料都可以採集，不像一些採集軟體，只能採集簡單地，難一點的就需要花錢或者根本無法採集。

4 # IT人劉俊明

物聯網的發展是導致大資料產生的重要原因之一，物聯網的資料佔據了整個大資料百分之九十以上的份額，所以說沒有物聯網就沒有大資料。物聯網的資料大部分是非結構化資料和半結構化資料，採集的方式通常有兩種，一種是報文，另一種是檔案。在採集物聯網資料的時候往往需要制定一個採集的策略，重點有兩方面，一個是採集的頻率（時間），另一個是採集的維度（引數）。
Web系統是另一個重要的資料採集渠道，隨著Web2.0的發展，整個Web系統涵蓋了大量的價值化資料，而且這些資料與物聯網的資料不同，Web系統的資料往往是結構化資料，而且資料的價值密度比較高，所以通常科技公司都非常注重Web系統的資料採集過程。目前針對Web系統的資料採集通常透過網路爬蟲來實現，可以透過Python或者Java語言來完成爬蟲的編寫，透過在爬蟲上增加一些智慧化的操作，爬蟲也可以模擬人工來進行一些資料爬取過程。

傳統資訊系統也是大資料的一個數據來源，雖然傳統資訊系統的資料佔比較小，但是由於傳統資訊系統的資料結構清晰，同時具有較高的可靠性，所以傳統資訊系統的資料往往也是價值密度最高的。傳統資訊系統的資料採集往往與業務流程關聯緊密，未來行業大資料的價值將隨著產業網際網路的發展進一步得到體現。
5 # 慢慢買大資料

網際網路上呈現的內容都是資料資訊，所以網際網路資料採集又稱為資訊採集。做資料採集一般用爬蟲，但要避開遮蔽，一般衡量資料採集用的指標是資訊容量、採集頻率。
如果自己要做資料採集需要耗費大量的伺服器，還有資料清洗處理，可以直接呼叫網上現成的免費的介面平臺。

6 # IT少女

任何完整的大資料平臺，一般包括以下的幾個過程：（如果對大資料生命週期認識不夠清晰，可參考還不懂什麼是大資料？大資料的生命週期告白）

資料採集–>資料儲存–>資料處理–>資料展現(視覺化，報表和監控)

大資料生命週期

其中，資料採集是所有資料系統必不可少的，隨著大資料越來越被重視，資料採集的挑戰也變的尤為突出。我們今天就來看看大資料技術在資料採集方面採用了哪些方法：
1、離線採集：

工具：ETL；

在資料倉庫的語境下，ETL基本上就是資料採集的代表，包括資料的提取（Extract)、轉換(Transform)和載入(Load)。在轉換的過程中，需要針對具體的業務場景對資料進行治理，例如進行非法資料監測與過濾、格式轉換與資料規範化、資料替換、保證資料完整性等。

2、實時採集：

工具：Flume/Kafka；

實時採集主要用在考慮流處理的業務場景，比如，用於記錄資料來源的執行的各種操作活動，比如網路監控的流量管理、金融應用的股票記賬和 web 伺服器記錄的使用者訪問行為。在流處理場景，資料採集會成為Kafka的消費者，就像一個水壩一般將上游源源不斷的資料攔截住，然後根據業務場景做對應的處理（例如去重、去噪、中間計算等），之後再寫入到對應的資料儲存中。這個過程類似傳統的ETL，但它是流式的處理方式，而非定時的批處理Job，些工具均採用分散式架構，能滿足每秒數百MB的日誌資料採集和傳輸需求
3、網際網路採集：

工具：Crawler, DPI等；

Scribe是Facebook開發的資料(日誌)收集系統。又被稱為網頁蜘蛛，網路機器人，是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼，它支援圖片、音訊、影片等檔案或附件的採集。

爬蟲

除了網路中包含的內容之外，對於網路流量的採集可以使用DPI或DFI等頻寬管理技術進行處理。

4、其他資料採集方法

對於企業生產經營資料上的客戶資料，財務資料等保密性要求較高的資料，可以透過與資料技術服務商合作，使用特定系統介面等相關方式採集資料。比如八度雲計算的數企BDSaaS，無論是資料採集技術、BI資料分析，還是資料的安全性和保密性，都做得很好。
資料的採集是挖掘資料價值的第一步，當資料量越來越大時，可提取出來的有用資料必然也就更多。只要善用資料化處理平臺，便能夠保證資料分析結果的有效性，助力企業實現資料驅動。
7 # ZDH

我最近在實現一個視覺化資料採集平臺，或許對你有幫助，https://github.com/zhaoyachao/zdh_web

∧ 中秋節和大豐收的關聯？

∨ 小學生在學校被推倒摔成骨折，應該怎麼處理，學校有沒有責任？

熱門排行

劇多

如何做大資料的資料採集？