回覆列表
-
1 # ITSTAR
-
2 # 黔中四毛
一、大資料專案從產業角度看:涉及一二三產,只要是用大資料驅動、提升和實現轉型發展的專案;二、支援大資料發展的資訊基礎設施、使用者的終端製造、伺服器、儲存和網路安全產品專案;三、促進政府管理、能力提升的大資料應用專案;四、其他
-
3 # 蔣軍
首先要說的是,大資料並不是資料多,而是資料維度多。
目前網際網路公司和許多科技公司,甚至是傳統的企業都有大資料專案。
主要用來分析使用者的購買行為和消費意願以及影響因素。
一個大資料專案關鍵構成如下:資訊採集組、資料清洗組、資料融合組、資料探勘組、資料視覺化組。
根據每組的名稱很好理解,資訊採集組主要是透過網路爬蟲來採集資料,當然還可以根據業務需求,透過不同的方式來採集資料;
資料清洗組主要就是把一些無效的髒資料找出來剔除或者替換,任務量其實很大,因為爬來的資料髒資料量很大,這個組的工作週期一般很長,任務也很重;
資料融合組主要就是把爬來的課程資訊把相似的歸類,有上下級關係的就按照子類父類的關係列好,這一組的工作非常不好完成,目前我們做的融合效果不算好,想融合好算是一個難點。
資料探勘組就是拿到可用的資料之後透過資料探勘演算法,去研究之前設定好的影響因子之間的因果關係,主要的分類演算法有決策樹、貝葉斯分類、基於規則的分類、神經網路、持向量機 、懶惰學習演算法中的K-最近鄰分類和基於案例的推理等演算法;
資料視覺化組顧名思義就是把資料探勘組的成果視覺化展示,這樣可以直觀的看到資料之間的關係,並利用資料分析和開發工具發現其中未知資訊的處理過程。
“由於“大資料”的大並非指單純的資料量龐大,即便是1DB大的資料庫,如果僅僅是一張簡單的二維表,裡面填滿唯一主鍵構成的簡單資料,也沒什麼難以處理的,只要硬體裝置能跟上,基本上中學生學過C也就足以處理這份資料了。並不需要整個社會這麼大張旗鼓的研究和鼓吹。”這是把做分散式系統架構的工程師直接給歸類到學過C的中學生了麼……