Big data is a field that treats ways to analyze, systematically extract information from, or otherwise deal with data sets that are too large or complex to be dealt with by traditional data-processing application software. Data with many cases (rows) offer greater statistical power, while data with higher complexity (more attributes or columns) may lead to a higher false discovery rate.[2] Big data challenges include capturing data, data storage, data analysis, search, sharing, transfer, visualization, querying, updating, information privacy and data source.-Wikipedia
1,我們首先了解一下什麼是大資料
Big data is a field that treats ways to analyze, systematically extract information from, or otherwise deal with data sets that are too large or complex to be dealt with by traditional data-processing application software. Data with many cases (rows) offer greater statistical power, while data with higher complexity (more attributes or columns) may lead to a higher false discovery rate.[2] Big data challenges include capturing data, data storage, data analysis, search, sharing, transfer, visualization, querying, updating, information privacy and data source.-Wikipedia
大資料是一個研究如何分析大型資料集的領域。這些資料集經過系統地提取或以其他方式處理,常常過於龐大或相當複雜,傳統的資料處理軟體無法處理。具有大量例項的資料可以提供更高的統計能力,同時這些更高複雜性的資料可能導致更高的假陽性率。大資料的挑戰包括資料捕獲、儲存、分析、搜尋、共享、傳輸、視覺化、查詢、更新、資訊隱私和資料來源。--參考維基百科
2.學習大資料需要具備的技能基礎技能:Jave語言和Linux作業系統
進階技能:
Hadoop:是分散式系統基礎架構,包括HDFS、MapReduce和YARN三個元件
Zookeeper:是一個開放原始碼的分散式應用程式協調服務,是Google的Chubby一個開源的實現,是Hadoop和Hbase的重要元件。它是一個為分散式應用提供一致性服務的軟體,提供的功能包括:配置維護、域名服務、分散式同步、組服務等。
Mysql:是關係型資料庫管理系統,關係資料庫將資料儲存在不同的表中,而不是將所有資料放在一個大倉庫內,這樣就增加了速度並提高了靈活性。
Sqoop:是一款開源的工具,主要用於在Hadoop(Hive)與傳統的資料庫間進行資料的傳遞,可以將一個關係型資料庫中的資料導進到Hadoop的HDFS中,也可以將HDFS的資料導進到關係型資料庫中。
Hbase:這是Hadoop生態體系中的NOSQL資料庫,他的資料是按照key和value的形式儲存的並且key是唯一的,所以它能用來做資料的排重,它與MYSQL相比能儲存的資料量大很多。所以他常被用於大資料處理完成之後的儲存目的地。
Spark:是專為大規模資料處理而設計的快速通用的計算引擎