想要學習大資料，應該看些什麼書？

首頁>Club>摘星的哥哥2021-04-02 09:54

想要學習大資料，應該看些什麼書？

回覆列表

1 # 跟大牛學技術

推薦的學習書單
1.《統計學習基礎資料探勘、推理與預測》

儘管應用的是統計學方法，但強調的是概念，而不是數學。《統計學習基礎:資料探勘、推理與預測》內容廣泛，從有指導的學習（預測），到無指導的學習；從神經網路、支援向量機，到分類樹、提升等主題，應有盡有，許多例子還附以彩圖，是同類書籍中介紹最全面的。計算和資訊科技的飛速發展帶來了醫學、生物學、財經和營銷等諸多領域的海量資料。理解這些資料是一種挑戰，這導致了統計學領域新工具的發展，並延伸到諸如資料探勘、機器學習和生物資訊學等新領域。
2.《模式分類》第二版

除了保留了第1版的關於統計模式識別和結構模式識別的主要內容以外，讀者將會發現新增了許多近25年來的新理論和新方法，其中包括神經網路、機器學習、資料探勘、進化計算、不變數理論、隱馬爾可夫模型、統計學習理論和支援向量機等。

3.《推薦系統實踐》

過大量程式碼和圖表全面系統地闡述了和推薦系統有關的理論基礎，介紹了評價推薦系統優劣的各種標準(比如覆蓋率、滿意度)和方法(比如AB測試)，總結了當今網際網路領域中各種和推薦有關的產品和服務。

4.《深入搜尋引擎–海量資訊的壓縮、索引和查詢》

理論和實踐並重，深入淺出地給出了海量資訊資料處理的整套解決方案，包括壓縮、索引和查詢的方方面面。其最大的特色在於不僅僅滿足資訊檢索理論學習的需要，更重要的是給出了實踐中可能面對的各種問題及其解決方法。
5.《機率論與數理統計》

這本書不用過多介紹了吧，普遍大學裡大一時期的教科書，只恨當年沒聽課啊，現在正在慢慢啃。

6.《大資料：網際網路大規模資料探勘與分散式處理》

主要內容包括分散式檔案系統、相似性搜尋、搜尋引擎技術、頻繁項集挖掘、聚類演算法、廣告管理及推薦系統。

7.《Web資料探勘》

資訊檢索領域的書籍，該書深入講解了從大量非結構化Web資料中提取和產生知識的技術。書中首先論述了Web的基礎（包括Web資訊採集機制、Web標引機制以及基於關鍵字或基於相似性搜尋機制），然後系統地描述了Web挖掘的基礎知識，著重介紹基於超文字的機器學習和資料探勘方法，如聚類、協同過濾、監督學習、半監督學習，最後講述了這些基本原理在Web挖掘中的應用。《Web資料探勘》為讀者提供了堅實的技術背景和最新的知識。
8.《資料之巔》

對大資料追根溯源，提出當前資訊科技的發展，已經讓中國獲得了後發優勢，中國要在大資料時代的全球競爭中勝出，必須把大資料從科技符號提升成為文化符號，在全社會倡導資料文化。

9.《深入淺出統計學》

本書涵蓋的知識點包括：資訊視覺化、機率計算、幾何分佈、二項分佈及泊松分佈、正態分佈、統計抽樣、置信區間的構建、假設檢驗、卡方分佈、相關與迴歸等等，完整涵蓋AP考試範圍。

10.《矩陣分析》

本書從數學分析的角度論述矩陣分析的經典方法和現代方法，取材新，有一定的深度，並給出在多元微積分、複分析、微分方程、量最佳化、逼近理論中的許多重要應用。主要內容包括：特徵值、特徵向量和相似性，酉等價和正規矩陣，標準形，Hermite矩陣和對稱矩陣，向量範數和矩陣範數，特徵值和估計和擾動，正定矩陣，非負矩陣。
11.《統計學習方法》

本書全面系統地介紹了統計學習的主要方法，特別是監督學習方法，包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦迴歸與最大熵模型、支援向量機、提升方法、em演算法、隱馬爾可夫模型和條件隨機場等。除第1章概論和最後一章總結外，每章介紹一種方法。敘述從具體問題或例項入手，由淺入深，闡明思路，給出必要的數學推導，便於讀者掌握統計學習方法的實質，學會運用。為滿足讀者進一步學習的需要，書中還介紹了一些相關研究，給出了少量習題，列出了主要參考文獻。

12.《機器學習導論》

對機器學習的定義和應用例項進行了介紹，涵蓋了監督學習。貝葉斯決策理論。引數方法、多元方法、維度歸約、聚類、非引數方法、決策樹。線性判別式、多層感知器，區域性模型、隱馬爾可夫模型。分類演算法評估和比較，組合多學習器以及增強學習等。
《機器學習及其應用》：全書共分14章，內容涉及因果推斷、流形學習與降維、遷移學習、類別不平衡學習、演化聚類、多標記學習、排序學習、半監督學習等技術和協同過濾、社群推薦、機器翻譯等應用，以及網際網路應用對機。

2 # 神策資料

先夯實一下理論知識，推薦這些書籍，比較不枯燥，並且可以對資料分析有一個宏觀的觀念。《精益資料分析》：其中包含了大量經典案例，講解了第一關鍵指標法、如何建立指標體系，避免虛榮指標、創業公司不同階段需要什麼樣的資料分析側重等都有深入淺出的理論。還有一些其他的資料分析書籍《人人都是網站分析師》、《深入淺出統計學》等，內容都很詳實。同時建議學習幾項技能，Excel、SQL都是必備的，資料分析思想也很重要，需要了解行業關注的指標，才能讓自己的資料分析技能服務於行業，建議聽一些線上課程，參加線下沙龍和課程等。
3 # 肖穎50

想從零開始的人，就不要過於依賴大資料。理由，大資料會制約你的想象力，桎梏你的開發能力。大資料對從零開始的人來說，只可借鑑利用，絕不可重用。常規領域裡的應用，那是另一說。哈哈。對吧？

4 # 資料醬人

大資料太廣了，看你需求，你是想做的偏技術資料，還是想偏業務方向。可以細分很多領域，包括資料儲存，資料處理，資料探勘，資料視覺化等。每一個都需要花費力氣去學的。
5 # IT人劉俊明

大資料的基礎學科有三個，分別是數學、統計學和計算機學，所以學習大資料首先要具備一定的數學基礎，包括高等數學、線性代數、機率論和離散數學，然後是基礎的統計學基礎和計算機基礎。

雖然大資料的崗位比較多，遍佈資料的採集、整理、儲存、安全、分析、呈現等方面，但是比較核心的大資料崗位包括大資料平臺研發、大資料應用開發和大資料分析等，這些崗位雖然在知識結構上有一定的區別，但是基本的大資料知識是一定要具備的，下面做一個介紹。
第一：演算法設計。大資料的核心是資料價值化，資料分析則是資料價值化的重要途徑，而演算法設計則是資料分析的核心，因此演算法設計在大資料知識體系中具有重要的地位。演算法設計的書籍比較多，推薦讀一下《演算法導論》，這是一本比較經典的演算法設計類書籍。

第二：程式語言。演算法設計之後就需要進行演算法實現，演算法實現就需要掌握程式語言，能夠實現演算法的程式語言有很多，包括R、Python、Java等都可以，推薦系統學習一下Python語言，採用Python完成演算法實現在目前的大資料和機器學習領域是一個比較普遍的選擇。

第三：大資料平臺。大資料平臺是大資料應用的基礎，目前比較常見的大資料平臺包括Hadoop和Spark。Hadoop平臺已經被業界使用多年，已經形成了一個比較完善的生態體系，建議從Hadoop開始學起。
第四：機器學習。機器學習與大資料的關係越來越密切，目前在大資料分析領域經常採用機器學習的方式。透過大資料進入機器學習領域，再全面進入人工智慧領域也是目前一個比較常見的學習路線。

大資料的學習需要一個系統的過程，另外最好在學習的過程中能結合實際案例進行，這樣會有一個更好的效果。

作者簡介：中國科學院大學計算機專業研究生導師，從事IT行業多年，研究方向包括動態軟體體系結構、大資料、人工智慧相關領域，有多年的一線研發經驗。

6 # 知識時刻

1.《大資料分析：點“數”成金》大資料學習入門級書籍推薦

你現在正坐在一座金礦之上，這些金子或被深埋於備份、存檔資料之中，或正藏在你眼前的資料集裡，它們是提升公司效益、拓展新的商業關係、制訂更直觀決策的秘訣所在，足以使你的企業更上一層樓。你將明白如何利用、分析和駕馭資料來獲得豐厚回報。作者Frank Ohlhorst“厚積”數十年的技術經驗而“薄發”於此書，他將向讀者介紹怎樣將大資料分析應用於各行各業。在中，你將瞭解到如何對資料進行挖掘，怎樣從資料中揭示趨勢並轉化為競爭策略及攫取價值的方法。這些更有意思也更有效的方法能夠提升企業的智慧化水平，將有助於企業解決實際問題，提升利潤空間，提高生產率並發現更多的商業機會。
2、《大資料時代》大資料學習入門級書籍推薦

《大資料時代》是國外大資料系統研究的先河之作，本書作者維克托。邁爾。舍恩伯格被譽為“大資料商業應用一人”，擁有在哈佛大學、牛津大學、耶魯大學和新加坡國立大學等多個網際網路研究重鎮任教的經歷，早在2010年就在《經濟學人》上釋出了長達14頁對大資料應用的前瞻性研究。維克托。爾耶。舍恩伯格在本書中前瞻性地指出，大資料帶來的資訊風暴正在變革我們的生活、工作和思維，大資料開啟了一次重大的時代轉型，並用三個部分講述了大資料時代的思維變革、商業變革和管理變革。《大資料時代》認為大資料的核心就是預測。大資料將為人類的生活創造前所未有的可量化的維度。大資料已經成為了新發明和新服務的源泉，而更多的改變正蓄勢待發。書中展示了谷歌、微軟、IBM、蘋果、facebook、twitter、VISA等大資料先鋒們具價值的應用案例。
3、《雲端時代殺手級應用：大資料分析》大資料學習入門級書籍推薦

《雲端時代殺手級應用：大資料分析》分什麼是大資料、大資料大商機、技術與前瞻3個部分。第一部分介紹大資料分析的概念，以及企業、政府部門可應用的範疇。什麼是大資料分析？與個人與企業有什麼關係？將對全球產業造成怎樣的衝擊？第二部分完整介紹大資料在各產業的應用實況，為企業及政府部門提供應用的方向。提供了全球各地的實際應用案例，涵蓋零售、金融、政府部門、能源、製造、娛樂、醫療、電信等各個行業，充分展現大資料分析產生的效益。第三部分則簡單介紹了大資料分析所需技術及未來發展趨勢，為讀者提供了應用與研究的方向。

4、《大資料》大資料學習入門級書籍推薦
本書透過講述美國半個多世紀資訊開放、技術創新的歷史，以別開生面的經典案例–奧巴馬建設“前所未有的開放政府”的雄心、公共財政透明的曲折、《資料質量法》背後的隱情、全民醫改法案的波瀾、統一身份證的百年糾結、街頭警察的創新傳奇、美國礦難的悲情歷史、商務智慧的前世今生、資料開放運動的全球興起，以及雲計算、Facebook和推特等社交媒體、Web3.0與下一代網際網路的未來圖景等等，為您一一細解，資料創新給公民、政府、社會帶來的種種挑戰和變革。

5、《大資料網際網路大規模資料探勘與分散式處理》大資料學習入門級書籍推薦

《大資料：網際網路大規模資料探勘與分散式處理》源自作者在斯坦福大學教授多年的“Web挖掘”課程材料，主要關注大資料環境下資料探勘的實際演算法。書中分析了海量資料集資料探勘常用的演算法，介紹了目前Web應用的許多重要話題。主要內容包括：分散式檔案系統以及Map-Reduce工具；相似性搜尋；資料流處理以及針對易丟失資料等特殊情況的專用處理演算法；搜尋引擎技術，如谷歌的PageRank；頻繁項集挖掘；大規模高維資料集的聚類演算法；Web應用中的關鍵問題：廣告管理和推薦系統。
6、巴拉巴西《爆發》

《爆發：大資料時代預見未來的新思維》是一本越過《黑天鵝》的驚世之作。如果說塔勒布認為人類行為是隨機的，都是小機率事件，是不可以預測的；那麼全球複雜網路著名巴拉巴西則認為，人類行為93%是可以預測的。巴拉巴西的研究是在人類生活數字化的大資料時代基礎上進行的，行動電話、網路以及電子郵件使人類行為變得更加容易量化，將我們的社會變成了一個巨大的資料庫。他認為，人類正處在一個聚合點上，在這裡資料、科學以及技術都聯合起來共同對抗那個很大的謎題–我們的未來。在本書中，巴拉巴西揭開人類行為背後隱藏的模式“爆發”，提出人類日常行為模式不是隨機的，而是具有“爆發性”的。爆發揭開了人類行為中令人驚訝的深層次的秩序，使得人類變得比預期中更容易預測得多。
7 # 程式設計師書屋

給大家推薦一份大資料書單
１、Flink入門與實戰
Flink是大資料處理領域最近冉冉升起的一顆新星，它可以基於Hadoop進行開發和使用，與Hadoop緊密結合。本書旨在幫助讀者從零開始快速掌握Flink的基本原理與核心功能，

並具有以下特點：

這是一本Flink入門級圖書，力求詳細而完整地描述Flink基礎理論與實際操作。
採用Flink 1.6版本寫作，案例豐富實用，做到學以致用。

細節與案例兼顧，深入淺出展現Flink技術精髓。

51CTO熱門網課配套教材，可與網課結合學習，快速提升大資料開發技能。
２、Redis實戰
[美] 約西亞 L.卡爾森（Josiah，L.，Carlson）著，黃健宏譯

豆瓣評分８.０
３、Redis入門指南（第2版）
李子驊著

《Redis入門指南（第2版）》是一本Redis的入門指導書籍，以通俗易懂的方式介紹了Redis基礎與實踐方面的知識，包括歷史與特性、在開發和生產環境中部署執行Redis、資料型別與命令、使用Redis實現佇列、事務、複製、管道、持久化、最佳化Redis儲存空間等內容，並採用任務驅動的方式介紹了PHP、Ruby、Python和Node.js這4種語言的Redis客戶端庫的使用方法。
４、Hadoop虛擬化
[美] 喬治·特魯希略（George Trujillo）著，陳鵬，肖明興譯

本書旨在幫助讀者瞭解和掌握不同虛擬化Hadoop選擇的優缺點、虛擬化Hadoop的配置及其注意事項。本書共分15章，主要內容包括Hadoop平臺在企業轉型中扮演的重要角色、Hadoop基礎概念、YARN與HDFS、現代資料平臺、資料採集、Hadoop SQL引擎、Hadoop中的多租戶、虛擬化基礎、虛擬化Hadoop實踐、虛擬化Hadoop、虛擬化Hadoop主伺服器、虛擬化Hadoop工作節點、私有云中的Hadoop即服務、Hadoop安裝以及Hadoop Linux配置。
５、HBase權威指南 [HBase： The Definitive Guide]
[美] Lars George 著，代志遠，劉佳，蔣傑譯
Apache HBase專案管理委員會主席Michael Stack作序推薦。作者Lars George是HBase Committer，HBase文件的主要貢獻者，Cloudera公司解決方案架構師，主要為Hadoop和HBase提供技術支援、諮詢和培訓工作。這是一本介紹HBase內部機制的書，是HBase開發指南。
本書探討了如何透過使用與HBase高度整合的Hadoop將HBase的可伸縮性變得簡單；把大型資料集分佈到相對廉價的商業伺服器叢集中；使用本地Java客戶端，或者透過提供了REST、Avro和Thrift應用程式設計介面的閘道器伺服器來訪問HBase；瞭解HBase架構的細節，包括儲存格式、預寫日誌、後臺程序等；在HBase中整合MapReduce框架；瞭解如何調節叢集、設計模式、複製表、匯入批次資料和刪除節點等。本書適合使用HBase進行資料庫開發的高階資料庫研發人員閱讀。

8 # IT技術管理那些事兒

第一階段：大資料基礎語言的學習Java語言基礎：Java開發介紹、熟悉Eclipse開發工具、Java語言基礎、Java流程控制、Java字串、Java陣列與類和物件、數字處理類與核心技術、I/O與反射、多執行緒、Swing程式與集合HTML、CSS與JavaScript：PC端網站佈局、HTML5+CSS3基礎、WebApp頁面佈局、原生JavaScript互動功能開發、Ajax非同步互動、jQuery應用JavaWeb和資料庫：資料庫、JavaWeb開發核心、JavaWeb開發內幕
推薦書籍：
《Effective Java》
本書為我們帶來了共78條程式設計師必備的經驗法則，針對你每天都會遇到的程式設計問題提出了有效、實用的解決方案。書中的每一章都包含幾個"條目"，以簡潔的形式呈現，自成獨立的短文，它們提出了具體的建議，對於Java平臺精妙之處的獨到見解，以及優秀的程式碼範例。每個條目的綜合描述和解釋都闡明瞭應該怎麼做，不應該怎麼做，以及為什麼。
第二階段： Linux&Hadoop生態體系
Linux體系、Hadoop離線計算大綱、分散式資料庫Hbase、資料倉庫Hive、資料遷移工具Sqoop、Flume分散式日誌框架

推薦書籍：
《Big Data》
在大資料的背景下，我很少看到關於資料建模，資料層，資料處理需求分析以及資料架構和儲存實現問題。這本書卻提供了令人耳目一新的全面解決方案。
《Hadoop權威指南》
《Hadoop權威指南(中文版)》從Hadoop的緣起開始，由淺入深，結合理論和實踐，全方位地介紹Hadoop這一高效能處理海量資料集的理想工具。
《Hive程式設計指南》
《Hive程式設計指南》是一本Apache Hive的程式設計指南，旨在介紹如何使用Hive的SQL方法HiveQL來彙總、查詢和分析儲存在Hadoop分散式檔案系統上的大資料集合。
第三階段：分散式計算分散式計算框架：Python程式語言、Scala程式語言、Spark大資料處理、Spark—Streaming大資料處理、Spark—Mlib機器學習、Spark—GraphX 圖計算、實戰一：基於Spark的推薦系統（某一線公司真實專案）、實戰二：新浪網（http://www.sina.com.cn）storm技術架構體系：Storm原理與基礎、訊息佇列kafka、Redis工具、zookeeper詳解、實戰一：日誌告警系統專案、實戰二：猜你喜歡推薦系統實戰
推薦書籍：
《Spark 快速大資料分析》
《Spark 快速大資料分析》是一本為Spark 初學者準備的書，它沒有過多深入實現細節，而是更多關注上層使用者的具體用法。不過，本書絕不僅僅限於Spark 的用法，它對Spark 的核心概念和基本原理也有較為全面的介紹，讓讀者能夠知其然且知其所以然。
《Spark機器學習：核心技術與實踐》
本書採用理論與大量例項相結合的方式幫助開發人員掌握使用Spark進行分析和實現機器學習演算法。透過這些示例和Spark在各種企業級系統中的應用，幫助讀者解鎖Spark機器學習演算法的複雜性，透過資料分析產生有價值的資料洞察力。
第四階段：大資料專案實戰
資料獲取、資料處理、資料分析、資料展現、資料應用
第五階段：大資料分析 —AI（人工智慧）
主要是講解Data Analyze資料分析基礎、資料視覺化、sklearn中三類樸素貝葉斯演算法以及python機器學習等提升個人能力的內容！

∧ 中秋節和大豐收的關聯？

∨ 戴爾G3有什麼優、缺點？

熱門排行

劇多

想要學習大資料，應該看些什麼書？