一般用哪些工具做大資料分析？

首頁>Club>烏鴉點點點2021-06-02 15:09

一般用哪些工具做大資料分析？

回覆列表

1 # 西線學院

　　雖然收集和分析“大資料”存在一些分析和技術方面的挑戰，但事實上大部分公司已經能夠應對這種挑戰。這是因為有一些非常強大的分析工具都是免費、開源的，可以充分利用這些工具來提升自己的能力。

　　下面推薦了10個針對企業的大資料分析工具，這些工具不僅免費、使用方便，而且具有強大的功能和良好的資源。
　　1、Tableau Public

　　這是一個簡單直觀的視覺化工具。它在商業活動中表現的很強大，因為它透過視覺化來表達。它有足夠的空間和免費使用時長讓你體驗，在分析的過程中，Tableau的圖片呈現可以讓你快速的調查一個假設、驗證你的直覺，做更好的商業決策。

　　2、OpenRefine

　　它是以前的GoogleRefine，OpenRefine是一款資料清理軟體，可以對準備好的一切資料進行分析。例如最近我清理了一個含有化學名稱的資料庫，並且各行有不同的拼寫、大小寫、空格等，用計算機來處理非常困難，幸運的是， OpenRefine包含許多聚類演算法，對這個問題可以快速解決。

　　3、KNIME
　　KNIME可以透過視覺化程式設計的方式來操作、分析和建模。不僅可以寫程式碼。你還可以在操作中建立聯絡節點。基本上你只需要將功能模組拖拽到工作區，並將模組按照執行流程連線起來，就可以實現以往程式設計才能實現的工作。更重要的是，KNIME可以擴充套件到執行R, python, text mining,chemistry data等等，這可以讓你選擇用更先進的編碼來分析。

　　4、RapidMiner

　　和KNIME類似， RapidMiner透過視覺化程式設計操作，建模和分析資料。最近，RapidMiner贏得kdnuggets的軟體調查。

　　5、GoogleFusion Tables
　　這是針對資料分析、大資料集的視覺化和對映的一個非常強大的工具，谷歌的地圖軟體在其中起著重要作用。拿下面這張圖來說，這是一張墨西哥灣石油生產平臺的圖，我只需要上傳資料，Google Fusion Tables確認維度和經度的資料之後就開始工作了。

　　6、NodeXL

　　NodeXL是針對網路和關係的視覺化分析軟體。想想科技巨頭地圖上代表LinkedIn或Facebook的連線，NodeXL提供了進一步精確的計算。如果你在不需要那麼先進的東西，你可以看看Google Fusion Tables，或者嘗試用Gephi。

　　7、import.io

　　從網上抓取網頁和資訊曾經是技術人員的專利，現在用import.io，每個人都可以從網站和論壇獲取資料。簡單提出你想要的資料，幾分鐘之後import.io就可以透過你的搜尋知道你在找什麼，從而會挖掘、提供資料用於你的分析或輸出。
　　8、Google Search Operators

　　不可否認谷歌最初是一個強大的資源和搜尋公司，運營商可以讓你快速過濾掉谷歌的結果得到的最有用的和相關的資訊。比如說，你正想從ABC諮詢裡尋找一個今年的資料科學報告。如果我們認為該報告可能是PDF格式的，可以在“資料科學報告”，下面的搜尋欄，使用“搜尋工具”來遮蔽去年的結果。這在發現新的資訊或市場研究方面非常有用。

　　9、Solver

　　Solver是一個在excel中做最佳化和線性規劃的工具，允許你設定一些約束條件（例如不超過什麼價格，要在哪天之前完成之類）。雖然更有效的最佳化可能會需要另一個程式（例如R的最佳化包），但是Solver應用範圍比較廣。
　　10、WolframAlpha

　　Wolfram Alpha的搜尋引擎是一個隱藏的寶石，可以媲美蘋果的Siri。WolframAlpha類似於不那麼智慧的Google，對科技搜尋提供詳細的回覆，對微積分作用也能快速的搜尋。對企業使用者來說，它提供了資訊圖表，對歷史價格、商品資訊、主題概述。

2 # 大資料和雲計算技術

一般業務人員資料分析使用最廣的是excel。
資料科學家一般使用R，python來分析。
工具上有spss，sas等軟體。
另外各大雲廠商都提供了分析建模工具。
總的來說，對業務的理解，對演算法的熟悉是關鍵，工具都是次要的。
3 # 聽老納說

隨著大資料時代的來臨，大資料分析也應運而生，下面幾款工具還是比較值得推薦的。

一、HadoopHadoop

是一個能夠對大量資料進行分散式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的，因為它假設計算元素和儲存會失敗，因此它維護多個工作資料副本，確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的，因為它以並行的方式工作，透過並行處理加快處理速度。Hadoop 還是可伸縮的，能夠處理 PB 級資料。此外，Hadoop 依賴於社群伺服器，因此它的成本比較低，任何人都可以使用。
二、HPCC
HPCC，High Performance Computing and Communications（高效能計算與通訊）的縮寫。1993年，由美國科學、工程、技術聯邦協調理事會向國會提交了“重大挑戰專案：高效能計算與通訊”的報告，也就是被稱為HPCC計劃的報告，即美國總統科學戰略專案，其目的是透過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國實施資訊高速公路而上實施的計劃，該計劃的實施將耗資百億美元，其主要目標要達到：開發可擴充套件的計算系統及相關軟體，以支援太位級網路傳輸效能，開發千兆位元網路技術，擴充套件研究和教育機構及網路連線能力。
三、Storm

Storm是自由的開源軟體，一個分散式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的資料流，用於處理Hadoop的批次資料。Storm很簡單，支援許多種程式語言，使用起來非常有趣。Storm由Twitter開源而來，其它知名的應用企業包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。 Storm有許多應用領域：實時分析、線上機器學習、不停頓的計算、分散式RPC（遠過程呼叫協議，一種透過網路從遠端計算機程式上請求服務）、 ETL（Extraction-Transformation-Loading的縮寫，即資料抽取、轉換和載入）等等。Storm的處理速度驚人：經測試，每個節點每秒鐘可以處理100萬個資料元組。Storm是可擴充套件、容錯，很容易設定和操作。

4 # 淵渟澤匯i

大資料作為時下最火熱的IT行業的詞彙，隨之而來的資料倉庫、資料安全、資料分析、資料探勘等等圍繞大資料的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。隨著大資料時代的來臨，大資料分析也應運而生。
用於展現分析的前端開源工具有JasperSoft，Pentaho, Spagobi, Openi, Birt等等。用於展現分析商用分析工具有Style Intelligence、RapidMiner Radoop、Cognos, BO, Microsoft Power BI, Oracle,Microstrategy,QlikView、 Tableau 。國內的有BDP，國雲資料（大資料魔鏡），思邁特，FineBI等等。
不過，在這裡推薦一些非專業人員也能完成資料分析的工具，個人認為推薦的兩個是比較實用，好上手的資料分析工具，註冊能試用，產品也在不斷改進當中：

1.視覺化工具，圖表秀，能為使用者提供線上圖表製作工具和視覺化交流社群，適合所有行業領域，讓工作成果、報告演示瞬間出彩。

它提供了簡單易用的資料分析與視覺化圖表製作工具，使用者可以基於現有的離線資料、RDB資料以及第三方平臺數據，實現資料的分析與視覺化，挖掘資料價值。透過交流社群以及社交媒體分享機制，讓使用者之間無障礙溝通，打造全領域交流溝通平臺。透過圖表集市，為第三方開發者、領域分析專家與使用者間搭建供需橋樑，建立最新、最專業的適合相關領域的視覺化圖表，構建共贏生態。
2.方便快捷的資料分析工具：dataviz

DataViz為企業使用者提供自助分析能力，透過多維互動分析，幫助使用者快速完成資料探索，獲取第一手資料分析報告，洞悉資料背後隱藏的商業價值，輔助企業決策，提升企業競爭力。
5 # 嘉靖不上朝

MongoDB—— 一種流行的，跨平臺的面向文件的資料庫。

Elasticsearch——專為雲而構建的分散式REST風格搜尋引擎。

Cassandra——一個開源的分散式資料庫管理系統，最初由Facebook開發，被設計用來處理橫跨多個商用伺服器的大量資料，提供了無單點故障的高度可用性。
Redis—— 一個開源的（BSD許可），記憶體資料結構儲存，作為資料庫、快取和訊息代理使用。

Hazelcast——基於Java的開源記憶體資料網格。

EHCache——一種被廣泛使用的開源Java分散式快取，用於通用快取、Java EE和輕量級容器。Ehcache相關介紹

Hadoop——用Java編寫的一個開源軟體框架，用於分散式儲存和對在計算機叢集上的超大型資料集的分散式處理。

Solr——一個開源的企業搜尋平臺，用Java編寫的，來自於ApacheLucene專案。

Spark——Apache Software Foundation中最活躍的專案，一個開源的叢集計算框架。
Memcached—— 一個通用的分散式記憶體快取系統。

Apache Hive——提供了Hadoop之上類似於SQL的層。

Apache Kafka—— 一個高通量、分散式的釋出-訂閱式訊息系統，最初開發在LinkedIn上。Windows上脫離Cygwin執行Apache Kafka

Akka—— 一個工具包和執行時，用於在JVM上構建高度並行的、分散式的、有彈性的訊息驅動的應用程式。

HBase—— 一個開源的，非關係型的，分散式資料庫，在谷歌的BigTable後建模，用Java編寫，並執行在HDFS上。

Neo4j——用Java實現的開源圖形資料庫。

CouchBase——一個開源的、面向文件的分散式NoSQL資料庫，特別為了互動式應用而最佳化。
Apache Storm——開源的分散式實時計算系統。

CouchDB——使用JSON來儲存資料的面向文件的開源NoSQL資料庫。

Oracle Coherence—— 一個記憶體的資料網格解決方案，透過提供快速訪問常用資料的渠道，使得企業可預測地擴充套件關鍵任務應用程式。

Titan—— 一個可擴充套件的圖形資料庫，最佳化的目的在於儲存和查詢包含數千億頂點和邊的圖形，分佈在多機叢集。

Amazon DynamoDB——一個快速、靈活、完全管理的NoSQL資料庫服務，用於在任何規模需要一致的、個位數毫秒延遲的所有應用程式。

Amazon Kinesis—— 用於在AWS上的流資料的實時平臺。
Datomic—— 一個用Clojure寫的完全事務式的，支援雲的，分散式資料庫。

原文連結：https://blog.csdn.net/zhinengxuexi/article/details/90056986

6 # ThingJS

問題來了，是選擇定製好的圖形庫？還是自己自由開發圖形？如果是視覺化專案開發需求，建議簡化開發流程，選擇js類庫，開發效率更高。
7 # 諸葛io

從某種意義上也具有視覺化分析的特性，但區別於其他工具的是我們面向網際網路產品推廣運營過程中的分析需求定義了一些分析模型，比如事件、漏斗、自定義留存、粘性、使用者分群等，很多工具可以任意拖拽去做分析，但很多時候客戶也會因為太靈活反而有一定門檻，所以，當一些模型被標準化以後，基本可以解決網際網路產品設計、推廣、運營、營銷過程中的絕大多數分析需求，這也大大提供了業務人員的工作效率。
附圖幾張：

使用者模型

全行為路徑分析模型

粘性分析模型自定義留存分析模型

關於一些分析模型，我們整理出了常用的八大資料分析模型，過去兩個月，每週二都會更新一個模型，很多模型大家都比較瞭解，但可能他又增加了一些新特性，感興趣可戳連結：

八大資料分析模型之——使用者模型（一）

八大資料分析模型之——事件模型（二）

八大資料分析模型之——漏斗模型（三）

八大資料分析模型之——熱圖模型（四）

八大資料分析模型之——自定義留存分析模型（五）

八大資料分析模型之——粘性分析模型（六）

八大資料分析模型之——全行為路徑模型（七）
......

當然，我們也面向有高階使用需求的使用者，比如資料分析師或是有一定資料查詢能力的人員提供了SQL查詢功能，因為還有20%的分析需求無法透過標準的模型解決，需要自己去定義。

1、前端表格匯出

2、SQL查詢平臺支援

3、查詢API按需呼叫

4、直連資料倉庫

5、Kafka實時訂閱

6、原始資料全量匯出

以上~

8 # 思維界

企業大資料分析一般用什麼工具這個問題我們從最早期的這個excel表格做簡單的分析的話是最早的，嗯其中包含一些簡單的公式以及對excel相互關聯以及代表婦聯的這個情況是最常見的一個大資料分析模式但是它的缺陷是達到65萬資料的時候將無法去進行更多的分析那當然按這個資料還有可能產生另外一個可能性就是資料的文字或者數字性太大或者過多也會導致整個電腦很卡也就會產生你的電腦不夠用了這種可能性，在這個時候初級的這個大資料分析研究者應該將資料的研究搬運到mysql或者收購sql server這些資料庫上面去，以便將這些資料結構化和便捷化的去操作和所以以及方便取用和對接其它的平臺，當大資料在以上平臺都不能滿足的時候，需要使用，更高一級的這個框架和構架資料平臺來使用也就會使用的雲計算來實現所有的資料購價分析以及重組那麼最後還要將這個資料實現視覺化這個比較困難的問題，因為多表的連線會涉及到很多框架，相互構造和相互關聯，由此而產生的多年表，是許多工程師和團隊遇到的最大的一個難點尤其是這個工程師良莠不齊而造成後期在對積的觀中產生的一些規則類的問題和一些銜接類的問題目前大資料開發公司和儲存公司遇到最頭疼和最難解決的問題由此我們由淺入深的來看這個問題的話首先應該是要有一個比較好的團隊實際上資料的獲得現在非常的容易。
9 # 和睦相處46539

主要看你的具體需求，每款BI產品有它的特色，像國內做得比較成熟的Smartbi，功能齊全，實用性強，使用率高。

10 # 百草莊

Hadoop
Hadoop是一個能對大資料進行分散式處理的軟體框架。能夠處理PB級的資料，依賴於社群伺服器，成本較低，有著高可靠性，高擴充套件性，高效性，高容錯性等優點。
Storm
storm是自由的開源軟體，分散式，容錯的實時計算系統，可以可靠的處理龐大的資料流，支援多種程式語言，應用在多個領域，比如實時分析，線上機器學習，不停頓計算等等
Excel
這個不多說。
11 # Aruen

ELK，資料透過filebeat傳到logstash，在logstash中過濾後，傳到elasticsearch中，進行查詢操作，還可以透過kibana對es中資料進行視覺化顯示！

12 # 北山閒話

大資料分析工具有很多，不過絕大多數是自己開發，或在某工具上進行二次開發。

大資料業務有很多環節，大致為：

1. 資料蒐集：藉助工具對研究物件進行資料採集，可以是人工採集——如街頭調查、電話採訪、現場統計……，也可以是軟體採集——如網路爬蟲、GPS軌跡、企業ERP歷史資料……；

2. 資料清洗：對採集到的資料按研究價值進行整理和歸類，如：那些資料是無效資料，那的資料是被汙染(被刻意篡改)……將這些資料剔除，減少干擾。資料清洗的工具同樣也有人工和軟體，甚至同時使用。
3. 資料加工：對清洗後的資料按研究意圖進行整理和歸類，如價格(將出廠價、零售價、批發價、開票價、稅率、促銷價等價格資訊進行歸類)、品種(按顏色、行業規格、適用環境、質地等進行歸類)、日期(將年齡、生日、期間起始日期、庫齡等日期相關的歸類)……

4. 資料統計：對加工過的資料進行預測，發現數據規律。對加工過的資料進行人工抽樣(小樣本)，藉助簡單的工具來發現一些規律，尋找一些蛛絲馬跡，建立數學統計模型和分析演算法。

5. 大資料分析：對原始資料(或加工過的資料)，透過第4步建立的分析演算法，進行“大資料”自動分析，分析過程中，還需要不斷修正演算法，可能重新回到上述第3步，將原演算法推倒從重來。

——結論——
大資料分析是一個系統工程，是對某種社會行為和自然現象(如購物、交易、人流、裝置運轉、輿情、氣候等)進行分析，需要分析人員掌握很多綜合知識，然後藉助計算機的運算能力，幫助分析。

從題主的提問來揣測，可能題主認為大資料就是計算機行業，其實不然。大資料分析人員的知識結構大致為：非計算機知識佔80%，計算機使用能力佔20%，同時還要隨時跟上計算機工具的版本更新或更迭。

最後，回答本提問，大資料分析的工具有很多，手工算、算盤，excel，microsoft PowerBI，python中的很多模組，mssql，mysql……那個順手用那個，那個適合業務需要用那個，目前沒有“最好”，也沒有“行業慣例”，自己選擇自己習慣的吧。
13 # 加米穀大資料

按需求選擇吧：
19個超讚的資料科學和機器學習工具：https://www.toutiao.com/i6585379544813797901/
3大開源Python資料分析工具
https://www.toutiao.com/i6589410805932884493/

14 # 使用者6726081542646

有很多開源的產品，如果有研發能力的，可以直接使用開源產品來自己搭建資料分析平臺，開發自己的資料分析軟體，不過這樣需要較強的技術能力，付出較大的成本。
也可以使用東軟平臺雲(https://cloud.neusoft.com/)的DataViz視覺化資料分析軟體，這樣的專業的尅時候資料分析軟體，不需要專業的分析師和技術人員，業務人員透過簡單的拖拽就可以實現資料分析，還支援多種資料來源，支援動態傳統圖表和高階視覺化圖表，多種科技、商務主題自由切換，支援拖拽圖表組合佈局，設定圖表聯動互動，分析結果支援適應各種解析度的大屏展示。
15 # CDA資料分析師

大資料分析的前瞻性使得很多公司以及企業都開始使用大資料分析對公司的決策做出幫助，而大資料分析是去分析海量的資料，所以就不得不借助一些工具去分析大資料，。一般來說，資料分析工作中都是有很多層次的，這些層次分別是資料儲存層、資料報表層、資料分析層、資料展現層。對於不同的層次是有不同的工具進行工作的。下面小編就對大資料分析工具給大家好好介紹一下。
首先我們從資料儲存來講資料分析的工具。我們在分析資料的時候首先需要儲存資料，資料的儲存是一個非常重要的事情，如果懂得資料庫技術，並且能夠操作好資料庫技術，這就能夠提高資料分析的效率。而資料儲存的工具主要是以下的工具。

1、MySQL資料庫，這個對於部門級或者網際網路的資料庫應用是必要的，這個時候關鍵掌握資料庫的庫結構和SQL語言的資料查詢能力。

2、SQL Server的最新版本，對中小企業，一些大型企業也可以採用SQL Server資料庫，其實這個時候本身除了資料儲存，也包括了資料報表和資料分析了，甚至資料探勘工具都在其中了。

3、DB2，Oracle資料庫都是大型資料庫了，主要是企業級，特別是大型企業或者對資料海量儲存需求的就是必須的了，一般大型資料庫公司都提供非常好的資料整合應用平臺;
接著說資料報表層。一般來說，當企業儲存了資料後，首先要解決報表的問題。解決報表的問題才能夠正確的分析好資料庫。關於資料報表所用到的資料分析工具就是以下的工具。

1、Crystal Report水晶報表，Bill報表，這都是全球最流行的報表工具，非常規範的報表設計思想，早期商業智慧其實大部分人的理解就是報表系統，不借助IT技術人員就可以獲取企業各種資訊——報表。

2、Tableau軟體，這個軟體是近年來非常棒的一個軟體，當然它已經不是單純的資料報表軟體了，而是更為視覺化的資料分析軟體，因為很多人經常用它來從資料庫中進行報表和視覺化分析。

第三說的是資料分析層。這個層其實有很多分析工具，當然我們最常用的就是Excel，我經常用的就是統計分析和資料探勘工具;
1、Excel軟體，首先版本越高越好用這是肯定的;當然對Excel來講很多人只是掌握了5%Excel功能，Excel功能非常強大，甚至可以完成所有的統計分析工作!但是我也常說，有能力把Excel玩成統計工具不如專門學會統計軟體;

2、SPSS軟體：當前版本是18，名字也改成了PASW Statistics;我從3.0開始Dos環境下程式設計分析，到現在版本的變遷也可以看出SPSS社會科學統計軟體包的變化，從重視醫學、化學等開始越來越重視商業分析，現在已經成為了預測分析軟體。

最後說表現層的軟體。一般來說表現層的軟體都是很實用的工具。表現層的軟體就是下面提到的內容。

1、PowerPoint軟體：大部分人都是用PPT寫報告。
2、Visio、SmartDraw軟體：這些都是非常好用的流程圖、營銷圖表、地圖等，而且從這裡可以得到很多零件;

3、Swiff Chart軟體：製作圖表的軟體，生成的是Flash

16 # 千鋒武漢

大資料是什麼？大資料處理分析的工具有哪些？不管是即將學習大資料的人亦或是轉型向學大資料的人都想要了解的。
1、什麼是大資料？
簡言之，從各種各樣型別的資料中，快速獲得有價值資訊的能力，就是大資料技術。

大資料是對海量資料進行儲存、計算、統計、分析處理的一系列處理手段，處理的資料量通常是TB級，甚至是PB或EB級的資料，這是傳統資料處理手段所無法完成的，其涉及的技術有分散式計算、高併發處理、高可用處理、叢集、實時性計算等，彙集了當前IT領域熱門流行的IT技術。

2、大資料最核心的價值
大資料最核心的價值就是在於對於海量資料進行儲存和分析。相比起現有的其他技術而言，大資料的“廉價、迅速、最佳化”這三方面的綜合成本是最優的。
3、大資料處理分析的六大最好工具
一、 Apache Hadoop

Hadoop 是一個能夠對大量資料進行分散式處理的軟體框架。Hadoop 是可靠的，因為它假設計算元素和儲存會失敗，因此它維護多個工作資料副本，確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的，因為它以並行的方式工作，透過並行處理加快處理速度。Hadoop 還是可伸縮的，能夠處理 PB 級資料。此外，Hadoop 依賴於社群伺服器，因此它的成本比較低，任何人都可以使用。
Hadoop是一個能夠讓使用者輕鬆架構和使用的分散式計算平臺。使用者可以輕鬆地在Hadoop上開發和執行處理海量資料的應用程式。它主要有以下幾個優點：

⒈高可靠性。Hadoop按位儲存和處理資料的能力值得人們信賴。

⒉高擴充套件性。Hadoop是在可用的計算機集簇間分配資料並完成計算任務的，這些集簇可以方便地擴充套件到數以千計的節點中。

⒊高效性。Hadoop能夠在節點之間動態地移動資料，並保證各個節點的動態平衡，因此處理速度非常快。

⒋高容錯性。Hadoop能夠自動儲存資料的多個副本，並且能夠自動將失敗的任務重新分配。

Hadoop帶有用 Java 語言編寫的框架，因此執行在 Linux 生產平臺上是非常理想的。Hadoop 上的應用程式也可以使用其他語言編寫，比如 C++。
二、HPCC

HPCC，High Performance Computing and Communications(高效能計算與通訊)的縮寫。1993年，由美國科學、工程、技術聯邦協調理事會向國會提交了“重大挑戰專案：高效能計算與通訊”的報告，也就是被稱為HPCC計劃的報告，即美國總統科學戰略專案，其目的是透過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國實施資訊高速公路而上實施的計劃，該計劃的實施將耗資百億美元，其主要目標要達到：開發可擴充套件的計算系統及相關軟體，以支援太位級網路傳輸效能，開發千兆位元網路技術，擴充套件研究和教育機構及網路連線能力。

該專案主要由五部分組成：
1、高效能計算機系統(HPCS)，內容包括今後幾代計算機系統的研究、系統設計工具、先進的典型系統及原有系統的評價等;

2、先進軟體技術與演算法(ASTA)，內容有巨大挑戰問題的軟體支撐、新演算法設計、軟體分支與工具、計算計算及高效能計算研究中心等;

3、國家科研與教育網格(NREN)，內容有中接站及10億位級傳輸的研究與開發;

4、基本研究與人類資源(BRHR)，內容有基礎研究、培訓、教育及課程教材，被設計透過獎勵調查者-開始的，長期的調查在可升級的高效能計算中來增加創新意識流，透過提高教育和高效能的計算訓練和通訊來加大熟練的和訓練有素的人員的聯營，和來提供必需的基礎架構來支持這些調查和研究活動;
5、資訊基礎結構技術和應用(IITA )，目的在於保證美國在先進資訊科技開發方面的領先地位。

三、Storm

Storm是自由的開源軟體，一個分散式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的資料流，用於處理Hadoop的批次資料。 Storm很簡單，支援許多種程式語言，使用起來非常有趣。Storm由Twitter開源而來，其它知名的應用企業包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。

Storm有許多應用領域：實時分析、線上機器學習、不停頓的計算、分散式RPC(遠過程呼叫協議，一種透過網路從遠端計算機程式上請求服務)、 ETL(Extraction-Transformation-Loading的縮寫，即資料抽取、轉換和載入)等等。Storm的處理速度驚人：經測試，每個節點每秒鐘可以處理100萬個資料元組。Storm是可擴充套件、容錯，很容易設定和操作。
四、Apache Drill

為了幫助企業使用者尋找更為有效、加快Hadoop資料查詢的方法，Apache軟體基金會近日發起了一項名為“Drill”的開源專案。Apache Drill 實現了 Google"s Dremel.

據Hadoop廠商MapR Technologies公司產品經理Tomer Shiran介紹，“Drill”已經作為Apache孵化器專案來運作，將面向全球軟體工程師持續推廣。

該專案將會創建出開源版本的谷歌Dremel Hadoop工具(谷歌使用該工具來為Hadoop資料分析工具的網際網路應用提速)。而“Drill”將有助於Hadoop使用者實現更快查詢海量資料集的目的。
“Drill”專案其實也是從谷歌的Dremel專案中獲得靈感：該專案幫助谷歌實現海量資料集的分析處理，包括分析抓取Web文件、跟蹤安裝在Android Market上的應用程式資料、分析垃圾郵件、分析谷歌分散式構建系統上的測試結果等等。

透過開發“Drill”Apache開源專案，組織機構將有望建立Drill所屬的API介面和靈活強大的體系架構，從而幫助支援廣泛的資料來源、資料格式和查詢語言。

五、RapidMiner

RapidMiner是世界領先的資料探勘解決方案，在一個非常大的程度上有著先進技術。它資料探勘任務涉及範圍廣泛，包括各種資料藝術，能簡化資料探勘過程的設計和評價。

功能和特點
免費提供資料探勘技術和庫

100%用Java程式碼(可執行在作業系統)

資料探勘過程簡單，強大和直觀

內部XML保證了標準化的格式來表示交換資料探勘過程

可以用簡單指令碼語言自動進行大規模程序

多層次的資料檢視，確保有效和透明的資料

圖形使用者介面的互動原型

命令列(批處理模式)自動大規模應用

Java API(應用程式設計介面)

簡單的外掛和推廣機制

強大的視覺化引擎，許多尖端的高維資料的視覺化建模

400多個數據挖掘運營商支援

耶魯大學已成功地應用在許多不同的應用領域，包括文字挖掘，多媒體挖掘，功能設計，資料流挖掘，整合開發的方法和分散式資料探勘。
六、 Pentaho BI

Pentaho BI 平臺不同於傳統的BI 產品，它是一個以流程為中心的，面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟體、API等等元件整合起來，方便商務智慧應用的開發。它的出現，使得一系列的面向商務智慧的獨立產品如Jfree、Quartz等等，能夠整合在一起，構成一項項複雜的、完整的商務智慧解決方案。

Pentaho BI 平臺，Pentaho Open BI 套件的核心架構和基礎，是以流程為中心的，因為其中樞控制器是一個工作流引擎。工作流引擎使用流程定義來定義在BI 平臺上執行的商業智慧流程。流程可以很容易的被定製，也可以新增新的流程。BI 平臺包含元件和報表，用以分析這些流程的效能。目前，Pentaho的主要組成元素包括報表生成、分析、資料探勘和工作流管理等等。這些元件透過 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術整合到Pentaho平臺中來。 Pentaho的發行，主要以Pentaho SDK的形式進行。
Pentaho SDK共包含五個部分：Pentaho平臺、Pentaho示例資料庫、可獨立執行的Pentaho平臺、Pentaho解決方案示例和一個預先配製好的 Pentaho網路伺服器。其中Pentaho平臺是Pentaho平臺最主要的部分，囊括了Pentaho平臺原始碼的主體;Pentaho資料庫為 Pentaho平臺的正常執行提供的資料服務，包括配置資訊、Solution相關的資訊等等，對於Pentaho平臺來說它不是必須的，透過配置是可以用其它資料庫服務取代的;可獨立執行的Pentaho平臺是Pentaho平臺的獨立執行模式的示例，它演示瞭如何使Pentaho平臺在沒有應用伺服器支援的情況下獨立執行;Pentaho解決方案示例是一個Eclipse工程，用來演示如何為Pentaho平臺開發相關的商業智慧解決方案。
Pentaho BI 平臺構建於伺服器，引擎和元件的基礎之上。這些提供了系統的J2EE 伺服器，安全，portal，工作流，規則引擎，圖表，協作，內容管理，資料整合，分析和建模功能。這些元件的大部分是基於標準的，可使用其他產品替換之。
17 # 奧威軟體大資料BI

1、奧威BI工具
多用於億級資料量的大資料智慧視覺化分析，如大中型企業、集團專案等。
有標準化的資料分析解決方案，預設資料分析模板；無縫對接金蝶、用友等主流ERP；可做必要的個性化設計。
說白了就是給你一個標準化的、系統化的解決方案，你拿過來稍微改改就能得到一個適合自己的大資料可視分析平臺。這可比自己從零開始做藍圖設計、搭建分析模型、測試要省事多了。
2、SpeedBI資料分析雲
多用於小微企業、個人使用者。免下載安裝，線上使用。

劇多

一般用哪些工具做大資料分析？

相關內容