-
1 # 生活家多寶
-
2 # Adair品科技
首推鑑:Hadoop,私有云最佳方案。hadoop下面還會涉及hbase,hive,spark,zookeeper,mapreduce等等。開源,免費,穩定,很多大公司都在用。
如果小公司自己用,那就去用各家的雲服務。像阿里雲,騰訊雲,華為雲之類的,都有相關大資料服務。
1、Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。使用者可以在不瞭解分散式底層細節的情況下,開發分散式程式。充分利用叢集的威力進行高速運算和儲存。Hadoop實現了一個分散式檔案系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬體上;而且它提供高吞吐量(high throughput)來訪問應用程式的資料,適合那些有著超大資料集(large data set)的應用程式。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)檔案系統中的資料。
2、Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的資料提供了儲存,則MapReduce為海量的資料提供了計算。Hadoop是一個能夠對大量資料進行分散式處理的軟體框架。 Hadoop 以一種可靠、高效、可伸縮的方式進行資料處理。
Hadoop 是可靠的,因為它假設計算元素和儲存會失敗,因此它維護多個工作資料副本,確保能夠針對失敗的節點重新分佈處理。
Hadoop 是高效的,因為它以並行的方式工作,透過並行處理加快處理速度。
Hadoop 還是可伸縮的,能夠處理 PB 級資料。此外,Hadoop 依賴於社群服務,因此它的成本比較低,任何人都可以使用。
3、Hadoop是一個能夠讓使用者輕鬆架構和使用的分散式計算平臺。使用者可以輕鬆地在Hadoop上開發和執行處理海量資料的應用程式。它主要有以下幾個優點:
高可靠性。Hadoop按位儲存和處理資料的能力值得人們信賴。
高擴充套件性。Hadoop是在可用的計算機集簇間分配資料並完成計算任務的,這些集簇可以方便地擴充套件到數以千計的節點中。
高效性。Hadoop能夠在節點之間動態地移動資料,並保證各個節點的動態平衡,因此處理速度非常快。高容錯性。Hadoop能夠自動儲存資料的多個副本,並且能夠自動將失敗的任務重新分配。低成本。與一體機、商用資料倉庫以及QlikView、Yonghong Z-Suite等資料集市相比,hadoop是開源的,專案的軟體成本因此會大大降低。4、Hadoop帶有用Java語言編寫的框架,因此執行在 Linux 生產平臺上是非常理想的。Hadoop 上的應用程式也可以使用其他語言編寫,比如 C++。
5、hadoop大資料處理的意義Hadoop得以在大資料處理應用中廣泛應用得益於其自身在資料提取、變形和載入(ETL)方面上的天然優勢。Hadoop的分散式架構,將大資料處理引擎儘可能的靠近儲存,對例如像ETL這樣的批處理操作相對合適,因為類似這樣操作的批處理結果可以直接走向儲存。Hadoop的MapReduce功能實現了將單個任務打碎,並將碎片任務(Map)傳送到多個節點上,之後再以單個數據集的形式載入(Reduce)到資料倉庫裡。
-
3 # 籌之
大資料平臺的軟體,一般是別人的平臺研發好給你用的,自己搞不了。現在百度,阿里都有大資料平臺,都是收費的,他們有大資料,你要用就給錢他們。你要自己搞大資料,有軟體也沒用,你沒有資料,個人建議,如果不是大公司不要去搞,那不是一般人可以搞得來。
-
4 # 西線學院
資料已經成為現代化企業中最為重要的寶貴資源。一切決策、策略或者方法都需要依託於對資料的分析方可實現。隨著“大資料分析”逐步替代其上代版本,即“商務智慧”,企業正面臨著一個更加複雜、且商業情報規模更為龐大的新時代。
考慮到現有技術解決方案的複雜性與多樣化,企業往往很難找到適合自己的大資料收集與分析工具。然而,混亂的時局之下已經有多種方案脫穎而出,證明其能夠幫助大家切實完成大資料分析類工作。下面我們將整理出一份包含十款工具的清單,從而有效壓縮選擇範疇。
1. OpenRefine
這是一款高人氣資料分析工具,適用於各類與分析相關的任務。這意味著即使大家擁有多種不同資料型別及名稱,這款工具亦能夠利用其強大的聚類演算法完成條目分組。在聚類完成後,分析即可開始。
2. Hadoop
大資料與Hadoop可謂密不可分。這套軟體庫兼框架能夠利用簡單的程式設計模型將大規模資料集分發於計算機叢集當中。其尤為擅長處理大規模資料並使其可用於本地裝置當中。作為Hadoop的開發方,Apache亦在不斷強化這款工具以提升其實際效果。
3. Storm
同樣來自Apache的Storm是另一款偉大的實時計算系統,能夠極大強化無限資料流的處理效果。其亦可用於執行多種其它與大資料相關的任務,具體包括分散式RPC、持續處理、線上機器學習以及實時分析等等。使用Storm的另一大優勢在於,其整合了大量其它技術,從而進一步降低大資料處理的複雜性。
4. Plotly
這是一款資料視覺化工具,可相容JavaScript、MATLAB、Python以及R等語言。Plotly甚至能夠幫助不具備程式碼編寫技能或者時間的使用者完成動態視覺化處理。這款工具常由新一代資料科學家使用,因為其屬於一款業務開發平臺且能夠快速完成大規模資料的理解與分析。
5. Rapidminer
作為另一款大資料處理必要工具,Rapidminer屬於一套開源資料科學平臺,且透過視覺化程式設計機制發揮作用。其功能包括對模型進行修改、分析與建立,且能夠快速將結果整合至業務流程當中。Rapidminer目前備受矚目,且已經成為眾多知名資料科學家心目中的可靠工具。
6. Cassandra
Apache Cassandra 是另一款值得關注的工具,因為其能夠有效且高效地對大規模資料加以管理。它屬於一套可擴充套件NoSQL資料庫,能夠監控多座資料中心內的資料並已經在Netflix及eBay等知名企業當中效力。
7. Hadoop MapReduce
這是一套軟體框架,允許使用者利用其編寫出以可靠方式併發處理大規模資料的應用。MapReduce應用主要負責完成兩項任務,即對映與規約,並由此提供多種資料處理結果。這款工具最初由谷歌公司開發完成。
8. Bokeh
這套視覺化框架的主要目標在於提供精緻且簡潔的圖形處理結果,用以強化大規模資料流的互動能力。其專門供Python語言使用。
9. Wolfram Alpha
這是一套搜尋引擎,旨在幫助使用者搜尋其需要的計算素材或者其它內容。舉例來說,如果大家輸入“Facebook”,即可獲得與Facebook相關的HTML元素結構、輸入解釋、Web託管資訊、網路統計、子域、Alexa預估以及網頁資訊等大量內容。
10. Neo4j
-
5 # 我的瀋陽
目前一些大資料平臺產品已經開始重視使用者場景,使得整體架構更佳適合大資料管理和分析,再結合上層的場景化分析讓大資料容易落地,更好的支撐決策。例如:德塔精要有一款大資料平臺叫做智慧中樞,就建立在大資料架構上並深耕業務場景,讓大資料產品更好的服務於具體的行業。
-
6 # IT技術管理那些事兒
這個要分好幾塊來講,首先我要說明的是大資料專案也是要有很多依賴的模組的。每個模組的軟體不一樣,下面分別聊一下。
一、大資料處理
這個是所謂大資料專案中最先想到的模組。主要有spark,hadoop,es,kafka,hbase,hive等。
當然像是flume,sqoop也都很常用。
這些軟體主要是為了解決海量資料處理的問題。軟體很多,我只列幾個經典的,具體可以自行百度。
二、機器學習相關
大部分大資料專案都和機器學習相關。因此會考慮到機器學習的一些軟體,比如說sklearn,spark的ml,當然還有自己實現的程式碼。
三、web相關技術
大部分專案也都跑不了一個web的展示,因此web就很重要的,java的ssh,python的django都可以,這個看具體的專案組習慣了。
四、其它
還有一些很常用的東西,個人感覺不完全算是大資料特定使用範圍。反正我在做大資料專案的時候也都用到了。
比如說資料儲存:redis,mysql。
資料視覺化:echart,d3js。
圖資料庫:neo4j。
再來說說大資料平臺的軟體或者工具:
1、 資料庫,大資料平臺類,星環,做Hadoop生態系列的大資料平臺公司。Hadoop是開源的,星環主要做的是把Hadoop不穩定的部分最佳化,功能細化,為企業提供Hadoop大資料引擎及資料庫工具。
2、 大資料儲存硬體類,浪潮,很老牌的IT公司,國資委控股,研究大資料方面的儲存,在國內比較領先。
3、 雲計算,雲端大資料類,阿里巴巴,明星產品-阿里雲,與亞馬遜AWS抗衡,做公有云、私有云、混合雲。實力不差,符合阿里巴巴的氣質,很有野心。
4、 資料應用方面這個有很多,比如帆軟旗下的FineReport報表系統和FineBI大資料分析平臺等。
帆軟是商業智慧和資料分析平臺提供商,從報表工具到商業智慧,有十多年的資料應用的底子,在這個領域很成熟,目前處於快速成長期,但是很低調,是一家有技術有實力而且對客戶很真誠的公司。
-
7 # 帆軟軟體
1、 資料庫,大資料平臺類:
星環,做Hadoop生態系列的大資料底層平臺公司。Hadoop是開源的,星環主要做的是把Hadoop不穩定的部分最佳化,功能細化,為企業提供Hadoop大資料引擎及資料庫工具。
2、 雲計算,雲端大資料類,
阿里巴巴,明星產品-阿里雲,與亞馬遜AWS抗衡,做公有云、私有云、混合雲。實力不差,符合阿里巴巴的氣質,很有野心。
3、 大資料決策平臺:
帆軟。帆軟是商業智慧和資料分析平臺提供商,從報表工具到商業智慧BI,有十多年的資料應用的底子,在這個領域很成熟,但是很低調。旗下的報表產品FineReport和商業智慧FineBI值得推薦。
Finereport:各方面都很成熟的一款大資料軟體,適用於對海量資料的處理與分析。比較符合中國人資料分析的習慣和邏輯,用不慣國外軟體的資料分析師建議使用。
這是一個商用報表軟體,企業級應用,一定程度上可替代Excel,如業務系統報表,資料分析報表,財務報表。可與OA,ERP,CRM整合。主要兩大核心是填報和資料展示。懂點java的話可以做開發,比如我同事用這個開發了一個公司內部的考試系統。
FineBI個人最常用的BI分析工具,用習慣了覺得這個工具很簡單很傻瓜。操作類似Tableau,拖拽分析欄位即可生成圖表,圖表是自動推薦的,精確智慧。基本不需要寫函式,內建各種計算功能,資料過濾篩選條件等。內建一些基本的迴歸、預測資料探勘功能,製作視覺化儀表板很方便。個人使用免費。
可以看我之前寫的一篇文章:李啟方:這可能是今年最值得推薦的資料分析工具4、 大資料儲存硬體類:浪潮,很老牌的IT公司,國資委控股,研究大資料方面的儲存,在國內比較領先。
-
8 # 程式技術員
大資料平臺軟體有很多,不止雲計算,現在資料中臺也算一種服務。
雲計算最有名的是阿里雲、還有其他雲,諸如:“網易雲、騰訊雲、浪潮雲、華為雲等等”,他們很多雲計算都是建立在開源軟體之上的,這些開源軟體就是hadoop生態。
Hadoop生態包含的元件很多,包括如下元件:
1、HDFS(Hadoop分散式檔案系統):HDFS是一種資料分散式儲存機制,資料被儲存在計算機叢集上。資料寫入一次,讀取多次。HDFS 為HBase等工具提供了基礎。
2、Hadoop YARN(分散式資源管理器):YARN是下一代MapReduce,即MRv2,是在第一代MapReduce基礎上演變而來的,主要是為了解決原始Hadoop擴充套件性較差,不支援多計算框架而提出的。其核心思想:將MR1中JobTracker的資源管理和作業呼叫兩個功能分開,分別由ResourceManager和ApplicationMaster程序來實現。
1)ResourceManager:負責整個叢集的資源管理和排程
2)ApplicationMaster:負責應用程式相關事務,比如任務排程、任務監控和容錯等
3、MapReduce(分散式計算框架):MapReduce是一種分散式計算模型,用以進行大資料量的計算,是一種離線計算框架。這個 MapReduce 的計算過程簡而言之,就是將大資料集分解為成若干個小資料集,每個(或若干個)資料集分別由叢集中的一個結點(一般就是一臺主機)進行處理並生成中間結果,然後將每個結點的中間結果進行合併, 形成最終結果。
4、Spark(記憶體計算模型):Spark提供了一個更快、更通用的資料處理平臺。和Hadoop相比,Spark可以讓你的程式在記憶體中執行時速度提升100倍,或者在磁碟上執行時速度提升10倍。
5、Storm(流示計算、實時計算):Storm是一個免費開源、分散式、高容錯的實時計算系統。Storm令持續不斷的流計算變得容易,彌補了Hadoop批處理所不能滿足的實時要求。Storm經常用於在實時分析、線上機器學習、持續計算、分散式遠端呼叫和ETL等領域。
6、HBASE(分散式列存資料庫):HBase是一個建立在HDFS之上,面向列的NoSQL資料庫,用於快速讀/寫大量資料。HBase使用Zookeeper進行管理,確保所有元件都正常執行。
7、Hive(資料倉庫):Hive定義了一種類似SQL的查詢語言(HQL),將SQL轉化為MapReduce任務在Hadoop上執行。通常用於離線分析。HQL用於執行儲存在Hadoop上的查詢語句,Hive讓不熟悉MapReduce開發人員也能編寫資料查詢語句,然後這些語句被翻譯為Hadoop上面的MapReduce任務。
8、Zookeeper(分散式協作服務):Hadoop的許多元件依賴於Zookeeper,它執行在計算機叢集上面,用於管理Hadoop操作。作用:解決分散式環境下的資料管理問題:統一命名,狀態同步,叢集管理,配置同步等。
9、Sqoop(資料ETL/同步工具):Sqoop是SQL-to-Hadoop的縮寫,主要用於傳統資料庫和Hadoop之間傳輸資料。
10、flume(分散式日誌收集系統):Flume是一個分散式、可靠、和高可用的海量日誌聚合的系統,如日誌資料從各種網站伺服器上彙集起來儲存到HDFS,HBase等集中儲存器中。
11、Pig(ad-hoc指令碼):Pig定義了一種資料流語言—Pig Latin,它是MapReduce程式設計的複雜性的抽象,Pig平臺包括執行環境和用於分析Hadoop資料集的指令碼語言(Pig Latin)。其編譯器將Pig Latin 翻譯成MapReduce 程式序列將指令碼轉換為MapReduce任務在Hadoop上執行。通常用於進行離線分析。
12、Oozie(工作流排程器):Oozi可以把多個Map/Reduce作業組合到一個邏輯工作單元中,從而完成更大型的任務。
13、Mahout(資料探勘演算法庫):Mahout的主要目標是建立一些可擴充套件的機器學習領域經典演算法的實現,旨在幫助開發人員更加方便快捷地建立智慧應用程式。
14、Tez(DAG計算模型):一個執行在YARN之上支援DAG(有向無環圖)作業的計算框架。Tez的目的就是幫助Hadoop處理這些MapReduce處理不了的用例場景,如機器學習。
總之很多軟體都是建立在這些開源軟體之上的。
-
9 # iNeuOS工業網際網路
iNeuOS 自主可控工業網際網路作業系統,提供全新解決方案
核心元件包括:邊緣閘道器(iNeuLink)、裝置容器(iNeuKernel)、Web組態檢視建模(iNeuView)、機器學習(iNeuAI)、分析大屏(iNeuDA)、移動APP(iNeuApp)、智慧實景地圖(iNeuAR);
為中小企業、整合商提供建設工業網際網路平臺基礎框架;
降低中小企業改造升級、系統維護的成本;
提高中小企業資訊化和運營服務的綜合能力;
-
10 # 奧威軟體大資料BI
個人免費向的,有SpeedBI資料分析雲,不用下載安裝,從瀏覽器就能開啟使用。能拓展EXCEL到視覺化、移動化。
集團向的,有奧威BI工具,不僅有標準的資料分析方案,還有集團分級授權(許可權管理)、多語言(跨國、跨地區專案可用)等功能。更重要的是,它能處理億級上下的資料,能隨時隨地秒分析、秒呈現。
回覆列表
首先你提的這個問題範圍太寬泛了,其次能提供大資料軟體的服務公司收費非常高,它不僅僅侷限於一套軟體,相應的技術、硬體支援等都要跟上,一般中小型企業是承擔不起的。