-
1 # 資料分析不是個事兒
-
2 # 馬拉愛跑
這種軟體一大堆,各有各的擅長,也各有各的問題
你想問工具產品的話,專注工具類的中國產ISV好像只有Smartbi、潤乾、奧威智動,帆軟永洪都是好幾百人(據說500人規模),肯定是做實施服務的。行業特色的還有BDP的軟體。
國外的老三樣BO、Cognos、BIEE確實風光不在了,新三樣Tableau、Powerbi(微軟)、Qlikview還不錯,尤其前兩個火得一塌糊塗
-
3 # 天善智慧
大資料時代,又如何向身邊的人解釋什麼是商業智慧 BI?
開篇介紹
我發現一個問題,當和一些不熟悉我們這個領域的朋友們來說,解釋大資料的概念比起解釋商業智慧 BI 要容易的多。舉個例子,我們問“你知道什麼是商業智慧 BI”嗎?通常情況會一臉茫然的回答到:“不知道!”。但是當我們問:“你知道什麼是大資料嗎?”,通常情況下大部分人都會很直接的回答:“大資料,我知道啊!”.....“就是資料很大”(我問過我同學、朋友、家人,答案几乎一致,但是他們完全沒有相關任何從業經驗)。通常的還有資料分析、資料探勘,這些名詞本身就和大資料一樣自帶解釋功能。對於一般非本行業的朋友們來說,看到這些詞透過字面意思通常就能理解個大概,所以取一個好名字就顯得有多麼的重要。
站在一個比較專業的角度來看,這些解釋肯定不太嚴謹或者本身的理解就是錯誤的,比如前面所提到“大資料就是資料大”的情況。但我個人認為這些並不是什麼太大的問題,因為能理解個大概總比解釋了半天還不能理解要好。那我現在要說的就是如何向身邊的朋友或者客戶解釋什麼是商業智慧 BI。
不要試圖用一句話解釋什麼是 BI在看下面的文章之前,先停下來想一下,假設是由你來介紹,你會用什麼樣的方式向一個朋友或者你的客戶來解釋什麼是商業智慧(Business Intelligence) 呢?
比如:
BI 就是把資料轉換為資訊。
BI 就是報表。
....
我要說的是,不要嘗試用一句話解釋商業智慧 BI 是什麼,因為它本身就是一個專業詞彙,背後涉及到方方面面的概念和知識體系。就如同跟一個不懂遺傳學的人解釋什麼是“孟德爾遺傳規律”一樣,即使可能用一句話高度概括了,但我相信很多人聽了仍然不懂。所以,當你向你朋友解釋不了什麼是商業智慧 BI 的時候,這是非常正常的。不是我們知識不夠我們講的不好,而是因為它本身太專業,它包括了 ETL、資料倉庫、OLAP、資料分析、資料探勘等專業技術,以及整套將資料變為資訊、資訊昇華為價值的整個過程。
當每個人都認為自己解釋的是正確的,但同時在別人的眼裡都是不正確的或者不是很完美的時候,就不要試圖用一句話來解釋了。
什麼是商業智慧 BI?我們先來看看官方的解釋。
1) 來自 Wikipedia 的定義:Business intelligence (BI) can be described as "a set of techniques and tools for the acquisition and transformation of raw data into meaningful and useful information for business analysis purposes". (https://en.wikipedia.org/wiki/Business_intelligence)
2) 來自百度百科:BI 是Business Intelligence的英文縮寫,中文解釋為商務智慧,用來幫助企業更好地利用資料提高決策質量的技術集合,是從大量的資料中鑽取資訊與知識的過程。簡單講就是業務、資料、資料價值應用的過程。(Business Intelligence)
對於一些完全沒有接觸過 BI 的朋友們來說是不是很難理解? 什麼叫高質量決策的技術集合?什麼叫鑽取資料?業務、資料、資料價值應用又是什麼?
如何快速的理解商業智慧 BI?跟人們解釋一樣東西,還是從他們最熟悉的東西開始。我們從到一個餐廳點單開始說起,同時便於大家對比和理解,我在這裡不提商業智慧 BI,只提一個最簡單的場景,從做一張報表開始。
點單和提出報表需求
在圖片左邊,我們現在去一個餐廳點單,需要點一個菜叫做“小雞燉蘑菇”。同時在圖片右邊,我們需要做一張有關銷售方面的報表。
餐廳點單的時候,顧客提出了具體的要求(假設可以這樣隨便提出要求),比如對於食材必須是深山散養的童子雞,以及對於其它材料的要求,蘑菇的切法等等。這就對應於我們現在要一張有關“產品銷售分析”的報表一樣,需要弄清楚這張報表應該如何展現,具體需要哪些方面的資料展現在報表上面。無論是點單還是報表需求詢問,這都是一個“提出需求的過程”。客戶要什麼東西,這些東西怎麼做,這些就是需求。
備菜的過程與準備報表資料
備菜的過程說簡單點就是要上這盤菜,要炒這盤菜,首先我們得把原材料準備好,比如雞肉、香菇。同樣的,我們要去準備一張報表,需求拿到了,那我們就要去準備好這些資料,比如銷售相關的、產品相關的資料。備好的菜是放在一個叫操作檯的地方,大廚就直接可以炒菜了。同樣的,備好的資料放在一個叫“資料倉庫 Data Warehouse”的地方,報表開發人員可以從裡面直接找到資料製作報表。
原材料的清洗和資料的清洗
下鍋炒菜的時候不能直接把一隻雞放在操作檯上扔進鍋裡炒,在原材料變成炒菜的材料之前要把雞割頸拔毛開膛破肚去屁股尖切成塊;蘑菇去根,洗淨,頂部開十字口等等,這是一個擇菜、洗菜、把源材料變成一個真正可用可下鍋的一個過程。這個過程就是 ETL —— Extract 抽取,把雞拿出來;Transformation 轉換,把雞變成雞塊,完成清洗和轉換工作;Loading 載入,把洗淨的雞塊放到操作檯上以供隨時炒菜。
資料的準備過程和菜品原材料的清洗過程是一樣的道理,資料是存放在一些資料表中,但是並不是所有的資料都需要抽取出來,只有有用的資料才會被抽取(Extract);涉及到一些資料需要去重、合併計算、格式轉換(比如 15/10/22 轉換成 2015-10-22)等都屬於 Transformation 階段;Loading,最後把資料統一載入到資料倉庫 Data Warehouse,資料倉庫中有一組表。
對於菜品的源材料清洗過程很容易理解,這裡為了讓大家理解對於資料 ETL 的過程,舉了下面這個例子。第(1)張表是我們的原始資料,我們的清洗規則是拿到從0034到0036,0036到0048之間的時間間隔,因此需要透過程式來計算和整理這些資料,可能先轉變成第(2)張表的資料,最後再計算轉變成第(3)張表的結果。而第(3)張表的結果就是報表最後要的結果,比如展示 ID = 1001, 1002, 1003 ... 等各自的時間間隔。
原材料的採購和源資料的載入
我們再繼續想一想,這些雞和蘑菇是從哪裡來的?菜場。可能是一個菜場,也可能是多個菜場的多個攤位採購的,採購之後先原封不動的放到廚房。
源資料的採集和載入也是同樣的道理,資料可能是來自外部系統,也可能來自內部的不同業務系統,比如 CRM 系統、ERP 系統,也有可能來自業務人員的 EXCEL 表格, 這些統稱為 Data Source 資料來源。
這些資料透過 ETL 工具原封不動的抽取到一個叫做 ODS 或者 STAGING 的資料庫(或者資料庫中的一些表)先存放起來,就類似於把菜買回來先放到廚房,先放起來。後面才有資料的清洗、整理,完畢之後才放到資料倉庫,在之後就是製作報表的過程。
這裡還要解釋一下,ETL 工具和 ETL 的概念區別。ETL 描述的是將資料從一個源頭抽取出來,中間完成了資料的清洗和整理,把乾淨的資料放入到目標資料庫或表這樣的一個過程。這個過程是可以透過一些工具來實現的,這些幫助實現 ETL 過程的工具統稱為 ETL 工具,比如 DataStage、Kettle、Informatica、微軟 BI 的 SSIS 等。
回顧整個過程
其實到這裡,這些流程已經是比較清楚了,現在只需要反轉一下。
其中有幾個點我再來解釋一下:第一,菜並不是客戶點了單之後我們才到市場去採購的,而是在點菜之前就準備好了的。同樣的,報表並不是客戶提出了需求我們才去找資料,可能這些資料早就準備好了,當報表需求提出的時候我們只需要從資料倉庫中去取就可以了。如果菜品的源材料沒有了,只是當時這個菜可能做不了,但並不代表以後這個菜就沒有了,以後仍然可以採購。同樣的,如果報表所要的資料沒有了,就需要順著這個流程反過來去找,找到資料的源頭,然後抽取過來,加工放到倉庫裡。
第二,在 BI 專案中,通常資料是定時比如說每天晚上或者凌晨從各個資料來源抽取到 STAGING/ODS,再到資料倉庫,所有的歷史資料根據不同的設計得到部分或者全部保留。
第三,從上圖中 ODS/STAGING 到 DW 處我用 ETL 來匹配“擇菜、洗菜、切菜”的過程。其實從各個資料來源抽取資料到 ODS/STAGING,也屬於 ETL,只不過在這個 ETL 過程中資料都是原封不動的搬過來,發生了很少的或者沒有發生 TRANSFORMATION 轉換操作。
一個簡單的 BI 專案架構這篇文章不會把 BI 描述的過於複雜,就如同描述一棟住宅一樣。這個住宅你可以規劃的非常複雜,把一切都描述的盡善盡美。你也可以把住宅畫的很簡單,也能讓大家明白這就是一個住宅,有門有窗有房頂。同樣的道理,對於 BI 來說,不同的人有不同的解釋和定義,但我們一樣可以描述的很簡單。
商業智慧 BI 就是一個把資料變為資訊的過程 —— 將企業中的各個部分、各個業務系統中的資料統一的按照一定規則的抽取、清洗,最後載入到一個統一而集中的資料庫中。在這個資料庫之上,可以做報表展現、也可以做資料分析,最後這些展現和分析的結果將能成為一些決策的重要資料支援,這就是描述商業智慧 BI 的一個最簡單的價值。簡單概括這個過程所體現的三個大的部分就是:Data Source 資料來源,Data Warehouse 資料倉庫的資料準備,Reporting 報表系統提供報表展現和資料分析。
關於報表展現和資料分析我這裡再來放一些圖表,來自不同的報表工具,這些報表都是以展現或者分析的目的而製作的,透過資料報表來發現和找到企業在生產、內部管理、市場、客戶管理等各個方面的問題,或者作為日常會議決策過程的資料支援。
最後我要說的是,這並不是 BI 的全部,BI 所涉及到的內容和部分比想象中的更復雜。但是作為一個之前並不瞭解 BI 的朋友們來說,相信透過這篇文章會讓你對 BI 的認識更加清晰一些,儘管到最後你還是不能用一句話來表達它的全部。如果看完了之後,更加覺得疑惑或者有更多的問題想要丟擲來,可以稍微壓抑一下自己的衝動,只需要把做飯的過程和我所描述的報表製作過程理解了就可以了。如果連做飯的過程都不知道,我只能說你日子過的太舒服了,請不要到這裡和我們搶飯碗。
前端展現工具,個人給他們進行一個分類,即興的,沒有太講究,因此分類標準也是模糊的,肯定有不合適或是不盡準確之處:
傳統類的,大而全的,IBM的Cognos和SAP的BO、Oracle的BIEE,微軟SSRS,其實還是Cognos最齊全的啦,CUBE和非CUBE的都有,這個可以專題討論了,就不多說了。微軟SSRS有點弱,以前微軟收購了個proclarity普科,大概是06年?可惜後來沒訊息了。
專業型的,大概可以歸類為二線廠商,MSTR、Actuate BIRT等等,其中Actuate報表方面有特點,且有BIRT開源,還有Arcplan,0506年時候有點熱,菸草等行業推了一些;
特點型的,先特技的Analyzer,連線微軟的CUBE很不賴,作為微軟體系的一個極好的補充;
新一代的,以Qlikview、Spotfire、Tabuleau為代表,嘗試突破,在儀表盤、移動BI、桌面分析等方面切入,強調快速部署實現,或是記憶體式BI,這也是這類新型工具的一個突破方向。後來傳統的SAP HANA也引入記憶體式了,不過HANA是平臺,非工具。
國內軟體,以前的FEnet BI.Office,現在的SmartBI,以前尚藍現在用友的藍葵BQ,奧威智動的PowerBI,潤乾、永洪敏捷BI,帆軟等報表工具。
開源前端,BIRT、Jasper等等。
-
4 # IT技術管理那些事兒
網際網路時代資訊科技的飛速發展使得企業的資訊化程度不斷提高,企業資料呈現出爆發式增長的態勢。相應地,企業資料量越大,資料問題就暴露得越明顯,資料驅動決策的需求也愈發強烈。在這樣的時代背景下,商業智慧(Business Intelligence,簡稱BI)成為了資訊化熱詞,我們經常能聽到企業說“上BI”、“建設BI系統”、“構建BI決策平臺”等內容。
那麼BI到底是什麼呢?相信除了相關的研究學者,絕大部分的人很難給出一個確定的答案。其實早在1958年,IBM的研究員Hans Peter Luhn就將“智慧”定義為“對事物相互關係的一種理解能力,並依靠這種能力去指導決策,以達到預期的目標。”
在1996年,加特納(Gartner)集團一錘定音,正式將商業智慧定義為:商業智慧描述了一系列的概念和方法,透過應用基於事實的支援系統來輔助商業決策的制定。
而我們之所以無法給出準確的商業智慧定義,主要有兩個方面的原因。一方面,隨著資訊科技的發展,20多年來商業智慧的內容也發生了一些變化,但是商業智慧的定義仍然停留在上個世紀;另一方面,與歐美髮達國家相比,中國的資訊化水平較為落後,除去網際網路和各行業龍頭企業,國內真正興起BI熱潮也是在近幾年。因此,業內對BI沒有統一的定義認知也在情理之中。
那麼對於今天的商業智慧,大眾有著怎樣的理解和認知呢?圍繞這一疑問,帆軟資料應用研究院對770多家企業的1400多名從業人員進行了調研。透過對調研資料的整理、清洗和分析,我們發現了一些有價值的結論,下面將對分析過程和結論進行詳細的介紹。
分析過程首先我們利用python對調研得到的資料進行了整理和清洗,去除掉髒資料後,最終得到了890條資料。
接著,我們根據被調研人員職位的不同,將被調研人員分為IT部門從業人員和業務部門從業人員兩類,並打上資料標籤。
最後,我們透過python的分詞庫jieba和詞雲庫wordloud生成了三幅被調研者對BI定義認知的詞雲圖,即整體認知、IT部門從業人員認知和業務部門從業人員認知。
整體認知被調研人員對BI定義的整體認知可以理解為“資料”、“分析”、“資料分析”、“報表”、“業務”、“企業”、“決策”、“智慧”、“工具”、“展示”、“視覺化”等關鍵詞。
首先,關鍵詞“企業”、“決策”和“工具”說明大眾對於BI的作用和目的有著比較準確的理解,就是輔助企業決策的工具。
其次,“資料”、“分析”、“資料分析”等關鍵詞則體現了大眾對BI認知的側重點在於資料分析這一功能上,甚至將BI等同於資料分析工具。其實BI還包含了資料倉庫、資料ETL等功能,覆蓋了資料處理到展示的整個流程。而且底層的資料倉庫建設也非常重要,能為後續的資料分析提供強有力的支援,能讓資料分析結果更為準確。
另外,關鍵詞“展示”和“視覺化”也揭示了BI的另一項重要功能,即資料視覺化。透過資料視覺化將資料分析結果以更直觀明瞭的方式進行展示,能為決策者提供更清晰更深入的見解。
最後,一個比較獨特的關鍵詞“報表”也從某種程度上反映了中國的BI建設現狀。按照BI的定義,報表工具也是BI的一部分,不過並不能完全代表BI。但是中國企業資訊化水平整體偏低,很多企業的決策支撐仍然以報表為主,所以報表也是BI在中國企業內的一個主要表現形式。
圖1 整體認知IT部門&業務部門從業人員認知被調研人員中,IT部門和業務部門從業人員對BI定義認知的關鍵詞與整體認知類似,核心都是“資料”、“決策”和“資料分析”,這裡我們主要來看這二者之間的差異。
第一,從詞雲圖中關鍵詞的大小來看,IT部門從業人員對BI的認知更為統一,業務部門從業人員則較為分散。這一結果也和業務部門的多樣性有關,不同業務部門的人員有著不同的理解。
第二,IT部門重技術,業務部門重價值。IT部門從業人員認知詞雲圖中,出現了“技術”、“挖掘”、“應用”等詞,並且“智慧”一詞並沒有和“商業智慧”捆綁在一起,而是作為單獨的關鍵詞出現的。在業務部門從業人員認知詞雲圖中,“價值”、“視覺化”、“整合”等關鍵詞是IT部門從業人員認知圖中出現較少的。所以說IT部門更傾向於將BI定義為技術,而業務部門則更注重商業價值。
第三,IT部門從業人員認知詞雲圖中出現了關鍵詞“暫無”,這說明有一小部分的IT從業人員對BI的定義沒有明確的理解和認知,或者企業並沒有進入BI系統建設階段,因此IT人員沒有深入接觸過BI。
第四,IT部門和業務部門從業人員認知詞雲圖中都提到了“資料探勘”,不過出現的次數都非常少。資料探勘作為更深入的資料分析方法,在面對大量資料時,能提供更具洞察力的見解,也是BI的一項重要功能。然而就當前國內情況來看,資料探勘仍處於泡沫和技術炒作階段,並沒有得到實質的應用。但是不可否認,資料探勘是未來的一個主要趨勢。
最後,值得注意的是,業務部門從業人員認知詞雲圖中,出現了“帆軟”一詞。作為國內專業的大資料BI和分析平臺提供商,帆軟專注商業智慧和資料分析領域,致力於為全球企業提供一站式商業智慧解決方案。帆軟推出的商業智慧產品FineBI的一個核心優勢就是業務人員自助分析,所以業務人員接觸的較多,說起BI也就很自然地想到帆軟了。
圖2 IT部門從業人員認知圖3 業務部門從業人員認知以上分析結論可以總結為兩點:
整體上來說,國內企業人員對BI的認知處於宏觀的目標層面,對BI功能的認知集中在資料分析和資料視覺化上;部門工作內容和工作性質的差異使得IT部門和業務部門的從業人員對BI的認知存在一定區別。根據大眾認知調研結果和分析結論,結合現有的BI定義,我們可以來重新定義商業智慧:
商業智慧(BI)是利用技術手段或方法,將資料轉化為知識,用以支撐企業決策、發掘商業價值的一套解決方案。以資料為中心,BI的核心功能主要有資料倉庫、資料ETL、資料分析、資料探勘和資料視覺化。
調研表明大眾對BI的理解集中在資料分析和資料視覺化層面,因此,報表製作與展示和業務人員自助分析是BI在國內企業中的兩大主要應用場景。而資料探勘只能說是未來的一個趨勢,目前對國內企業來說仍是泡沫。
那麼中國企業需要做的,便是重視底層資料倉庫的建設,逐步提升資料分析和視覺化的水平,向更深層次過渡,從而構建完整的BI體系,讓資料成為生產力,產出更大的價值。
回覆列表
什麼是BI?
BI(BusinessIntelligence)即商業智慧,它是一套完整的解決方案,用來將企業中現有的資料進行有效的整合,快速準確的提供報表並提出決策依據,幫助企業做出明智的業務經營決策。
商業智慧BI在資料架構中處於前端分析的位置,其核心作用是對獲取資料的多維度分析、資料的切片、資料的上鑽和下鑽、cube等。透過ETL資料抽取、轉化形成一個完整的資料倉庫、然後對資料倉庫的資料進行抽取,而後是商業智慧的前端分析和展示。
當前國內外BI的現狀,BI的應用狀況?先來說說國內外的BI廠商吧~
國外SAP BO: SAP公司收購的一款BI工具,產品運作模式是結合SAP的ERP系統,所以整合其他資料庫或系統並不佔優勢,屬於重型BI,使用要求較高,升級困難。
Oracle BIEE:無功無過,在BI產品不具特色,同SAP一樣,與Oracle的產品線緊密綁在一起。貌似國外廠商都是捆綁型賣整體方案。
Cognos:傳統BI工具中最被廣泛使用的,已被IBM收購。擁有強大的資料庫平臺、在資料管理、資料整合以及中介軟體領域專業功底深厚。偏操作型,手工建模,一旦需求變化需要 重新建模,學習要求較高。
MSTR:很低調的BI產品,多年來在BI市場中一直沒站住腳,和excel有一定關係。二次開發環境好,但對伺服器環境要求較高。
Qlikview:最大的競爭者是Tableau,同Tableau和國內眾多BI一樣,是屬於新一代的輕量化BI產品,體現在建模、部署和使用上。只能執行在windows系統,C/S的產品架構。採用記憶體動態計算,資料量小時,速度很快;資料量大時,吃記憶體很厲害效能偏慢。
Tableau:自身定位是一款視覺化工具,與Qlikview的定位差不多,視覺化功能很強大,對計算機的硬體要求較高,部署較複雜。目前移動端只支援IOS系統。
國內FineBI : 帆軟的自助式BI工具,有cube連和資料庫直連兩種模式。和Tableau一樣,是當下比較輕量化的BI工具。不同的是,前者優秀的視覺化工具,後者更像是能夠對接企業各種資料(倉)庫的資料決策平臺,提供從資料分析、自動模型搭建、視覺化ETL再到展示的解決方案。
億信華辰:只支援資料庫中取數,檔案資料需匯入伺服器。發展時間不長,整體還比較粗糙,需要繼續磨練和完善。
優劣勢分析
BI作為大資料的商業智慧決策分析工具,就我目前看到的案例來看,已經逐步被越來越多的企業所接受。主要是由於企業對資料的重視,以及對資料分析的重視。大型企業和知名網際網路企業,重視資料化管理的都上了BI。