首頁>技術>

人人掛在嘴邊的資料分析,到底包含哪些方面?學好 Python 真的就能做好資料分析嗎?

資料分析,拆開來看其實是幾個方面:

工具、理論、業務

工具,指的是我們從事資料分析所使用的具體工具,如 SQL、Excel、Python、R、SAS等;

理論,指的是我們從事資料分析時所依賴的理論基礎,如機率論、統計學、機器學習及相關的建模和分析框架;

業務,指的是資料分析落地的具體場景,輸入和輸出以及要解決的具體問題。

工具和理論都是比較容易速成的,這也是為什麼各類網課主要集中在這些領域。

業務是依賴於在行業的經驗,因此,轉行最好先在同行業裡面轉,可以借用之前對於行業的業務理解,快速上手。

以上三個方面固然重要,但並不是資料分析的全部。

資料玩家還想再加一個維度,就是思維模式。

也就是,我們除了資料分析的工具、理論以及業務知識,還需要具備資料分析的思維。

那麼什麼叫做資料分析思維呢?

我認為可以分為三個方面:

第一 定量思維

迪斯尼透過草坪規劃道路的故事大家也許都聽過:

在迪斯尼樂園提前開放的半年裡,草地被踩出許多小道,這些踩出的小道有寬有窄,優雅自然。第二年,格羅培斯讓人按這些踩出的痕跡鋪設了人行道。1971年在倫敦國際園林建築藝術研討會上,迪斯尼樂園的路徑設計被評為世界最佳設計。

後來,迪斯尼還推出了 MagicBand,這個手環可以在園內支付,可作為酒店房卡,可以用來當 FastPass,可以用來停車等等,透過這些環節收集的資料,就可以知道哪幾個專案最熱門,哪幾個專案不太熱門,什麼位置餐廳人滿為患,說明還需要增加配置,什麼地方餐廳無人問津,可能要做最佳化……

等等,時間一長,積累的資料就有了各種價值,看起來無法測量的東西,透過巧妙地收集資料,都可以測量。

這就是資料思維第一條,萬物皆可測。

第二 相關思維

大資料時代,隨著算力的不斷加強,原來小樣本的計算已經可以升級為全樣本計算,並且可以發現變數間的相關關係,用來代替原來小樣本中推匯出的因果關係。

最經典的例子就是08年的 Google Flu:

Google流感趨勢(Google Flu Trends,GFT)是Google於2008年推出的一款預測流感的產品。Google認為,某些搜尋字詞有助於瞭解流感疫情。Google流感趨勢會根據彙總的Google搜尋資料,近乎實時地對全球當前的流感疫情進行估測

一個搜尋行為,和一個疾病的發生,看似不相關的兩件事情,存在強相關,這在原來是不可想象的。

不過,盡信資料不如無資料,一定要找到業務含義。

就拿 Google Flu 來說,在研究成果公佈以後,研究人員發現結果不再準確了。經過反覆確認和調研,發現因為很多人得知了這項成果,抱著好奇的心態嘗試搜尋關鍵字——儘管他們周圍並未出現相關病例,導致預測結果不再準確。

當你觀測的物件知道你在觀測他的時候,觀測結果就不再準確了。

第三 實驗思維

告別拍腦袋決策,告別依賴個人審美決策,告別依賴個人經驗決策,透過實際的資料表現來決策。同時,根據實驗結果不斷的迭代和最佳化模型。

當然,實驗的前提是測量,必須先將所有實驗的資料採集下來,才能根據實驗資料進行決策,同時,根據資料分析的結果,可能某些人群針對某個方案更加有效,這又會用到相關思維,即某些要素的相關性決定了最後的資料表現。

透過以上三個思維模式,我們可以將實際中的業務問題進行拆解,轉化為資料分析問題。

這麼說可能還是比較抽象,具體來看看如何應用。

在廣告營銷領域,有一個著名的說法

這是相當長的一段時間,廣告營銷行業最大的痛點,蒙著眼睛放廣告,來了客戶也不知道是廣告帶來的,還是自己找上門來的,或者其他渠道推薦來的。

那麼,用上資料分析思維的廣告營銷,會變成什麼樣子呢?

運用定量思維,那就是營銷效果要可以度量。一個廣告投出去,我需要知道到底帶來了多少轉化,每個渠道的轉化率怎樣,以及這些客戶的後續活躍程度如何,是不是假量?是不是羊毛黨?是不是殭屍戶?等等。

那麼如何度量呢?我們自然可以想到,要檢測轉化率,那就要對每個渠道進來的客戶打標籤,定期出報表,監控每個標籤下客戶的活躍情況等等,自然的就形成了客戶分群經營,分群營銷,分群活動投放等等策略。

運用相關思維,那就是透過相關性分析,使得廣告的投放更加精準。減少無效的廣告投放,在更相關的人群上投放他們感興趣的廣告,提升轉化率,節省營銷費用。

那麼如何進行相關性分析呢?透過前期採集的資料,使用 Apriori 、Collaborative Filtering 等演算法,找出使用者特徵、使用者行為及其最終購買之前的相關關係,從而最佳化投放及推薦模型。

運用實驗思維,那就是透過實驗,判斷哪個投放模型更優,哪個投放渠道更優,同時根據反饋不斷迭代和最佳化模型。

那麼如何進行實驗呢?自然是透過 A/B Test 方法,隨機均分流量到不同的投放模型上,同時採集客戶的反饋,不斷的根據反饋迭代和最佳化模型。

總的來說,做好資料分析,除了掌握工具、理論和業務,還需要具備資料分析的思維,有了資料分析的思維框架,更容易將業務、理論和工具貫通,形成自己的資料分析框架,更好、更有效的進行資料分析工作。

14
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • windows程式設計基礎