首頁>科技>淺黑科技2021-04-21 12:04

位元組跳動副總裁：這個工作方法，能用的地方我們都用

我們工作的本質是解決問題，各種各樣的問題。

解決問題的核心是目標和方法，但許多人上來就是幹，從沒冷靜地想過：目標定對了嗎？方法是科學有效的嗎？

本文核心知識來自楊震原在火山引擎媒體開放日的演講，經作者重新增減和梳理。希望這位位元組跳動技術副總裁對“解決問題”的思考，可以幫到你。

錯誤的目標會把人帶進坑裡
2014年初，楊震原加入位元組跳動，張一鳴讓他把內容推薦質量提升提升。當時這方面已經有很多專案在做，楊震原發現，其中一個子方向把目標定位是：“建設全面、精準的使用者畫像體系”，他覺得這個目標很有問題。
他心想，“提升推薦的使用者質量”才是最終目標。使用者畫像不是解決問題的眾多方法之一麼？，甚至不是重要的方法，怎麼把它駕到了目標的位置上？

這會導致什麼問題呢？

給使用者畫像，瞭解使用者，固然有助於推薦他們更喜歡的內容，但很難量化，很難評估。

你問使用者喜不喜歡旅遊，一般人都說喜歡——誰不愛出去玩兒呢？可你推薦旅遊相關的文章，他看嗎？很多人不看。

再比如，大多數人不會承認自己喜歡看帥哥美女，可身體往往很誠實。

所以使用者畫像不是一個好目標，難以評估，且很難真正指導具體工作。

錯把方法當目標，會把人帶進坑裡。

還有一種情況，也會把人帶進坑裡：錯把單一指標當目標。

2016年，一個傳統老牌外企，做了一款新聞推薦產品，讓在中國的研究所提升新聞推薦質量。

評估標準是：使用者使用時長。

乍一看，使用者使用時長增加，當然說明APP的資料變好了呀。研究所每個季度有KPI，連續幾年都完成目標，甚至超額完成。
可後來，這個研究所瀕臨解散，因為整個產品的使用者留存一直在下降。

為什麼使用者使用時長一直在漲，使用者卻越來越少？

原來，起初使用者分成兩部分：使用時長短的，使用時長長的。這個研究所每一次調整，都把使用時長短的使用者給驅趕走了，使用時長長的使用者比重增加，整體使用時長當然就增加了。

一個看起來很好的目標，卻把產品作死了，這就是錯把單一指標當目標的風險。

位元組跳動公司是怎麼做的？楊震原說，也沒有什麼特別的大招，就是儘量將多個目標（或者說各個層面的多個指標）綜合——既要考慮使用者體驗，也要考慮客觀指標，輔以使用者訪談的直觀印象，綜合制定方向。

什麼是好目標，楊震原有兩個標準：層次合理和可衡量。

層次要合理，如果定得層次太高，不利於指導具體工作，太低，又容易短視和偏航。

可衡量，這跟後面要講的資料驅動的理念是一致的。

一個不太高，不太低的目標，並且定期衡量，是成功解決問題的基礎。

如何衡量努力是讓自己離目標更近了，還是更遠了？定好目標，我們還需要一個靠譜的評估方法。

什麼是靠譜的評估方法？
通常我們有這麼三種方法：經驗判斷、A/B測試、非A/B測試的資料分析。

經驗判斷，很多時候都是必要的。

比如，抖音判斷一個短影片的質量好壞，很多時候要靠人，客觀指標當然有用，但不能替代人。

再比如，公司戰略決策，資料只能用來輔助，人來決策。

但經驗判斷的問題在於：執行層面容易不一致，且夾雜個人偏好。

非A/B測試的資料分析，也很有用，但容易陷入一個誤區：錯把關聯當因果。

舉個例子：暑假前做了一波活動，暑假後資料量大漲，你能說，這個提升是活動帶來的嗎？

雖然它們有關聯，但未必是因果關係。

再舉個例子：有資料表明，巧克力吃得越多的國家，諾貝爾獎得主就越多。

那麼，只要我們多吃巧克力，就能多拿諾獎嗎？顯然不靠譜。也許能拿胖獎，但拿不到諾獎。

兩件事有關聯，並不代表沒有因果性。從資料分析中得出結論，會面臨很多這樣的風險，混淆關聯性和因果性，不僅不能解決問題，還可能導致災難。

要確定兩件事有沒有因果性，完全的解決方案是什麼？平行宇宙。

搞一波活動，看看結果，再把時間倒退回去，別的都不變，也不搞活動，看看結果，比較一下差別。

現實世界做不了平行宇宙的實驗，所以只能做A/B測試。

A/B測試能幫我們發現兩件事的因果性。

這樣一來，你就能知道什麼動作有助於讓你離目標更近一些。

A/B測試的昨天和今天
1747年之前，出海船員經常出現一種怪病，渾身乏力，易出血，消化不良，渾身不得勁。詹姆斯·林德（James Lind）醫生為了查明壞血病的原因，設計了一組實驗：

出現壞血病的船員，每天吃相同的食物，唯一不同的藥物是當時傳言可以治療壞血病的藥方。

A組吃柑橘水果

B組吃果酒

C組吃稀硫酸（喂人喝硫酸也是勇氣可嘉了）

D組喝醋

E組喝海水
結果A組的兩個人好轉。

基於此，後來人們才發現壞血病是因為缺維生素C，而柑橘水果富含維C。

A/B測試和醫學裡的“雙盲實驗”、初中物理課本里的“控制變數法”、生物課本里的“對照實驗”大概是一個意思，只不過更多用於網際網路領域。

儘管看起來，做實驗，分組，剝離非關鍵因素，非常麻煩且耗時間，效率低，但它可以給你確定性，確定性就像一個臺階，當你真正把一件事搞清楚，就可以踩著它繼續向上，穩打穩紮地前進。

在詹姆斯醫生的實驗之前，人們也試過這種怪招，偏方，但是運氣好碰上了就有效，沒碰上就沒效，很難幫助人們分離出真正有效的物質。

2012年，位元組跳動公司成立之初，就開始用A/B測試。儘管當時的做法可能挺粗曠，比如按照使用者ID的尾號奇偶來給使用者分組，試驗不同的方案，但至少說明A/B測試的意識已經在大家腦子裡。

到2016年，A/B測試在公司內部演化出一個廣泛使用的平臺，叫Libra，功能非常豐富，且更科學嚴謹。

到2019年，也許是本著“窮則獨善其身，達則兼濟天下”的想法，位元組跳動成立火山引擎品牌，把那些在自己身上驗證過的技術能力，賣給更多需要的人，A/B測試的能力就是其中之一。
到現在，A/B測試已經是位元組跳動一項非常基礎的工具。

400多個業務在使用；

累計70多萬次實驗；

每天，新增，1500個實驗。

可以說是把科學實驗融入到骨子裡。

“內部基本上就是，能用A/B測試的都用。”楊震原說，從產品命名、互動設計，改一個字型、彈窗、介面大小，都做A/B測試，從張一鳴自己還在寫程式碼開始就一直在用A/B測試。

A/B測試：門檻很低，門道卻很深
世上沒有一勞永逸的辦法，要意識到A/B的侷限和問題，使用時才不容易踩坑。

問題常體現在三方面：獨立性問題、統計置信度問題、長短期影響

首先是獨立性問題。

舉個例子，網約車的分配策略，A策略和B策略，哪個效果更好？

最直接的做法是，把使用者分成A和B兩個池子，A池子用A策略打車，B池子用B策略打車，兩個一比不就知道了？

但這裡有一個坑。

如果使用者被分成了A/B兩個池子，但司機並沒有分成A/B兩個池子，很可能出現一種情況：A池子的使用者早幾分鐘，把附近唯一的一個司機打走了，導致B池子的使用者沒打到車。
也就是說，A/B兩個組會相互影響，這就是獨立性問題。

有一種改進方案是：把司機也分成A/B兩個池子，AB兩個池子各打各的車。

但這樣實驗成本就很大，會給網約車公司帶來直接損失。想想，你著急打車，身邊就有一輛車，但他跟你不在一組，只是因為要做實驗，你就打不到這輛車。

第二個是統計置信度問題。

一項產品改動，做了100個評估，有22個顯示變得更好，有20個顯示變得更差。你能因此判斷這個改動的影響是正向的嗎？

不一定，因為22和20相差不顯著，有可能是隨機性帶來的。

所有的實驗都有置信度，如果置信度很低，那麼當你用結果來指導工作，就容易有大機率出錯。

第三是長短期影響。

如果一個A/B測試只進行短期實驗，因為實驗資料本身是短期的，結果也可能導致短視。

比方說：A方案是要對低評價商品降低推薦量，B方案是不要對低評價商品降低推薦量。

如果短期來看，A方案是會降低整體交易量的，因為推薦的少了嘛，但是長期來看，打擊評價不好的商品，有利於促進商品推薦質量提升，在長時間維度上能讓整個電商推薦更加健康，資料會慢慢漲回來。
這說明有時候，人的經驗也是很寶貴的，要相信一些本質的東西，堅持下去，很可能會得到一個正確的答案。如果迷信短期資料，很可能會掉到溝裡。

上述實驗，如果把實驗從3天延長到一個月，就可以看到交易量慢慢回升。這就是實驗長短期的影響。

A/B測試究竟意味著什麼
楊震原說：“我們不能只看A/B，也不能沒有A/B測試。沒有所謂最好的方法，只有最適合的。”

要如何辨證地看待A/B測試，我覺得不妨參照張一鳴在2018年說的兩段話：

“AB測試只是一個工具，測不出使用者需求，同理心才是重要的基礎。沒有同理心，只能做出有用的產品，而不是出彩的產品。”

“同理心是地基，想象力是天空，中間是邏輯和工具。”

最後，我想用兩個小故事來結尾：

他們先把AppStore上各類免費榜單的前10名整理出來，歸類（朗朗上口白話類，內涵情懷類，模擬特殊聲音類，公司名+用途類等），分析各類佔比，結果是朗朗上口大白話類最好。

第二個故事是關於抖音APP的。
位元組跳動最初給抖音起名字時，也用的A/B測試，“抖音”在眾多名字中排第二。

這場A/B測試確實打破了許多人的經驗帶來的偏差：“原來大家看到一個產品名字，居然是這麼想的。”

但是到了最後，大家還是選了排在第二的抖音，沒有選排名第一的那個。

---

參考資料：

《位元組跳動副總裁楊震原：A/B測試不是萬能的，但不會一定不行》.位元組跳動官方賬號

11

最新評論

相關內容

∧ 整治雙十一購物亂象，國家再次出手！該跟這些套路說再見了

∨ 9年70萬次實驗，位元組跳動副總裁楊震原首次揭秘A/B測試

熱門排行