首頁>科技>

我們工作的本質是解決問題,各種各樣的問題。

解決問題的核心是目標和方法,但許多人上來就是幹,從沒冷靜地想過:目標定對了嗎?方法是科學有效的嗎?

本文核心知識來自楊震原在火山引擎媒體開放日的演講,經作者重新增減和梳理。希望這位位元組跳動技術副總裁對“解決問題”的思考,可以幫到你。

錯誤的目標會把人帶進坑裡

2014年初,楊震原加入位元組跳動,張一鳴讓他把內容推薦質量提升提升。當時這方面已經有很多專案在做,楊震原發現,其中一個子方向把目標定位是:“建設全面、精準的使用者畫像體系”,他覺得這個目標很有問題。

他心想,“提升推薦的使用者質量”才是最終目標。使用者畫像不是解決問題的眾多方法之一麼?,甚至不是重要的方法,怎麼把它駕到了目標的位置上?

這會導致什麼問題呢?

給使用者畫像,瞭解使用者,固然有助於推薦他們更喜歡的內容,但很難量化,很難評估。

你問使用者喜不喜歡旅遊,一般人都說喜歡——誰不愛出去玩兒呢?可你推薦旅遊相關的文章,他看嗎?很多人不看。

再比如,大多數人不會承認自己喜歡看帥哥美女,可身體往往很誠實。

所以使用者畫像不是一個好目標,難以評估,且很難真正指導具體工作。

錯把方法當目標,會把人帶進坑裡。

還有一種情況,也會把人帶進坑裡:錯把單一指標當目標。

2016年,一個傳統老牌外企,做了一款新聞推薦產品,讓在中國的研究所提升新聞推薦質量。

評估標準是:使用者使用時長。

乍一看,使用者使用時長增加, 當然說明APP的資料變好了呀。研究所每個季度有KPI,連續幾年都完成目標,甚至超額完成。

可後來,這個研究所瀕臨解散,因為整個產品的使用者留存一直在下降。

為什麼使用者使用時長一直在漲,使用者卻越來越少?

原來,起初使用者分成兩部分:使用時長短的,使用時長長的。這個研究所每一次調整,都把使用時長短的使用者給驅趕走了,使用時長長的使用者比重增加,整體使用時長當然就增加了。

一個看起來很好的目標,卻把產品作死了,這就是錯把單一指標當目標的風險。

位元組跳動公司是怎麼做的?楊震原說,也沒有什麼特別的大招,就是儘量將多個目標(或者說各個層面的多個指標)綜合——既要考慮使用者體驗,也要考慮客觀指標,輔以使用者訪談的直觀印象,綜合制定方向。

什麼是好目標,楊震原有兩個標準:層次合理和可衡量。

層次要合理,如果定得層次太高,不利於指導具體工作,太低,又容易短視和偏航。

可衡量,這跟後面要講的資料驅動的理念是一致的。

一個不太高,不太低的目標,並且定期衡量,是成功解決問題的基礎。

如何衡量努力是讓自己離目標更近了,還是更遠了?定好目標,我們還需要一個靠譜的評估方法。

什麼是靠譜的評估方法?

通常我們有這麼三種方法:經驗判斷、A/B測試、非A/B測試的資料分析。

經驗判斷,很多時候都是必要的。

比如,抖音判斷一個短影片的質量好壞,很多時候要靠人,客觀指標當然有用,但不能替代人。

再比如,公司戰略決策,資料只能用來輔助,人來決策。

但經驗判斷的問題在於:執行層面容易不一致,且夾雜個人偏好。

非A/B測試的資料分析,也很有用,但容易陷入一個誤區:錯把關聯當因果。

舉個例子:暑假前做了一波活動,暑假後資料量大漲,你能說,這個提升是活動帶來的嗎?

雖然它們有關聯,但未必是因果關係。

再舉個例子:有資料表明,巧克力吃得越多的國家,諾貝爾獎得主就越多。

那麼,只要我們多吃巧克力,就能多拿諾獎嗎?顯然不靠譜。也許能拿胖獎,但拿不到諾獎。

兩件事有關聯,並不代表沒有因果性。從資料分析中得出結論,會面臨很多這樣的風險,混淆關聯性和因果性,不僅不能解決問題,還可能導致災難。

要確定兩件事有沒有因果性,完全的解決方案是什麼?平行宇宙。

搞一波活動,看看結果,再把時間倒退回去,別的都不變,也不搞活動,看看結果,比較一下差別。

現實世界做不了平行宇宙的實驗,所以只能做A/B測試。

A/B測試能幫我們發現兩件事的因果性。

這樣一來, 你就能知道什麼動作有助於讓你離目標更近一些。

A/B測試的昨天和今天

1747年之前,出海船員經常出現一種怪病,渾身乏力,易出血,消化不良,渾身不得勁。詹姆斯·林德(James Lind)醫生為了查明壞血病的原因,設計了一組實驗:

出現壞血病的船員,每天吃相同的食物,唯一不同的藥物是當時傳言可以治療壞血病的藥方。

A組吃柑橘水果

B組吃果酒

C組吃稀硫酸(喂人喝硫酸也是勇氣可嘉了)

D組喝醋

E組喝海水

結果A組的兩個人好轉。

基於此,後來人們才發現壞血病是因為缺維生素C,而柑橘水果富含維C。

A/B測試和醫學裡的“雙盲實驗”、初中物理課本里的“控制變數法”、生物課本里的“對照實驗”大概是一個意思,只不過更多用於網際網路領域。

儘管看起來,做實驗,分組,剝離非關鍵因素,非常麻煩且耗時間,效率低,但它可以給你確定性,確定性就像一個臺階,當你真正把一件事搞清楚,就可以踩著它繼續向上,穩打穩紮地前進。

在詹姆斯醫生的實驗之前,人們也試過這種怪招,偏方,但是運氣好碰上了就有效,沒碰上就沒效,很難幫助人們分離出真正有效的物質。

2012年,位元組跳動公司成立之初,就開始用A/B測試。儘管當時的做法可能挺粗曠,比如按照使用者ID的尾號奇偶來給使用者分組,試驗不同的方案,但至少說明A/B測試的意識已經在大家腦子裡。

到2016年,A/B測試在公司內部演化出一個廣泛使用的平臺,叫Libra,功能非常豐富,且更科學嚴謹。

到2019年,也許是本著“窮則獨善其身,達則兼濟天下”的想法,位元組跳動成立火山引擎品牌,把那些在自己身上驗證過的技術能力,賣給更多需要的人,A/B測試的能力就是其中之一。

到現在,A/B測試已經是位元組跳動一項非常基礎的工具。

400多個業務在使用;

累計70多萬次實驗;

每天,新增,1500個實驗。

可以說是把科學實驗融入到骨子裡。

“內部基本上就是,能用A/B測試的都用。”楊震原說,從產品命名、互動設計,改一個字型、彈窗、介面大小,都做A/B測試,從張一鳴自己還在寫程式碼開始就一直在用A/B測試。

A/B測試:門檻很低,門道卻很深

世上沒有一勞永逸的辦法,要意識到A/B的侷限和問題,使用時才不容易踩坑。

問題常體現在三方面:獨立性問題、統計置信度問題、長短期影響

首先是獨立性問題。

舉個例子,網約車的分配策略,A策略和B策略,哪個效果更好?

最直接的做法是,把使用者分成A和B兩個池子,A池子用A策略打車,B池子用B策略打車,兩個一比不就知道了?

但這裡有一個坑。

如果使用者被分成了A/B兩個池子,但司機並沒有分成A/B兩個池子,很可能出現一種情況:A池子的使用者早幾分鐘,把附近唯一的一個司機打走了,導致B池子的使用者沒打到車。

也就是說,A/B兩個組會相互影響,這就是獨立性問題。

有一種改進方案是:把司機也分成A/B兩個池子,AB兩個池子各打各的車。

但這樣實驗成本就很大,會給網約車公司帶來直接損失。想想,你著急打車,身邊就有一輛車,但他跟你不在一組,只是因為要做實驗,你就打不到這輛車。

第二個是統計置信度問題。

一項產品改動,做了100個評估,有22個顯示變得更好,有20個顯示變得更差。你能因此判斷這個改動的影響是正向的嗎?

不一定,因為22和20相差不顯著,有可能是隨機性帶來的。

所有的實驗都有置信度,如果置信度很低,那麼當你用結果來指導工作,就容易有大機率出錯。

第三是長短期影響。

如果一個A/B測試只進行短期實驗,因為實驗資料本身是短期的,結果也可能導致短視。

比方說:A方案是要對低評價商品降低推薦量,B方案是不要對低評價商品降低推薦量。

如果短期來看,A方案是會降低整體交易量的,因為推薦的少了嘛,但是長期來看,打擊評價不好的商品,有利於促進商品推薦質量提升,在長時間維度上能讓整個電商推薦更加健康,資料會慢慢漲回來。

這說明有時候,人的經驗也是很寶貴的,要相信一些本質的東西,堅持下去,很可能會得到一個正確的答案。如果迷信短期資料,很可能會掉到溝裡。

上述實驗,如果把實驗從3天延長到一個月,就可以看到交易量慢慢回升。這就是實驗長短期的影響。

A/B測試究竟意味著什麼

楊震原說:“我們不能只看A/B,也不能沒有A/B測試。沒有所謂最好的方法,只有最適合的。”

要如何辨證地看待A/B測試,我覺得不妨參照張一鳴在2018年說的兩段話:

“AB測試只是一個工具,測不出使用者需求,同理心才是重要的基礎。沒有同理心,只能做出有用的產品,而不是出彩的產品。”

“同理心是地基,想象力是天空,中間是邏輯和工具。”

最後,我想用兩個小故事來結尾:

他們先把AppStore上各類免費榜單的前10名整理出來,歸類(朗朗上口白話類,內涵情懷類,模擬特殊聲音類,公司名+用途類等),分析各類佔比,結果是朗朗上口大白話類最好。

第二個故事是關於抖音APP的。

位元組跳動最初給抖音起名字時,也用的A/B測試,“抖音”在眾多名字中排第二。

這場A/B測試確實打破了許多人的經驗帶來的偏差:“原來大家看到一個產品名字,居然是這麼想的。”

但是到了最後,大家還是選了排在第二的抖音,沒有選排名第一的那個。

---

參考資料:

《位元組跳動副總裁楊震原:A/B測試不是萬能的,但不會一定不行》.位元組跳動官方賬號

8
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 9年70萬次實驗,位元組跳動副總裁楊震原首次揭秘A/B測試