首頁>科技>

隨著 AI 領域越來越火熱,各大頂會的論文釋出似乎也越來越難:AAAI 2020 放榜,8800 篇提交論文創歷史記錄;CVPR 2020 被稱為十年來最難投中的一屆;IJCAI 2020 審稿堪稱史上最嚴,創下了史上最低的接收率 12.6%;OSDI 2020 錄用率不足18%;NeurIPS 2020 論文投稿數量創歷史最高,但接收率卻為史上最低……

陳薇

楊蛟龍

張星星

一個 idea(想法)是一個做科研的開始。在提到 idea 的來源時,三位研究員都不約而同地提到了讀論文這個方法。想要輸出好的內容,首先要有輸入。楊蛟龍提到,關於 idea 最主要的渠道來源還是讀論文,在讀現有論文的過程中產生想法,比如發現現有某一個或一類方法的不足並思考解決方案、受某個現有技術的啟發去解決另外一個新問題等。這也與張星星的觀點不謀而合,張星星表示,一個好的 idea 是要解決前人沒有解決的問題,或者改進之前方法當中的某些缺陷,這些都是一些比較好的出發點。

除此之外,良好的溝通也是必不可少的。在日常和同事、同學、導師的頭腦風暴中,討論需要關注的領域和問題,互相借鑑方法,更容易迸發出靈感的火花。在這裡,陳薇鼓勵研究者們在參加頂會或學術大會時,多去聽一聽自己感興趣的 Workshop。往往這些 Workshop 中會有許多行業內前瞻性的探索,也會有很多活躍的業內人士,在這樣的環境下,更容易產生好的 idea。

學科交叉遷移也是一個可以嘗試的方法。作為數學背景出身的研究者,陳薇會把計算機領域的問題放在數學的知識框架下進行思考,從而探索新的問題或者解法。在計算機科學領域,也可以從最基本的概念和方法論去尋找靈感。

Q2:有沒有一些好的/常用的論文寫作技巧可以分享一下?

有時候,有些同學可能還沒有接受足夠的論文寫作訓練,所以容易依賴導師。但是,論文寫作是科研的一個關鍵環節,尤其對於想獨立做研究的學生來說,優秀的論文寫作能力是不可或缺的。三位研究員們提出了許多可以借鑑的論文寫作技巧。

第一,把自己放在讀者的位置上。人們常常會在面對自己寫的內容時,自我感覺良好,但如果換做一個對論文內容比較陌生的人來閱讀,讀者是否真正能領會到研究的要點,論文邏輯是不是順暢,文章裡的陌生詞彙是不是很多…… 這些都是要從第三方的角度思考的。因此,在論文寫作時應該多換位思考、從讀者的角度去組織和修改文章內容,論文完成後還可以邀請同學、老師或者朋友幫忙通讀論文,看看還有哪些讀者疑惑的問題。

第二,寫論文要有講故事的思維。其實,做科研就是一個講故事的過程,寫論文也是。論文寫作需要一個完整的故事邏輯,比如,從論文為什麼要做領域內的這個問題出發,講述現有演算法為什麼不能很好地解決這個問題,然後我們有什麼新的發現或認識,基於此提出了一個什麼樣的方法,這個方法創新在哪,最後的結果又是怎麼樣的。論文一定要有一條很流暢的邏輯線,不要寫成一個枯燥無味的技術報告。

第三,在閱讀論文的過程中積累技巧。當你閱讀其他作者的論文時,如果發現論文中有精彩的部分,比如優美且專業的用詞、流暢的邏輯表達、漂亮的圖表等等,都可以記錄下來或者截圖儲存,建立供自己反覆學習以及論文寫作時參考的“語料庫”。

第四,論文寫作要簡練、嚴謹、清晰。研究員們表示,在做 Reviewer(審稿人)時,他們經常會看到有的論文在闡述貢獻時,會出現用力過猛的情況。因此,三位研究員都強調了,論文寫作的語言要簡練,突出重點。因為 Reviewer 的審稿時間是非常有限的,不可能把過多的時間浪費在一篇內容不清楚的工作上。同時,用語也要嚴謹。比如,在用形容詞描述效果程度時,到底是 superb,還是 good,抑或 descent, reasonable 等,每個單詞都要有把握,字斟句酌。這是因為,大部分人在讀論文時都是抱著懷疑的態度,如果細節不嚴謹,可能會引起對該研究工作的不信任。

最後,論文寫作不是一蹴而就的,需要投入大量的努力。三位研究員都表示,做研究和寫論文都是沒有捷徑可走的。與其投機取巧,不如在研究一開始就踏踏實實,嚴格把關每個環節,儘早把實驗變成文件,形成嚴謹的邏輯鏈條。楊蛟龍表示,對於剛起步的同學,寫論文可以先搭建框架再豐富內容,由粗到精地寫。比如,根據整體邏輯先確定每個章節的標題,再確定每個子章節及其標題,然後可以寫章節中每個段落的第一句話(尤其是引言部分),最後再把所有段落內容寫好。

Q3:如何做好投稿前的時間管理?

在科研中,做規劃是件很難的事,因為研究過程中有太多變數。但即使計劃很難,也還是要做。根據自己在 CV 領域頂會的經驗,楊蛟龍認為在投稿3個月前,大家就需要緊張起來了。緊張起來並不是說要每天加班到凌晨,而是要做規劃,根據專案目前的情況,列出事情的優先順序。如果在一定時間內做不完,就不要再鑽牛角尖持續拖下去了,嘗試換一個方向。因為,如果沒有這樣的全域性觀,會很容易陷入“坑”裡,自己總覺得還有時間,但最後可能會發現就算解決了這個“坑”,用處也沒有那麼大,時間沒用在刀刃上。

對此,張星星總結了一套實用的方法——提前寫一部分論文。一篇文章不需要等實驗的所有部分都完成了才開始寫,有很多部分其實是可以提前進行的,比如 related work(相關工作)部分。在方法部分,如果做實驗已經看到方法有希望,那麼可以先把方法寫出來,方便梳理,也更容易“摳”細節、反思流程、產生靈感。最好論文的第一版可以提前一個月的時間完成並遞交給導師,這樣導師有足夠的時間,也會給出及時的反饋。

當然,研究也需要良好的執行能力。陳薇提出,研究是一個完整的工作流程,每個環節都需要嚴謹。如果在選題、實驗等各個環節中有所疏漏,那麼整篇論文都不會紮實。提早發現問題,高標準嚴要求解決掉問題,會大大降低論文寫作的難度。

Q4:論文評審中,審稿人更希望看到什麼樣的論文呢?

一篇好的論文,內容要正確清晰,邏輯順暢,真的有貢獻,結果也要充分、有說服力。但對於不少國內的研究者來說,首先要過的就是語言關。張星星在審稿時就曾碰到過這樣的事情:作為審稿人,他看懂了一篇論文,然而其他評審者卻看不懂,給了很低的分數。其原因在於,張星星作為中國人,十分了解中國學者的用詞習慣,所以他可以看懂這篇文章想要表達的觀點,也看出來了這篇論文是中國研究者寫的。然而,儘管他對文章的學術內容表示認可,並試圖挽救這篇論文,但最後還是失敗了。最終領域主席認為,論文的語言不符合 ACL 標準,文章不能被接受。

除了語言外,內容也是一大要點。楊蛟龍認為,一篇論文的內容在各個方面儘量都不要有短板。如木桶原理一樣,論文中如果有短板,即使別的地方突出,評審者都不得不將評分降到較低的區間。因此,無論是在寫作上,還是在講故事、方法的創新性、實驗的完整度上,論文都應該做到全方位沒有“死角”。在沒有短板的基礎上,論文如果有亮點,比如方法非常新穎,實驗特別充分等,都會受到好評。正如楊蛟龍所說:“如果能把論文的每個部分都做成亮點的話,那真的太優秀了。”不過,即使做不到整篇論文都是滿分,那麼把一個點做到極致,也會讓人印象深刻。

當然,評審者也會有自己的喜好,張星星和陳薇都不約而同地提到了富有解釋性的文章。很多文章的邏輯都是提出模型-模型優勢-實驗效果提高,但是如果能解釋清楚實驗結果資料為什麼會這麼好,多一些深入的分析,就更能接近問題的本質。

Q5:Rebuttal 的用處在哪裡?如何寫好 Rebuttal?

Rebuttal(辯駁)是論文評審中關鍵的一步。張星星表示,其實我們每天都在 Rebuttal。無論是和導師,還是和同事/同學,只要在一起討論論文和問題,都是 Rebuttal 的過程。他自己曾經有三次透過 Rebuttal 讓文章被改分的經歷。“Rebuttal是有可能拯救一篇文章的,所以千萬不要放棄 Rebuttal 這個機會。”對此,楊蛟龍也有切身體會。他回憶道,在一次投稿時,因為一個公式沒有寫清楚,而導致論文被幾位審稿人否定,但在他透過 Rebuttal 環節詳細解釋後,文章最終得到了認可,評分也迅速上升,最終論文被接收。

研究員們表示,通讀完論文的評審意見之後,可以先將提出的問題列出來,仔細思考為什麼會有這些問題。大部分審稿人提出的意見背後都是有原因的,所以要從論文出發,回想有問題的部分,反思一下是不是確實容易產生誤解,然後再去寫 Rebuttal。

同時,對待 Rebuttal 的態度要端正,沒有必要過分情緒化。Rebuttal 不是一個對抗的過程,事實上,審稿人是幫助者而不是敵人。陳薇認為,Rebuttal 其實是一個讓文章可以變得更好的過程,在與同行的討論中,我們也加深了對工作的理解。另外,在 Rebuttal 寫作時也需要有一定的邏輯性,針對問題進行解釋要層層遞進。如果要求實驗結果,那麼就儘量去進行實驗,因為圖表資料更有說服力。其實,如果認真、真誠地回覆 Rebuttal,既能顯示出研究者對工作負責任的態度,也是對評審者辛苦審稿的尊重。

Q6:要如何和導師進行溝通互動?

在溝透過程中,首先要保持一個坦誠的態度。三位研究員都表示,同學們要不怕犯錯,千萬不要有了想法後不說出來,自己悶頭“蠻幹”。陳薇認為,做研究時思維方式要調整,導師是同學們的合作者,及時和導師溝通,可以避免走很多彎路,節省更多科研時間。從整個科研專案的管理上來說,讓導師知道每個細節也是很有必要的。畢竟在快到 Deadline 時,如果學生有很多的話,導師也分身乏術,沒有辦法將很多時間分配給每個學生。

Q7:隨著 AI 領域越來越火,頂會投稿量也不斷增多(比如 CVPR 2020),頂會錄取會不會更難?

在楊蛟龍看來,儘管整個 AI 領域的科研人員比原來增加了不少,但無論是從論文的錄取率,還是投稿的難易程度等多個方面,他個人覺得和之前沒有太大區別。發論文其實並沒有那麼難,難的是怎麼出類拔萃。他表示,現在出現了很多快餐式的論文,儘管這種論文的內容好像也能說得過去,但其實對領域的研究發展幫助並不大。

如果想要成為一名優秀的研究人員,那麼在剛開始做科研時,就要建立起良好的科研品味,比如要做對領域有重要貢獻的工作,希望讓更多人從中受益,或者對領域有所改變。如果從一開始做科研的時候就給自己樹立這樣的標準和價值觀,那麼你今後的論文將會是更有價值的存在,是能讓人去引用的論文,那就是出類拔萃的。楊蛟龍鼓勵每位同學都給自己設立一個小目標,比如做口頭報告論文,做前10%、5%、3%的論文等等,以此來激勵自己做有價值的科研。

Q8:ACL、EMNLP、IJCAI、AAAI 都會有 NLP 方向的論文,對於 NLP 的工作,會議傾向的風格會有什麼不同嗎?如果有的話,投稿時需要注意什麼?

張星星提到,不同會議的風格確實存在區別。像 ACL、EMNLP 都是比較傳統的 NLP 會議,可能更側重相對傳統一些的 NLP 領域問題。像 IJCAI 的話,內容就會更多樣化一些,不僅有 NLP 的問題,可能還有計算機視覺、機器學習等多種 AI 相關的方向。如果是把 NLP 應用到了一個產品,或者一個比較新的領域中,那麼 IJCAI 這類會議會相對比較喜歡這樣的論文。如果是比較傳統的 NLP 問題,那麼把這樣的論文投到更相關的會議上,則會受到更多的關注度。事實上,有經驗的科研人員有時只需看論文的主題,就大致有一個感覺,覺得這篇文章更適合哪一類的會議,所以同學們可以多跟導師進行交流。

Q9:機器學習方向的三大 AI 頂會:NeurIPS、ICML、ICLR 分別有什麼特點?怎樣做到針對性投稿?

對於這個問題,陳薇從頂會的歷史說起,給出瞭解答。

NeurIPS 是 Neural Information Processing Systems 的簡稱,在神經網路模型2012年再度興起之前,這個名字聽上去與機器學習並不十分匹配。但其實,NeurIPS 長期被機器學習等領域的學者所青睞並保持繁榮,其很大原因在於它比較開放、包容新興問題和創新方法。這從 NeurIPS 一直以來盡力保持的 Single track + Poster 的會議形式也有所體現,鼓勵學者在自由討論中進行思維碰撞。所以,比較新穎的、腦洞大開的想法可以嘗試投稿 NeurIPS。

相對 NeurIPS,ICML 是一個更加傳統的機器學習會議,接收機器學習各個領域的前沿工作,較偏好理論、演算法、實驗比較平衡和完整的工作。ICLR 則是比較新的會議,創立於2013年深度學習興起之時,鼓勵從表達學習的視角理解深度學習,同時展現深度學習的各項前沿應用,比如計算機視覺、計算生物學、語音識別、文字理解、遊戲和機器人等。另外,ICLR 首先採用了公開評議(Open Review)的審稿方式,評審意見公開,審稿人、作者、公眾的討論更加充分,學者在投稿或者關注中有更大收穫,同時也促進了 ICLR 的快速成長。

Q10:日常應該從哪些方面鍛鍊自己的科研能力?

楊蛟龍認為,科研能力包括很多方面,從最開始的學會讀論文,到開始寫論文做演講,當然還有編碼能力、思維能力等等,要求是全方位的,一個合格的研究員不應該有短板。而在這其中,最重要的是邏輯思維能力和問題分析能力。分析問題的時候,如果遇到一個問題,要怎麼解決這個問題?如果這個問題成功解決了,接下來又有什麼問題?這種樹狀的邏輯思維能力和分析能力需要長時間打磨、培養,才能建立起來。有了問題分析和解決的能力,才能在問題中快速發現關鍵點,也能在問題中獲得靈感。

在張星星看來,科研能力和研究品味是需要慢慢提高的。好的輸出必須有好的輸入做基礎,一方面要讀大量的論文積累,另一方面就是要多做實驗,在實驗中看到方法的缺陷和問題。除此之外,去參加頂會也很重要。在開會時,可以和領域內的“大佬”多交流溝通,瞭解他們的觀點,向他們提問,從而進行思維碰撞,提高自身能力。

陳薇則提出,同學們在進行科研時,最重要的一個前提是已經完成了一套完整的科研訓練。親身體會過完整的科研流程、培養良好的研究習慣後,才會對自己的研究有合理的預期,循序漸進地追求想法和深度。同時,科研中的心態十分重要。避免眼高手低,在科研開始階段一昧追求做“大事”,也不要在已經完成科研訓練之後低估自己,受限於舒適圈內而不敢大膽嘗試。建議短期內在自己的興趣、能力和工作的影響力三者之間做最優匹配,長期保持學習習慣、好奇心和挑戰自我的勇氣。

透過與研究員們的溝通,我們可以看到,科研是一個長期的過程,不僅需要技巧,更需要良好的心態。與其臨淵羨魚,不如退而結網,終有一天你也會成為別人眼中的“頂會大佬”!

最後,聖誕老人祝大家在以後的研究工作中論文全過,頂會全中!

11
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 升級版MuZero:無需告知規則,觀察學習時即可掌握遊戲