首頁>科技>

這周,諾貝爾獎一一頒佈,得到也上線了一系列講座,分別解讀物理學、文學、經濟學等等五大獎項。

不過,要是盤點一下在過去10年中,給普通人生活帶來最大沖擊的科學進展,有一個領域一定排在前面——電腦科學領域。深度學習帶來的人工智慧革命,正在迅速地改變我們習以為常的生活方式、職業選擇,甚至是人們對於自我價值的認知。

其實,雖說“寫作”被看成是一種創意性工作,甚至是天賦,但事實並不完全如此。在2014年,有一位德國的神經科學家做了一個研究,對比了那些以寫作為職業的人和業餘寫手的大腦狀態。結果發現,職業寫手在寫作的時候,大腦裡的“左尾狀核”區域會更頻繁地被點亮,這個區域跟音樂家、職業運動員的專業技能密切相關。

雖然說科學家還沒搞清楚,寫作在大腦層面的具體機制是什麼樣的,但是現有的研究說明,職業化的寫作也是一種經過刻意練習、不斷試錯能訓練出來的技能,跟彈鋼琴、打籃球一樣。

那麼,有沒有可能用深度學習演算法來訓練寫作能力呢?你也知道,深度學習演算法已經在一些需要刻意練習的領域實現了巨大的突破,比如通過自己跟自己下棋,AlphaGo打敗了人類頂尖的圍棋選手,AlphaStar通過自己跟自己打遊戲,打敗了人類頂尖的電競玩家。深度學習的核心就在於,即便演算法並不了解做某一件事的具體方法,但是通過極其複雜的計算,它能算出不同策略達成目標的概率,最終找到一個最佳策略。

類似的思路,能不能用在寫作上呢?有沒有可能把寫作也變成一個概率問題?比如說,我說了前半句話,讓機器根據我的語境來猜測,下半句我想表達什麼呢?

想象一下,你從來沒有學習過任何關於組詞或者造句的規則,甚至沒有人告訴你,每個詞的意思是什麼,簡單來說你就是個文盲。但是你在網上,自己瀏覽過上百萬篇文章,這些文章涉及到各種各樣的話題,從國慶閱兵儀式,到明星的最新八卦,到梁啟超的《少年中國說》,到魯迅的《吶喊》《彷徨》。而且,你有過目不忘的技能,雖然你看不懂寫的是什麼,但是你能記住所有詞彙組合的方式。當你要寫作的時候,你唯一需要做的是,當一行字出現的時候,你要準確地猜測下一個詞可能是什麼。

現在的人工智慧公司,還真就是這麼做的。比如說,馬斯克成立的人工智慧公司,OpenAI。他們有一個人工智慧寫作的程式,叫做GPT-2。GPT-2的訓練資料,是美國一個論壇和新聞網站Reddit上面的文章,總共資料大小有48G。在沒有任何人類指導的情況下,GPT-2的神經網路通過“閱讀”這些文章,計算了不同詞語、語句組合的概率。當然,這裡面的“閱讀”是打引號的。

效果怎麼樣呢?

外界其實並不知道具體效果如何。在今年年初,OpenAI釋出了一個很誇張的宣告,說GPT-2的寫作能力太強大了,可能會被人以不好的方式利用,所以OpenAI暫時先不能釋出完整版本。OpenAI只在今年2月、5月、8月,分別釋出了能力被削弱的版本。這樣的訊息一出來,有不少人批評說OpenAI就是用這種方式在做營銷,但這也激起了不少人的好奇心,更想知道這個GPT-2的寫作能力,到底強大到什麼程度了。

《紐約客》的作者這回就到了OpenAI的總部,親自對全能版的人工智慧寫手進行了測試。他給GPT-2佈置的任務是,學會像《紐約客》雜誌的記者一樣寫作。

凡是做過記者的人都會知道,這個任務,難度相當大。給《紐約客》撰稿的門檻極高。他們以萬字長文著稱,文章的故事性和敘事性極強,而且還風趣幽默。《紐約客》的文章品質,在媒體當中絕對算得上是金線標準了。讓一個人學會寫《紐約客》的文章都很難,機器要怎麼學呢?

Open AI的CTO Greg Brockman,用GPT-2的全能版處理了《紐約客》雜誌從2007年開始到今天全部的非虛構文章,還讓機器閱讀了一些20世紀60年代的經典文章。如果讓一個人讀這些內容,一週7天每天讀24小時,得讀上兩週。但是Open AI的演算法用1個小時就能做到。用作者的話來說,如果說GPT-2最初的訓練資料是一頓自助餐,那麼這些《紐約客》的文章資料量,就相當於晚飯後吃的一隻馬卡龍。

根據這些資料,GPT-2把《紐約客》的文章特徵進行了分門別類,比如記者喜歡用哪些詞彙,用什麼樣的敘事性的修辭,文章行文的節奏什麼樣,等等。通過這些分析,演算法對GPT-2進行了“調準”。

然後,作者讓GPT-2寫一篇海明威的人物特寫。開頭,是《紐約客》的真人記者在1950年對海明威的一篇著名訪談。原文是這樣的,我翻譯過來,給你念一下:

“海明威可能是當時美國最偉大的小說家和短篇作家。他很少來紐約。大部分時間他都在距離哈瓦那9英里外的農場度過,那個農場叫做了望山莊。在那生活的除了他和妻子之外,還有9個傭人、52只貓、16只狗、幾百只鴿子和3頭奶牛。”

“我(也就是記者)沿著小路向籬笆走去,看見了一隻胖乎乎的狗。這隻狗在戰前經常來了望山莊,它現在正沿著小路飛奔到主樓,旁邊還站著一頭同名的、微小的母牛。院子的地上有一攤紅肉汁,海明威就在草坪的椅子上坐著。”

這麼一聽是不是覺得,這寫的也太好了吧?連作者都說,他看到這段的時候,感覺彷彿是自己在寫作一樣,人工智慧的寫作能力讓他大吃一驚。

如果你覺得,這還只是實驗室裡的進展,那就錯了。類似這樣的人工智慧寫作,現在已經進入我們的生活了。

如果你是谷歌郵箱Gmail的使用者,你可能會注意到,Gmail現在推出了一個智慧寫作功能,叫做Smart Compose。這個功能很神奇,也有點詭異,因為它能根據你輸入的一兩個詞,猜測你想寫什麼樣的句子。

比如說,前兩天我給一個叫做Rachel的朋友寫信,我在開頭輸入“親愛的”,Smart Compose就生成了她的名字,Rachel。我在郵件的開頭,打了“很高興”這幾個字,Smart Compose自動生成了後半句話,“收到你的來信”。

有時候,Smart Compose推薦的文字,甚至可能比你自己想到的要更好。比如《紐約客》文章的作者在給他的兒子寫信的時候,想寫 I’m Pleased,我很高興。但是當他輸入P這個字母的時候,Smart Compose自動打出了Proud of you,為你自豪。《紐約客》的作者嚇了一跳,因為作為一個父親,他並不常對兒子說這樣的話,但顯然,這句話更能拉近父子之間的感情。演算法似乎比作者自己更懂,一個父親應該怎麼對兒子表達情感。

當然,除了寫作以外,類似這樣的人工智慧演算法還有很多種不同的用途。芝加哥的一家公司,創造了一個人工智慧資料分析師。把一個公司的財報資料輸入進去,演算法會輸出一段文字,闡述這些資料當中的規律。IBM的一個應用,能用人工智慧演算法分析輿論觀點,然後梳理出正反兩方的立場。

不過,這樣的演算法,現在也有一些明顯的短板和缺陷。《紐約客》文章的作者,列舉出了他在體驗產品過程中觀察到的三個問題:

1. 演算法缺乏常識。比如說,在海明威的人物特寫中,演算法寫到,一隻“微小的”母牛,但顯然母牛的體型跟狗相比,不可能是“微小”的。這說明演算法並沒有“理解”文字的意義,只是在拼湊看起來合理的文字。

2. 演算法沒有辦法區分非虛構和虛構,演算法擅長的是捏造句子,像海明威的文章當中就有大量捏造的資訊。如果這樣的演算法普及起來,那麼假新聞、假資訊很可能有氾濫的危險。

3. 當作者重新整理了軟體,讓軟體基於它已經寫了的文字,進行下一步創作的時候,作者發現生成的文字越來越亂,最終變成了無法辨認的“胡言亂語”。 想象一下,如果網上開始出現演算法撰寫的文字,而演算法又基於這些資料進行學習,那麼很快,我們的網際網路就會充斥了毫無意義的垃圾文字內容。

這些缺陷,恐怕也是OpenAI公司拒絕釋出全能版GPT-2的原因。如果得不到解決,那麼人工智慧的寫作演算法,的確可能像他們預測的那樣被惡意利用,造成混亂。

最後,我再做一個預告。明天是10月10日,也是世界精神衛生日。今年世界精神衛生日的主題有點沉重,是預防自殺。

事實上,隨著科技和經濟的快速發展,人們在職場當中面臨的壓力也越來越大。就在前不久,一位華人員工從臉書總部大樓一躍而下,也再次引發了人們對職場壓力的關注。

你是否也會遭遇職場焦慮和壓力?你知道如何正確處理職場壓力嗎?

  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 【人工智慧】由炫到實 人工智慧轉型還要紮根產業需求