驗證碼是很多人討厭的東西,可這很多人恐怕也不知道驗證碼背後的巨大力量。最近上谷歌發現它的人機驗證圖片都是從谷歌街景上摳出來的,讓你識別的大多是什麼:訊號燈(比率很高)、人行道、腳踏車、消防栓之類的東西。也許在進行煩人的人機驗證時你沒有多想,但是對於我這個老資歷“陰謀論者”來說,世間蹊蹺之事背後必有陰謀。
那麼谷歌的人機驗證背後是什麼呢?10億人正在免費給谷歌打工,幫助他們完善自動駕駛系統。這就是網路大公司的力量。
大家都是谷歌的免費工具人
問題的切入點是,為什麼谷歌的人機驗證全是交通相關的圖片?而且都是從實拍街景圖上摳出來的。瞭解人工智慧的人應該馬上會聯想到一個詞:機器學習。
什麼叫機器學習?簡單來講,就像人訓練狗認數字,透過不斷給狗看數字,告訴它這是幾,直到狗能分別出數字。機器學習的手段也是如此,例如圖片識別,想讓機器能夠區分蘋果和西紅柿,需要用大量的蘋果和西紅柿的圖片,並告訴機器:這個是蘋果、這個是西紅柿。訓練用的樣本量越大,機器越不容出錯。雖然訓練機器和訓練動物的手段相似,但原理完全不同。機器學習的背後是複雜的數學和統計學原理,計算機程式會把遇到樣本進行歸類,所以樣本數量越大,可比對的資料就越多,那麼歸類自然就越準確。
如果你曾經給谷歌勾選過人機驗證,那麼你已經為谷歌的自動駕駛技術免費貢獻了自己的一份力量。不得不感嘆,這些人真精啊!
是誰讓你我成為工具人?
其實這已經不是驗證碼第一次被用在解決枯燥乏味的工作上了,國外的網民在10年前已經不知不覺地把從1851年開始刊登在紐約時報上的1300萬篇文章電子化了。想想看,如果要是找人手工完成這項工作需要花費多少錢又要花費多少時間呢?
是不是有點好奇,這種天才的主意是誰想出來的?就是下圖中這位精神小夥兒Luis von Ahn。
當年還在卡內基梅隆大學上學的Luis跟另外三個哥們兒一起開發了reCAPTCHA,也就是驗證碼。這東西的出現解救了像雅虎這樣得免費郵箱,當時它們正被機器註冊折磨得痛不欲生,大量被惡意註冊的免費郵箱不斷給使用者群發廣告郵件或者幹著黃牛搶票的事兒,急需一種技術來確認正在註冊的使用者是人而不是機器。
reCAPTCHA的成功讓Luis馬上開始琢磨,這東西是不是還能被用在更有用的地方,比方說文字錄入。在計算機技術普及的20世紀90年代之前,人類的智慧都是以印刷或者手寫的方式被固定在紙張上的,非數字化的內容在網路時代就成為無法被納入到搜尋範圍的文化死角。而要實現文字內容的數字化並非易事,對各種字型或者汙損殘缺文字的識別仍然需要人類完成,這就涉及海量的錄入工作,於是Luis就巧妙地利用驗證碼讓廣大網民當了一回免費工具人。大量的報紙被掃描下來,整段的文字被拆分成單詞,經過變形之後成為驗證碼,在人們不斷輸入驗證碼的過程中,紐約時報過去的內容完成了數字化。據說這項技術每年會讓230萬本書實現數字化,更關鍵的是沒花一毛錢。
2009年,reCAPTCHA被谷歌收購,免費工具人也就轉而為谷歌服務了,而我們這些工具人的第一項偉業是創造了精確的電子地圖。前些年上谷歌被抓去做人機驗證的人一定有印象,那會兒的驗證碼淨是門牌號。
看到這裡,走腦子的讀者一定會問:“它怎麼知道我輸入的對不對呢?”解決方法是在正確答案裡混進幾個待確認的,比方說單詞驗證碼一般都是倆個詞同時出現,其中一個詞是系統不知道的、另一個是系統知道正確答案的,當你正確輸入它知道答案的那個詞之後,就判定你驗證成功。至於它不知道的那個詞,反正很多人都在輸入同一條驗證碼,裡面輸入次數最多的自然是正確的。
現在Lius幹嘛呢?當然是挖掘新的免費工具人!學習外語的人成了他的新目標,如果你在Dulingo上進行句子翻譯練習,恭喜!你又成了免費工具人,正幫著Lius翻譯不同語言的出版物。
寫在最後
免費工具人這個事兒說歸說,我個人倒是覺得Lius乾的事情是有意義的,至少在讓整個社會向前發展,解決了很多實際問題,比那些把智力用在編騙局割韭菜的資本家、網紅、公知強多了。
輪到你說:免費工具人,你幹不幹?牆?!
撰文:劉威序