他們找到一位當時剛剛21歲的天才——Luis von Ahn。 而Luis Von Ahn給出的方案,就是這個讓人民群眾微微皺眉,但是讓計算機聳肩撓頭的驗證碼 Capcha。計算機辨識技術還很落後,對於經過扭曲、汙染的文字,無法辨識。而人類卻可以輕鬆認出這些文字。這是一個簡單而巧妙的設計,計算機先是產生一個隨機的字串,然後用程式把這個字串的影象進行隨機的汙染,扭曲,再顯示給顯示器前的人或者機器。凡是能夠辨識這些字元的,即為人類。
故事還沒完,Luis Von Ahn是那種追求完美的科學家。當全世界數以十億計的人每天都會浪費幾秒鐘的時間參與辨認文字這一簡單活動的時候,他開始思考,其中浪費的人腦智力是否能得到更好的應用呢?
驗證碼的故事
最先想要解決這一問題的是雅虎——作為網際網路時代早期最重要的免費郵件提供商,他們一方面要解決使用者們每天遇到的數以百計的垃圾郵件轟炸,另一方面,他們自己的免費郵箱,恰恰又是垃圾郵件的最愛——耗費無數資源所阻止的垃圾郵件,都來自於自己的伺服器。這讓雅虎開始認真考慮如何解決人機辨識問題。
網際網路最早出現的capthca
他們找到一位當時剛剛21歲的天才——Luis von Ahn。 而Luis Von Ahn給出的方案,就是這個讓人民群眾微微皺眉,但是讓計算機聳肩撓頭的驗證碼 Capcha。計算機辨識技術還很落後,對於經過扭曲、汙染的文字,無法辨識。而人類卻可以輕鬆認出這些文字。這是一個簡單而巧妙的設計,計算機先是產生一個隨機的字串,然後用程式把這個字串的影象進行隨機的汙染,扭曲,再顯示給顯示器前的人或者機器。凡是能夠辨識這些字元的,即為人類。
故事還沒完,Luis Von Ahn是那種追求完美的科學家。當全世界數以十億計的人每天都會浪費幾秒鐘的時間參與辨認文字這一簡單活動的時候,他開始思考,其中浪費的人腦智力是否能得到更好的應用呢?
Luis Von Ahn的最終設計是,讓人們用這些腦力解決一些計算機無法解決的圖書數字化。
在計算機時代以前,印刷術已經存在了數百年,但這些印刷術所產生的書本和報紙等等,對於計算機來說都是模擬訊號,僅以影象的形式存在,而非以數字化的形式存在。但是,早期的印刷術並不精確,文字大小不一,形象有差別。而且因為印刷品年代久遠,擁有各種細微的缺損和汙染。這對人眼來說不是什麼大問題,但對計算機來說就麻煩了。
目前在google、yahoo、youtube等各個網站都能看到的雙capcha,一個是需要辨認的文件影象,一個是計算機生成的capcha
因此,2002年,luis Von Ahn開始讓capcha引用各種無法被計算機辨識的文字影象,目前,已經有上萬網站採用他的新一代capcha。每天幫助辨識數以百萬計的古老文件。
問題在於,對於最初的capcha來說,計算機實際上是知道答案的。而Luis希望人們辨識的文字,計算機實際上是不知道答案的,那如何能驗證返回的答案到底是不是真的呢?
解決這個問題的方法依然體現了Luis一貫的簡潔和優美,他讓人們每次辨識兩個,而非一個capcha,其中一個來自於計算機隨機生成的字串,而另一個則是從文件中選取的計算機不認識的字元影象。只要人們對前一個字串給出的答案是正確的,那麼就判定,人們對後一個capcha的辨識是正確的。
用這一方法,luis的capcha2.0 已經幫助完成了整個紐約時報130年的報紙存檔數字化——這一本可能花費無數時間和資源的工程,在幾個月之內就由各位網友們完成了。
當然,這是美華人在capcha中找到的人肉商機。而相對的,知道華人和印度人怎麼從capcha中尋找人肉商機嗎?
簡單來說,透過一系列程式轉換,亞洲勞動密集型產業把各種垃圾郵件註冊、電子遊戲金幣農民所需要解決的capcha辨認問題,集中給幾個專門負責辨認capcha的人手裡,這些人的工作就是,替垃圾郵件註冊軟體辨認capcha,一遍他們能冒充人類,每辨認一個獲得半個盧比,每天需要辨認成千上萬個capcha。
勞動密集型經濟體和資本密集型經濟體對人類腦力就是如此區別定價的。