我們在網站上經常會看到一些奇怪扭曲的字母和數字驗證碼,
雖然大家都知道這是為了防止機器人腳本的方式,可是相信沒有人會喜歡這樣的東西吧!
不過其實你又是否知道,如今這些驗證碼如:
填寫方塊中的文字、挑出路牌、門牌等等任務,
除了證明自己是個真人之外,還有著其他的功能,
能夠在不知不覺中會構成強大的計算能力!
▼相信許多時候人在使用Google服務時都會遇到類似的驗證題目,
其實這些驗證方式還有另一種功能:幫忙訓練AI!
其實這樣的說法並不是異想天開,其實早在多年前我們還在使用文字驗證碼時,
這種「義務勞動」早就在不知不覺中進行了。
如今應用層面最廣泛的驗證碼系統是 reCAPTCHA
(Completely Automated Public Turing Test To Tell Computers and Humans Apart,
區分人機的全自動圖靈測試系統),
如今這家公司已經被Google所收購,也承擔了世界上大部分網站的驗證工作。
▼在2007年時有一個急需解決的問題,那就是將人類所有紙本典籍都數位化。
可是如果使用手工方式來輸入,不僅耗時耗力,還容易出現錯誤;
使用掃描和光學文字辨識系統的話,
有些年代較為久遠或者印刷品質比較差的作品就無法完全辨識,
於是發明 reCAPTCHA 驗證碼的卡內基梅隆大學教授路易斯·馮·安(Luis von Ahn)
在當時突然有了一個想法:
「能不能利用驗證碼系統,讓人類和機器共同解決問題呢?」
為了解決這個問題,路易斯在2007年推出了驗證碼系統 reCAPTCHA ,
剛開始是由兩個部分組成,
第一部分是自動生成並且經過變形處理的文字,
第二部分則是從無法辨識的文本中截取出來的詞。
如果使用者正確輸入了第一部分,系統會假設使用者第二部分的輸入也是正確的,
把輸入結果返回至 reCAPTCHA 的專案主機,
之後還會把這個結果再派發給多個用戶進行交叉驗證,
以確保沒有不小心或故意輸錯單字的情況。
▼使用了這個方式後,透過掃描無法辨識的字體有了解決方法,
在2007年reCAPTCHA 每天都能幫助輸入3000 萬個字元,
到了2008年後字元數目提高到了6000萬個,
根據粗略的猜想,如今reCAPTCHA每天都能夠登錄2億個字元,
相當於一個人類15萬小時的工作量,
一個人要不吃不喝不睡兩年半才能完成 reCAPTCHA 一天的工作量。
2009年,Google將 reCAPTCHA 收購,並利用其功能來幫忙標註數據。
到了2012年,Google開始將Google街景當中
難以辨識的路牌、門牌、車牌等圖片加入驗證碼當中,讓用戶來幫忙標註。
在經過全球用戶的無償幫助下,
如今Google AI 已經能精確辨認路牌上的文字和數字,準確度幾乎和人眼不相上下。
▼如果有一天Google真的開發出了自己的自動駕駛技術,
其AI用來辨識路牌、門牌的方式就是靠著我們這些用戶訓練出來的。
而Google 也並不避諱這個目的,
在reCAPTCHA 的官網上Google也已經公開說明
這是一種集眾人之力標註數據、訓練 AI 的「群眾外包」模式。
原來我們在網路上看到的許多奇怪文字、圖像等等,
都是為了訓練AI無法辨識的狀況而出現的,
全球的使用者都在無償的為AI進行「特訓」,難怪如今的辨識系統會越來越強大了!
來源:網路資料