全新的繁體中文 WordPress 網站

新聞

驗證圖根本不是在辨識機器人 每點一次其實是「幫Google訓練AI」

我們在網站上經常會看到一些奇怪扭曲的字母和數字驗證碼,

雖然大家都知道這是為了防止機器人腳本的方式,可是相信沒有人會喜歡這樣的東西吧!

不過其實你又是否知道,如今這些驗證碼如:

填寫方塊中的文字、挑出路牌、門牌等等任務,

除了證明自己是個真人之外,還有著其他的功能,

能夠在不知不覺中會構成強大的計算能力!

▼相信許多時候人在使用Google服務時都會遇到類似的驗證題目,

其實這些驗證方式還有另一種功能:幫忙訓練AI!

其實這樣的說法並不是異想天開,其實早在多年前我們還在使用文字驗證碼時,

這種「義務勞動」早就在不知不覺中進行了。

驗證圖根本不是在辨識機器人 每點一次其實是「幫Google訓練AI」娛樂城

如今應用層面最廣泛的驗證碼系統是 reCAPTCHA

(Completely Automated Public Turing Test To Tell Computers and Humans Apart,

區分人機的全自動圖靈測試系統),

如今這家公司已經被Google所收購,也承擔了世界上大部分網站的驗證工作。

▼在2007年時有一個急需解決的問題,那就是將人類所有紙本典籍都數位化。

可是如果使用手工方式來輸入,不僅耗時耗力,還容易出現錯誤;

使用掃描和光學文字辨識系統的話,

有些年代較為久遠或者印刷品質比較差的作品就無法完全辨識,

於是發明 reCAPTCHA 驗證碼的卡內基梅隆大學教授路易斯·馮·安(Luis von Ahn)

在當時突然有了一個想法:

「能不能利用驗證碼系統,讓人類和機器共同解決問題呢?」

驗證圖根本不是在辨識機器人 每點一次其實是「幫Google訓練AI」

為了解決這個問題,路易斯在2007年推出了驗證碼系統 reCAPTCHA ,

剛開始是由兩個部分組成,

第一部分是自動生成並且經過變形處理的文字,

第二部分則是從無法辨識的文本中截取出來的詞。

如果使用者正確輸入了第一部分,系統會假設使用者第二部分的輸入也是正確的,

把輸入結果返回至 reCAPTCHA 的專案主機,

之後還會把這個結果再派發給多個用戶進行交叉驗證,

以確保沒有不小心或故意輸錯單字的情況。

▼使用了這個方式後,透過掃描無法辨識的字體有了解決方法,

在2007年reCAPTCHA 每天都能幫助輸入3000 萬個字元,

到了2008年後字元數目提高到了6000萬個,

根據粗略的猜想,如今reCAPTCHA每天都能夠登錄2億個字元,

相當於一個人類15萬小時的工作量,

一個人要不吃不喝不睡兩年半才能完成 reCAPTCHA 一天的工作量。

驗證圖根本不是在辨識機器人 每點一次其實是「幫Google訓練AI」

2009年,Google將 reCAPTCHA 收購,並利用其功能來幫忙標註數據。

到了2012年,Google開始將Google街景當中

難以辨識的路牌、門牌、車牌等圖片加入驗證碼當中,讓用戶來幫忙標註。

在經過全球用戶的無償幫助下,

如今Google AI 已經能精確辨認路牌上的文字和數字,準確度幾乎和人眼不相上下。

▼如果有一天Google真的開發出了自己的自動駕駛技術,

其AI用來辨識路牌、門牌的方式就是靠著我們這些用戶訓練出來的。

而Google 也並不避諱這個目的,

在reCAPTCHA 的官網上Google也已經公開說明

這是一種集眾人之力標註數據、訓練 AI 的「群眾外包」模式。

驗證圖根本不是在辨識機器人 每點一次其實是「幫Google訓練AI」

原來我們在網路上看到的許多奇怪文字、圖像等等,

都是為了訓練AI無法辨識的狀況而出現的,

全球的使用者都在無償的為AI進行「特訓」,難怪如今的辨識系統會越來越強大了!

來源:網路資料