15年來,你一直在為谷歌訓練AI——只是你從不知道

文章揭露了reCAPTCHA的真相:使用者在點擊驗證時,實際上在為谷歌的AI系統免費標註訓練數據。這一過程持續15年,涉及全球數億使用者,未獲同意或報酬。核心點包括:

  • reCAPTCHA從驗證工具變為數據標註工具,用於訓練谷歌地圖和Waymo的視覺識別能力。
  • 使用者標註的交通燈、人行橫道等圖片來自谷歌街景,幫助AI學習真實世界物體。
  • 規模龐大:每天2億次驗證,50萬小時免費勞動,價值每天500萬美元。
  • 這些數據支撐了估值450億美元的Waymo自動駕駛技術。
  • 最新版本v3通過分析使用者行為收集數據,繼續隱式利用。
  • 諷刺點:使用者通過做AI無法完成的工作證明自己是人類,卻幫助AI變得可替代自己。
總結
每次你在網頁上點擊"識別交通燈"或"選出所有人行橫道",你以為自己只是在證明自己不是機器人。但事實上,你是在為Google的AI系統免費標註訓練資料。這件事持續了超過15年,涉及全球數億用戶,最終構建了谷歌地圖的視覺識別能力,以及如今估值高達450億美元的自動駕駛公司Waymo 。整個過程中,沒有人徵求過你的同意,沒有人告訴你真相,更沒有人給你一分報酬
原文: @sharbel
編譯:大鉗子| PANews 龍蝦

50萬小時的免費人工勞動。每天如此。由那些以為自己只是在登入銀行帳戶的人貢獻的。

reCAPTCHA是網路史上最成功的隱形資料收割行動。鼎盛時期每天有2億人在完成它的驗證。其中幾乎沒有人知道自己究竟在建造什麼。

Waymo——Google旗下的自動駕駛汽車公司——如今估值450億美元。它有相當一部分關鍵訓練資料來自你。免費的。來自你造訪過的每一個網站。

以下是完整的故事。

起點:一個聰明的點子

2000年,垃圾郵件機器人正在摧毀整個網路。論壇被灌水淹沒,信箱不堪負荷。網站迫切需要一種將人類與機器區分開來的方法。

卡內基美隆大學教授路易斯·馮·安解決了這個問題。他發明了CAPTCHA:一種只有人類才能被解讀的扭曲文字。機器人無法通過,人類則可以。

但馮安看到了更多的可能性。數以百萬計的人正在將認知精力耗費在這些驗證上。如果這種精力可以同時做兩件事呢?

2007年,他推出了reCAPTCHA。其中的妙招在於:它展示的不是隨機的亂碼,而是兩個字。其中一個系統已知,另一個則來自電腦尚無法辨識的真實掃描書籍。你的回答幫助完成了數位化工作。

這些書來自《紐約時報》檔案庫,也來自Google圖書──涉及多達1.3億冊圖書。

你以為自己在登錄,實際上你在為世界上最大的數位圖書館做OCR(光學字元辨識)。

2009年,Google收購了reCAPTCHA。

影像

Google改變了遊戲規則

扭曲文字的時代在2012年前後終結。

谷歌面臨了一個新問題。街景拍攝車正在拍攝地球上的每一條路,但照片只是原始數據。要讓AI真正有用,它需要理解自己"看到"的內容:路牌、人行橫道、交通信號燈、店面招牌。

於是Google重新設計了reCAPTCHA v2。驗證內容從扭曲文字變成了圖片網格:"點擊所有包含交通號誌的方格。" "選出每一處人行橫道。" "識別店面招牌。"

這些圖片直接來自Google街景。

而你的每一次點擊就是標註。你的每一次選擇都在告訴Google的電腦視覺模型:這個像素塊是交通號誌燈,這個形狀是人行橫道。

你不是在通過測試,你是在建立資料集。

影像

沒有人談論的規模

鼎盛時期,每天有2億次reCAPTCHA被完成。

每次驗證約10秒,這意味著每天有20億秒的人工勞動──換算下來,每天50萬小時

專業數據標註的市場價格為每小時10至50美元。以最低價計算:每天被免費提取的勞動價值高達500萬美元。

而且reCAPTCHA並不只存在於某一個應用程式上,它遍布每一家銀行、每一個政府入口網站、每個電商平台、網路上的每一個登入頁面。你別無選擇。想存取你的帳戶?先標註資料集。

谷歌從未徵詢你的意見,從未向你付費,甚至從未告訴你這件事。

影像

這一切都建構了什麼

這些數據直接輸送給了兩款產品。

谷歌地圖。全球使用最廣泛的導航工具。它識讀路牌、定位商家、理解城市地理的能力,部分正是建立在那些試圖登入網站的人貢獻的數十億次人工標註之上。

還有Waymo。

Waymo是Google的自動駕駛汽車項目,2016年獨立成為子公司。為了安全導航,自動駕駛汽車需要以接近完美的準確率識別數千種視覺模式:交通號誌、行人穿越道、行人、停車標誌。

這些辨識能力所需的真實訓練資料?由數以百萬計的人透過reCAPTCHA完成標註——他們對此毫不知情。

2024年,Waymo完成了逾400萬次付費出行,目前營運於舊金山、洛杉磯和鳳凰城,且仍在持續擴張。其估值為450億美元

而這棟大廈的地基,是由那些只想收發電子郵件的免費網路使用者所建造的。

為什麼沒有人能複製這一切

數據標註成本高。 Scale AI、Appen、Labelbox等公司存在的唯一意義就是解決這個問題。它們僱用了數十萬名工人來標註圖像,有時每小時報酬不足一美元。

谷歌用一種截然不同的方式解決了這個問題:他們把標註變成了強制性的。不給報酬,不需同意,而是作為進入網路上每個網站的"入場費"。

結果:數十億張已標註影像,涵蓋全球,涵蓋各種天氣條件、各個時段、地球上的每個城市。

沒有任何標註公司能夠做到這一點。網路本身就是那座工廠,而每一個身處其中的人都是從未簽過合約的員工。

影像

你今天還在做的事

2018年推出的reCAPTCHA v3根本不會向你展示任何驗證挑戰。它觀察的是你移動滑鼠的方式、滾動頁面的方式、懸停的時長。你的行為指紋告訴它你是否是人類。

這些行為數據同樣被回饋給Google的AI系統。

你從未主動選擇加入,從來沒有一個複選框供你勾選。此刻,在你造訪的大多數網站上,你仍然在這樣做。

一個令所有人都該深思的諷刺

路易斯·馮·安最初的構想是天才之舉:將人類原本就耗費在垃圾過濾上的認知精力,重新導向某件有價值的事情——將世界上的書籍數位化,解決一個真實存在的問題。

而谷歌對這個構想的運用,又是另一回事。

他們拿走了一個用戶別無選擇、只能使用的安全機制,將其部署到整個互聯網,並收割輸出成果,建構起價值數百億美元的商業產品。

用戶什麼都沒有得到,甚至連知情權都沒有。

最深的諷刺在於:你花了多年時間證明自己是人類——方式是做那種AI當時還無法完成的視覺辨識工作。而當這項工作一旦被AI學會,人類的視覺標註就變得多餘了。

你證明了自己是人類,方式是讓自己變得可被取代。

資料來源:卡內基美隆大學、Google部落格(2009年)、WebProNews、MakeUseOf、MIT技術評論、Waymo公開揭露文件。

分享至:

作者:大钳子

本文為PANews入駐專欄作者的觀點,不代表PANews立場,不承擔法律責任。

文章及觀點也不構成投資意見

圖片來源:大钳子如有侵權,請聯絡作者刪除。

關注PANews官方賬號,一起穿越牛熊