IOSG:加密技術如何成為瀏覽器代理人勝負關鍵手?

  • AI瀏覽器代理崛起:過去12個月,大型科技公司(如OpenAI、Anthropic、Google等)競相開發能自主操作網頁的瀏覽器代理程式,目標是自動化複雜的線上任務(如填表、購物、安排會議),釋放生產力與經濟價值。

  • 代表性產品

    • OpenAI Agent模式:處理重複性任務(如訂購雜貨、安排會議),透過標準網頁介面執行。
    • Anthropic Claude「電腦使用」功能:模擬人類操作瀏覽器,自動化多步驟工作流程。
    • Perplexity Comet瀏覽器:整合對話式AI搜尋與側邊欄代理,跨網站執行日常任務(如郵件總結、標籤管理)。
  • 應用場景

    • 電商與旅行:代理可自動比價、完成結帳,或預訂符合條件的航班與酒店。
    • 辦公室效率:自動化HR招募、CRM更新、跨系統工作流程(如新員工入職作業)。
  • 挑戰與限制

    • Web2敵對環境:反爬蟲機制(如CAPTCHA、行為分析)阻礙代理操作,成功率低。
    • 信任與安全:需存取敏感資訊(如登入憑證),現有系統多採保守策略(如人工接管關鍵步驟)。
  • 解決方案與機遇

    • 原生代理型瀏覽器(如Donut):深度整合區塊鏈,繞過Web2摩擦點,優化鏈上操作。
    • 可驗證執行(如Phala Network):透過TEE或ZKPs確保代理行為安全可信。
    • 分散式資料網絡(如Grass):利用真實瀏覽環境代理流量,避免封鎖。
    • 代理友好標準:未來可能出現「Agent Allowed」標籤或W3C標準,為代理提供合法存取通道。
  • 未來展望:代理技術將持續優化,但在Web2與Web3環境的採用速度不均,DeFi等開放生態可能率先普及。競爭關鍵在於導航能力、安全性與實際價值體現。

總結

作者|Mario Chow & Figo @IOSG

引言

過去12 個月,網頁瀏覽器與自動化的關係發生了劇烈變化。幾乎所有大型科技公司都在爭相建構自主的瀏覽器代理程式(browser agent)。從2024 年底開始這一趨勢愈發明顯:OpenAI 在1 月推出了Agent 模式,Anthropic 為Claude 模型發布了「電腦使用」功能,Google DeepMind 推出了Project Mariner,Opera 宣布了代理型瀏覽器Neon,而Perplexity AI 則推出了Comet 瀏覽器。訊號十分明確:AI 的未來在於能夠自主導航網頁的代理。

這一趨勢並非只是為瀏覽器加上更聰明的聊天機器人,而是機器與數位環境互動方式的根本轉變。瀏覽器代理程式是一類能夠「看」網頁並採取行動的AI 系統:點擊連結、填寫表單、捲動頁面、輸入文字:就像人類使用者一樣。這種模式承諾將釋放巨大的生產力和經濟價值,因為它能自動化那些目前仍需要人工操作,或傳統腳本過於複雜而無法完成的任務。

 ▲ GIF 示範:AI 瀏覽器代理程式的實際操作:遵循指令,導覽至目標資料集頁面,自動截圖並擷取所需資料。

誰將贏得AI 瀏覽器之戰?

幾乎所有大型科技公司(以及一些新創公司)都在開發各自的瀏覽器AI 代理方案。以下是最具代表性的幾個項目:

OpenAI – Agent 模式

OpenAI 的Agent 模式(前身名為Operator,2025 年1 月推出)是一種自帶瀏覽器的AI 代理程式。 Operator 能夠處理各種重複性的線上任務:例如填寫網頁表單、訂購雜貨、安排會議:全部透過人類常用的標準網頁介面完成。

 ▲ AI 代理商像專業助理一樣安排會議:檢查日曆、尋找可用時段、建立活動、發送確認,並為你產生.ics檔案。

Anthropic – Claude 的“Computer Use”

2024 年底,Anthropic 為Claude 3.5 引進了全新的「Computer Use(電腦使用)」 功能,賦予了其像人一樣操作電腦和瀏覽器的能力。 Claude 可以看螢幕、移動遊標、點擊按鈕、輸入文字。這是首個同類的大模型代理工具進入公開測試版,開發者可以讓Claude 自動導航網站和應用程式。 Anthropic 將其定位為實驗性功能,主要目標是實現網頁上的多步驟工作流程自動化。

Perplexity – Comet

AI 新創公司Perplexity(以問答引擎聞名)在2025 年中期推出了Comet 瀏覽器,作為Chrome 的AI 驅動替代品。 Comet 的核心是內建在網址列(omnibox)中的對話式AI 搜尋引擎,能夠提供即時問答和摘要,而不是傳統的搜尋連結。

  • 此外,Comet 還內建Comet Assistant,這是一個駐留在側邊欄的代理,可以跨網站自動執行日常任務。例如,它可以總結你打開的郵件、安排會議、管理瀏覽器標籤頁,或代表你瀏覽並抓取網頁資訊。

  • 透過側邊欄介面讓代理程式感知當前網頁內容,Comet 旨在將瀏覽與AI 助理無縫融合。

瀏覽器代理程式的真實應用場景

在前文中,我們已經回顧了各大科技公司(OpenAI、Anthropic、Perplexity 等)如何透過不同的產品形態為瀏覽器代理程式(browser agents)注入功能。為了更直觀地理解它們的價值,我們可以進一步看看在真實場景中,這些能力如何被應用到日常生活和企業工作流程中。

日常網頁自動化

#電商與個人購物

一個非常實用的場景是將購物與預訂任務委託給代理商。代理商可以根據固定清單自動填入你的線上購物車並下單,也可以在多個零售商之間尋找最低價,並代你完成結帳流程。

對於旅行,你可以讓AI 執行這樣的任務:「幫我預訂下個月去東京的航班(票價低於800 美元),再訂一家有免費Wi-Fi 的酒店。」代理會處理整個流程:搜尋航班、比較選項、填寫乘客資訊、完成酒店預訂,全部透過航空公司與酒店網站完成。這種自動化程度遠遠超越了現有的旅遊機器人:它不僅僅是推薦,而是直接執行購買。

#提升辦公室效率

代理商能夠自動化許多人們在瀏覽器中進行的重複性業務操作。例如,整理電子郵件並提取待辦事項,或在多個日曆中檢查空檔並自動安排會議。 Perplexity 的Comet 助理已經可以透過網頁介面總結你的收件匣內容,或為你增加行程。代理商還可以在獲得你的授權後,登入SaaS 工具產生常規報告、更新電子表格,或提交表單。想像一個HR 代理,能夠自動登入不同的招募網站發布職缺;或一個銷售代理,可以更新CRM 系統的潛在客戶資料。這些日常瑣碎工作本來會耗費大量員工時間,但AI 可以透過自動化網頁表單和頁面操作完成。

除了單一任務,代理還能串連起跨多個網路系統的完整工作流程。所有這些步驟都需要在不同的網頁介面中操作,而這正是browser agent 的強項。代理程式可以登入各種儀表板進行故障排查,甚至編排流程,例如為新員工完成入職作業(在多個SaaS 網站上建立帳號)。本質上,任何目前需要點開多個網站完成的多步驟操作,都可以交由代理執行。

當下的挑戰與限制

儘管潛力巨大,但今天的瀏覽器代理程式距離完美仍有很大差距。目前的實現揭示了一些長期存在的技術和基礎設施難題:

架構不匹配

現代網路是為人類操作的瀏覽器而設計的,並且隨著時間的推移逐漸演變為主動抵禦自動化。數據常常埋藏在為視覺展示優化的HTML/CSS 中,被互動手勢(滑鼠懸停、滑動)所限制,或只能透過未公開的API 存取。

在此基礎上,反爬蟲與反詐騙系統又人為增加了額外屏障。這些工具結合了IP 信譽、瀏覽器指紋、JavaScript 挑戰回饋以及行為分析(例如滑鼠移動的隨機性、打字節奏、停留時間)。矛盾的是,AI 代理表現得越「完美」、效率越高:例如瞬間填表、從不出錯,就越容易被辨識為惡意自動化。這可能導致硬性失敗:例如OpenAI 或Google 的代理可能順利完成結帳前的所有步驟,但最終卻被CAPTCHA 或二次安全過濾攔下。

人類優化的介面與對機器人不友善的防禦層疊加在一起,迫使代理人採取脆弱的「人機模仿」策略。這種方法極易失效,成功率低(如果沒有人工幹預,完整交易的完成率仍不到三分之一)。

信任與安全顧慮

要讓代理程式獲得完全控制,通常需要存取敏感資訊:登入憑證、Cookies、雙因素認證令牌,甚至支付資訊。這帶來了用戶與企業都能理解的擔憂:

  • 如果代理商出錯或被惡意網站欺騙怎麼辦?
  • 如果代理人同意了某個服務條款或執行了某筆交易,誰該負責?

基於這些風險,目前的系統普遍採取謹慎態度:

  • Google 的Mariner 不會輸入信用卡資料或同意服務條款,而是交還給使用者。
  • OpenAI 的Operator 會提示使用者接管登入或CAPTCHA 挑戰。

Anthropic 的Claude 驅動的代理可能直接拒絕登錄,理由是安全考慮。

結果是:AI 與人類之間頻繁的停頓與交接,削弱了無縫自動化的體驗。

儘管存在這些障礙,進展仍在快速推進。 OpenAI、Google、Anthropic 等公司在每一輪迭代中都吸收失敗經驗。隨著需求的增長,很可能會出現一種「共同演化」:網站在有利的場景下變得更友善於代理,而代理也會不斷提升對人類行為的模仿能力,以繞過現有屏障。

方法與機遇

當下的瀏覽器代理正面臨兩種截然不同的現實:一方面是Web2 的敵對環境,反爬蟲與安全防禦無所不在;另一方面是Web3 的開放環境,自動化反而常常受到鼓勵。這種差異決定了各類解決方案的方向。

以下的解決方案大致分為兩類:一類幫助代理繞過Web2 的敵對環境,另一類則是原生於Web3 的方案。

雖然瀏覽器代理面臨的挑戰仍顯著,但新的專案正不斷湧現,試圖直接解決這些問題。加密貨幣與去中心化金融(DeFi)生態正在成為天然的試驗場,因為它開放、可程式化、且對自動化不那麼敵視。開放的API、智能合約與鏈上透明性,消除了許多Web2 世界常見的摩擦點。

以下是四類解決方案,每一類都在應對當下的一項或多項核心限制:

面向鏈上操作的原生代理型瀏覽器

這些瀏覽器從零開始就是為自主代理驅動而設計的,並且與區塊鏈協議深度整合。與傳統的Chrome 瀏覽器不同,後者若要進行鏈上操作自動化需要額外依賴Selenium、Playwright 或錢包插件;而原生代理型瀏覽器則直接給予API 和可信任的執行路徑,供代理呼叫。

在去中心化金融中,交易的有效性依賴的是加密簽名,而不是使用者是否「像人類」。因此在鏈上環境中,代理可以繞過Web2 世界常見的CAPTCHA、詐欺偵測分數和裝置指紋檢查。然而,如果這些瀏覽器指向像Amazon 這樣的Web2 網站,它們並不能繞過相關的防禦機制,在那種場景下仍然會觸發正常的反機器人措施。

代理型瀏覽器的價值並不是能神奇地造訪所有網站,而是:

  • 原生區塊鏈整合:內建錢包與簽章支持,無需再透過MetaMask 彈跳窗或解析dApp 前端的DOM。
  • 自動化優先設計:提供穩定的高層指令,能直接映射為協定操作。
  • 安全模型:精細化的權限控制與沙箱,確保私鑰在自動化過程中安全。
  • 效能最佳化:能夠並行執行多個鏈上調用,而無需瀏覽器渲染或UI 延遲。

#案例:Donut

Donut 將區塊鏈數據與營運視為一等公民進行整合。使用者(或其代理)可以懸停查看代幣的即時風險指標,或直接輸入自然語言指令如“/swap 100 USDC to SOL”。透過跳過Web2 的敵對摩擦點,Donut 讓代理在DeFi 中全速運行,提升流動性、套利與市場效率。

可驗證與可信任的代理執行

讓代理獲得敏感權限風險很大。相關解決方案使用可信任執行環境(TEEs)或零知識證明(ZKPs)來在執行前加密確認代理的預期行為,使用戶與對手方在不暴露私鑰或憑證的前提下驗證代理動作。

#案例:Phala Network

Phala 使用TEEs(如Intel SGX)來隔離與保護執行環境,以避免Phala 運作者或攻擊者窺探或竄改代理邏輯與資料。 TEE 就像一個硬體加持的“安全密室”,保證了保密性(外部無法看到)與完整性(外部無法修改)。

對於瀏覽器代理,這意味著它可以登入、持有會話令牌,或處理支付訊息,而這些敏感資料永遠不會離開安全密室。即便使用者機器、作業系統或網路被攻破,也無法洩漏。這直接緩解了代理應用落地的最大障礙之一:對敏感憑證與操作的信任問題。

去中心化的結構化資料網絡

現代的反機器人檢測系統不僅檢查請求是否“過快”或“自動化”,還會結合IP 信譽、瀏覽器指紋、JavaScript 挑戰反饋與行為分析(例如遊標移動、打字節奏、會話歷史)。那些來自資料中心IP 或完全可重複的瀏覽環境的代理程式很容易被識別。

為了解決這個問題,這類網路不再抓取為人類優化的網頁,而是直接收集並提供機器可讀的數據,或透過真實的人類瀏覽環境代理流量。這種方式繞過了傳統爬蟲在解析與反爬環節的脆弱性,能為代理人提供更乾淨、更可靠的輸入。

透過將代理流量代理到這些真實世界的會話,分散式網路(distribution network)讓AI 代理程式可以像人一樣存取網頁內容,而不會立即觸發封鎖。

#案例

  • Grass:去中心化資料/DePIN 網絡,使用者共享閒置的住宅寬頻,從而為公共網頁資料收集與模型訓練提供代理友好、地理多樣化的存取管道。
  • WootzApp:支援加密貨幣支付的開源行動瀏覽器,帶有後台代理與零知識身分;它將AI/資料任務「遊戲化」推向消費者。
  • Sixpence:分散式瀏覽器網絡,透過全球貢獻者的瀏覽,為AI 代理程式路由流量。

不過這並非完整解決方案。行為偵測(滑鼠/滾動軌跡)、帳戶層級的限制(KYC、帳號年齡)以及指紋一致性檢查依然可能觸發封鎖。因此,分散式網路最好被視為基礎的隱性層,必須與模仿人類的執行策略結合才能發揮最大效果。

面向代理商的網頁標準(前瞻)

目前,越來越多的技術社群和組織正在探索:如果未來網路使用者不僅是人,還有自動化代理(agent),網站該如何安全、合規地與它們打交道?

這推動了一些新興標準和機制的討論,目標是讓網站能夠明確表示“我允許可信代理訪問”,並且提供一個安全的通道來完成交互,而不是像今天這樣默認把代理當作“機器人攻擊”來攔截。

  • 「Agent Allowed」 標籤:就像搜尋引擎遵守的robots.txt 一樣,未來網頁可能會在程式碼中加上一個標籤,告訴瀏覽器代理程式「這裡可以安全存取」。比如說,如果你用代理訂機票,網站就不會彈出一堆驗證碼(CAPTCHA),而是直接提供一個認證後的介面。
  • 認證代理的API 網關:網站可以為經過驗證的代理開放專門的入口,就像「快速通道」一樣。代理不需要模擬人類點擊、輸入,而是走一條更穩定的API 路徑完成下單、付款或資料查詢。
  • W3C 的討論:萬維網聯盟(W3C)已經在研究如何為「受管自動化」制定標準化通道。這意味著,未來我們可能會有一套全球通用的規則,讓可信任代理商能被網站辨識並接納,同時保持安全和可追責。

雖然這些探索都還在早期,但一旦落地,就可能大幅改善人類↔代理↔網站之間的關係。想像一下:不再需要代理拼命模仿人類滑鼠移動來「騙過」風控,而是光明正大地透過一個「官方允許」的通道完成任務。

在這條路線上,加密原生的基礎架構可能會率先起步。因為鏈上應用天生就依賴開放API 和智慧合約,對自動化是友善的。相較之下,傳統Web2 平台也可能繼續謹慎防守,尤其是依賴廣告或反詐騙系統的公司。但隨著使用者和企業逐漸接受自動化帶來的效率提升,這些標準化嘗試很可能會成為推動整個網路邁向「代理優先架構」的關鍵催化劑。

結論

瀏覽器代理程式正在從最初的簡單對話工具,演化成能夠完成複雜線上工作流程的自主系統。這項轉變反映了一個更廣泛的趨勢:將自動化直接嵌入使用者與網路互動的核心介面中。雖然生產力提升的潛力巨大,但挑戰同樣嚴峻,包括如何突破根深蒂固的反機器人機制,以及如何確保安全性、信任與負責任的使用方式。

在短期內,代理的推理能力提升、速度更快、與現有服務的更緊密整合,以及分散式網路的進步,可能會逐步提高可靠性。從長期來看,我們或許會在那些自動化對服務提供方與用戶雙方都有利的場景中,看到「代理友好」標準的逐步落地。不過,這個轉變將不會是均勻的:在如DeFi 這樣的自動化友善環境中,採用速度會更快;而在嚴重依賴使用者互動控制的Web2 平台,接受程度會更慢。

未來,科技公司的競爭將越來越集中在以下幾個方面:其代理商在現實世界限制下的導航能力如何、能否安全地整合到關鍵工作流程中,以及能否在多樣化的線上環境中穩定交付結果。至於這一切是否最終會重塑“瀏覽器之戰”,取決的並非單純的技術實力,而是能否建立信任、對齊激勵,並在日常使用中展現出切實的價值。

分享至:

作者:IOSG

本文為PANews入駐專欄作者的觀點,不代表PANews立場,不承擔法律責任。

文章及觀點也不構成投資意見

圖片來源:IOSG如有侵權,請聯絡作者刪除。

關注PANews官方賬號,一起穿越牛熊
推薦閱讀
2小時前
4小時前
5小時前
6小時前
6小時前
6小時前

熱門文章

行業要聞
市場熱點
精選讀物

精選專題

App内阅读