IOSG: 暗号化テクノロジーは、ブラウザ プロキシの成功または失敗の鍵となるのでしょうか?

  • ブラウザエージェントの台頭: 主要テック企業(OpenAI、Anthropic、Google DeepMindなど)が自律型ブラウザエージェントを開発中。AIがウェブ操作(クリック、フォーム入力など)を人間のように実行可能にし、生産性向上を約束。

  • 代表的なプロジェクト例:

    • OpenAI「エージェントモード」: オンライン注文や会議スケジュールを自動化。
    • Anthropic「Claudeのコンピュータ使用」: ブラウザ操作を人間のように模倣。
    • Perplexity「Cometブラウザ」: AI検索エンジン統合でタスク自動化(メール要約、タブ管理など)。
  • 実用シナリオ:

    • Eコマース: 商品検索・注文の自動化。
    • 業務効率化: メール整理、スケジュール調整、SaaS操作の自動実行。
  • 課題:

    • Web2の障壁: CAPTCHAや行動分析によるボット対策が自動化を阻害。
    • セキュリティ懸念: 機密情報アクセス時の信頼性や責任問題。
    • アーキテクチャ制約: 人間向け設計のウェブインターフェースがエージェントに不向き。
  • 解決策の方向性:

    • Web3活用: オープンAPIやスマートコントラクトを利用した自動化(例: DeFiでの取引最適化)。
    • 分散型ネットワーク: 人間の閲覧環境を模倣したデータ収集(Grass、WootzAppなど)。
    • 新規標準提案: W3Cによる「エージェント許可」タグやAPIゲートウェイの検討。
  • 展望: 短期的には技術改良で信頼性向上、長期的には業界標準化でエージェントフレンドリーな環境構築が期待。Web2とWeb3のギャップが課題として残る。

要約

Mario Chow & Figo @IOSGによる

導入

過去12ヶ月間で、ウェブブラウザと自動化の関係は劇的に変化しました。ほぼすべての大手テクノロジー企業が、自律型ブラウザエージェントの構築に奔走しています。この傾向は2024年末以降、さらに強まっています。OpenAIは1月にエージェントモードをリリースし、AnthropicはClaudeモデルの「コンピュータ使用状況」機能をリリースしました。Google DeepMindはProject Marinerを立ち上げ、OperaはエージェントベースブラウザNeonを発表し、Perplexity AIはCometブラウザをリリースしました。AIの未来は、ウェブを自律的にナビゲートできるエージェントにあるという明確なシグナルが示されています。

このトレンドは、単にブラウザにスマートなチャットボットを追加するだけではありません。機械がデジタル環境とインタラクションする方法を根本的に変えるものです。ブラウザエージェントは、ウェブページを「見て」、リンクをクリックしたり、フォームに入力したり、スクロールしたり、テキストを入力したりといったアクションを人間のユーザーと同じように実行できるAIシステムです。このモデルは、現在手作業による介入が必要なタスクや、従来のスクリプトでは複雑すぎるタスクを自動化することで、生産性と経済価値の飛躍的な向上を約束します。

 ▲ GIF デモンストレーション:AI ブラウザ エージェントの実際の操作:指示に従って対象のデータセット ページに移動し、自動的にスクリーンショットを撮り、必要なデータを抽出します。

AIブラウザ戦争に勝つのは誰か?

ほぼすべての大手テクノロジー企業(および一部のスタートアップ企業)が独自のブラウザAIエージェントを開発しています。代表的なプロジェクトをいくつかご紹介します。

OpenAI – エージェントモード

OpenAIのAgentモード(旧称Operator、2025年1月にリリース)は、独自のブラウザを備えたAIエージェントです。Operatorは、Webフォームへの入力、食料品の注文、会議のスケジュール設定など、人間が一般的に使用する標準的なWebインターフェースを通じて、様々な反復的なオンラインタスクを処理できます。

 AI エージェントはプロのアシスタントのように会議をスケジュールします。カレンダーをチェックし、利用可能な時間枠を見つけ、イベントを作成し、確認を送信し、.ics ファイルを生成します。

人類学的 - クロードによる「コンピュータの使用」

2024年末、AnthropicはClaude 3.5に新機能「コンピュータ使用」を導入しました。これにより、Claudeは人間のようにコンピュータやブラウザを操作できるようになります。Claudeは画面の表示、カーソルの移動、ボタンのクリック、テキスト入力が可能です。これは、この種の大規模プロキシツールとしては初となるパブリックベータ版であり、開発者はClaudeがウェブサイトやアプリケーションを自動的にナビゲートできるようにすることができます。Anthropicはこれを実験的な機能と位置付けており、主にウェブ上の複数ステップのワークフローの自動化を目指しています。

困惑 – 彗星

AIスタートアップ企業Perplexity(質問応答エンジンで知られる)は、2025年半ばにChromeに代わるAI搭載ブラウザとしてCometブラウザをリリースしました。Cometの中核は、アドレスバー(オムニボックス)に組み込まれた会話型AI検索エンジンで、従来の検索リンクの代わりに、質問と回答、そして概要を即座に提供できます。

  • さらに、CometにはComet Assistantというサイドバー常駐エージェントが付属しており、ウェブサイト全体の定型的なタスクを自動化します。例えば、開いているメールの要約、会議のスケジュール設定、ブラウザのタブの管理、Webの閲覧とクロールなどが可能です。

  • Comet は、サイドバー インターフェースを通じてエージェントに現在の Web ページのコンテンツを認識させることで、ブラウジングと AI アシスタントをシームレスに統合することを目指しています。

ブラウザプロキシの実際のアプリケーションシナリオ

先ほど、OpenAI、Anthropic、Perplexityなどの大手テクノロジー企業が、様々な製品形態を通じてブラウザエージェントに機能を組み込んできた様子を見てきました。その価値をより深く理解するために、日常生活と企業のワークフローの両方において、これらの機能が実際のシナリオでどのように適用されているかを見てみましょう。

毎日のウェブ自動化

#Eコマースとパーソナルショッピング

非常に実用的なシナリオの一つとして、ショッピングと注文のタスクをエージェントに委託することが挙げられます。エージェントは、オンラインショッピングカートに商品を自動的に追加し、固定リストに基づいて注文を確定したり、複数の小売業者から最安値を検索して、お客様に代わってチェックアウト手続きを完了したりすることができます。

旅行の場合、「来月東京行きの航空券を800ドル以下で、無料Wi-Fi付きのホテルを予約してほしい」といったタスクをAIに依頼できます。エージェントは、航空会社とホテルのウェブサイトを通じて、航空券の検索、選択肢の比較、乗客情報の入力、ホテル予約の完了まで、すべてのプロセスを処理します。このレベルの自動化は、既存の旅行ボットをはるかに超えています。単におすすめを提示するだけでなく、購入手続きまで直接実行します。

#オフィスの効率を向上

エージェントは、ブラウザ上で人が行う多くの反復的な業務操作を自動化できます。例えば、メールの整理やToDo項目の抽出、複数のカレンダーの空き状況の確認、会議の自動スケジュール設定などです。PerplexityのCometアシスタントは、Webインターフェースを介して受信トレイの内容を要約したり、スケジュールを追加したりすることができます。また、ユーザーの許可があれば、エージェントはSaaSツールにログインして定期レポートを生成したり、スプレッドシートを更新したり、フォームを送信したりすることもできます。人事担当者がさまざまな求人サイトに自動的にログインして求人情報を掲載したり、営業担当者がCRMシステムのリードデータを更新したりすることを想像してみてください。これらの日常的な些細な作業は、従業員の多くの時間を消費していましたが、AIはWebフォームやページ操作を自動化することで、これらの作業を完了することができます。

エージェントは、単一のタスクだけでなく、複数のネットワーク化されたシステムにまたがるワークフロー全体をオーケストレーションできます。これらの各ステップはそれぞれ異なるWebインターフェースへのアクセスを必要としますが、まさにブラウザエージェントが得意とするところです。エージェントは、トラブルシューティングのために様々なダッシュボードにログインしたり、新入社員のオンボーディング(複数のSaaSウェブサイトにアカウントを作成する)といったプロセスをオーケストレーションしたりすることも可能です。つまり、現在複数のウェブサイトにアクセスする必要があるような複数ステップのプロセスは、エージェントが実行できるようになります。

現在の課題と限界

今日のブラウザプロキシは大きな可能性を秘めているにもかかわらず、まだ完璧には程遠い。現在の実装には、長年にわたる技術的およびインフラストラクチャ上の課題がいくつかあることが明らかになっている。

アーキテクチャの不一致

現代のウェブは人間が操作するブラウザ向けに設計されており、時間の経過とともに自動化を積極的に拒絶するように進化してきました。データは、視覚的な表現に最適化されたHTML/CSSに埋め込まれたり、マウスオーバーやスワイプといった操作に制限されたり、ドキュメント化されていないAPI経由でしかアクセスできなかったりすることがよくあります。

これに加えて、スクレイピング対策や不正行為対策システムは、人為的に追加の障壁を設けています。これらのツールは、IPレピュテーション、ブラウザフィンガープリンティング、JavaScriptチャレンジレスポンス、行動分析(マウスの動きのランダム性、入力リズム、滞在時間など)を組み合わせています。逆説的ですが、AIエージェントが「完璧」で効率的に見えるほど(例えば、フォームに瞬時にエラーなく入力するなど)、悪意のある自動化として識別されやすくなります。これは重大な失敗につながる可能性があります。例えば、OpenAIやGoogleのエージェントは、チェックアウト前のすべての手順を正常に完了したとしても、CAPTCHAや二次セキュリティフィルターによって阻止されてしまう可能性があります。

人間向けに最適化されたインターフェースとボットに不向きな防御層の組み合わせにより、エージェントは脆弱な「人間ロボット模倣」戦略を採用せざるを得なくなります。この戦略は失敗しやすく、成功率も低くなります (完了したトランザクションの 3 分の 1 未満が人間の介入なしに完了します)。

信頼とセキュリティに関する懸念

エージェントが完全な制御権を得るには、ログイン認証情報、Cookie、2要素認証トークン、さらには支払い情報といった機密情報へのアクセスが必要になることがよくあります。これは、ユーザーと企業の両方にとって当然の懸念を引き起こします。

  • プロキシがミスをしたり、悪意のある Web サイトに騙されたりしたらどうなるでしょうか?
  • エージェントが特定の利用規約に同意したり、特定の取引を実行したりする場合、誰が責任を負うのでしょうか?

これらのリスクに基づき、現在のシステムでは一般的に慎重なアプローチを採用しています。

  • Google の Mariner は、クレジットカード情報を入力したり利用規約に同意したりする代わりに、それをユーザーに返します。
  • OpenAI の Operator は、ユーザーにログインまたは CAPTCHA チャレンジを実行するよう促します。

Anthropic の Claude 駆動型エージェントは、セキュリティ上の懸念を理由に、ログインを単純に拒否する場合があります。

その結果、AI と人間の間で頻繁に一時停止や引き継ぎが発生し、シームレスな自動化のエクスペリエンスが損なわれます。

こうした障害にもかかわらず、進歩は急速に進んでいます。OpenAI、Google、Anthropicといった企業は、それぞれのイテレーションで失敗から学んでいます。需要が高まるにつれて、ある種の「共進化」が起こる可能性が高くなります。つまり、好ましいシナリオにおいてはウェブサイトがエージェントにとってよりフレンドリーになり、エージェントは既存の障壁を回避しながら人間の行動を模倣する能力を向上させ続けるでしょう。

方法と機会

今日のブラウザプロキシは、2つの異なる現実に直面しています。一つは、スクレイピング対策やセキュリティ対策が遍在するWeb2の過酷な環境、もう一つは、自動化が推奨されることが多いWeb3のオープンな環境です。この違いが、様々なソリューションの方向性を決定づけています。

以下のソリューションは、プロキシが Web2 の敵対的な環境を回避するのに役立つものと、Web3 にネイティブなものの 2 つのカテゴリに大別できます。

ブラウザプロキシは大きな課題に直面していますが、それらの課題に直接対処しようとする新しいプロジェクトが登場しています。暗号通貨と分散型金融(DeFi)のエコシステムは、オープンでプログラム可能であり、自動化に対する抵抗力が低いため、自然なテストの場になりつつあります。オープンAPI、スマートコントラクト、そしてオンチェーンの透明性は、Web2の世界でよくある多くの摩擦点を排除します。

ソリューションには 4 つのカテゴリがあり、それぞれが今日の根本的な制限の 1 つ以上に対処します。

オンチェーン操作用のネイティブプロキシブラウザ

これらのブラウザは、自律エージェントによって駆動されるように根本から設計されており、ブロックチェーンプロトコルと深く統合されています。オンチェーン操作の自動化にSelenium、Playwright、ウォレットプラグインに依存する従来のChromeブラウザとは異なり、ネイティブプロキシブラウザは、エージェントが呼び出すためのAPIと信頼できる実行パスを直接提供します。

分散型金融(DFI)では、取引の有効性はユーザーの「人間らしさ」ではなく、暗号署名に依存します。そのため、オンチェーン環境では、プロキシはWeb2の世界で一般的に使用されているCAPTCHA、不正検出スコア、デバイスフィンガープリンティングチェックを回避できます。しかし、これらのブラウザがAmazonなどのWeb2ウェブサイトに誘導された場合、これらの防御を回避できません。その場合、標準的なボット対策が依然として発動されます。

プロキシ ブラウザの価値は、すべての Web サイトに魔法のようにアクセスできるということではなく、次の点にあります。

  • ネイティブ ブロックチェーン統合: ウォレットと署名のサポートが組み込まれているため、MetaMask ポップアップを通過したり、dApp フロントエンドで DOM を解析したりする必要がなくなります。
  • オートメーションファースト設計: プロトコル操作に直接マップできる安定した高レベルの命令を提供します。
  • セキュリティ モデル: 洗練された権限制御とサンドボックスにより、自動化プロセス中の秘密鍵のセキュリティが確保されます。
  • パフォーマンスの最適化: ブラウザのレンダリングや UI の遅延なしに、複数のオンチェーン呼び出しを並行して実行する機能。

#ケーススタディ: ドーナツ

Donutは、ブロックチェーンのデータとオペレーションを第一級市民として統合します。ユーザー(またはエージェント)は、マウスオーバーしてトークンのリアルタイムリスク指標を確認したり、「/swap 100 USDC to SOL」のような自然言語コマンドを直接入力したりできます。Web2の敵対的な摩擦点を回避することで、DonutはエージェントがDeFiでフルスピードで動作できるようにし、流動性、裁定取引、市場効率を向上させます。

検証可能で信頼できるプロキシ実行

エージェントに機密性の高い権限を許可することはリスクを伴います。Trusted Execution Environment(TEE)やゼロ知識証明(ZKP)などのソリューションは、エージェントの実行前にその動作を暗号的に確認できるため、ユーザーや取引相手は秘密鍵や認証情報を公開することなく、エージェントのアクションを検証できます。

#ケーススタディ: Phala Network

PhalaはTEE(Intel SGXなど)を使用して実行環境を分離・保護し、Phalaのオペレーターや攻撃者によるプロキシロジックやデータの覗き見や改ざんを防止します。TEEはハードウェアでバックアップされた「セーフルーム」のような機能を持ち、機密性(外部から見えない)と整合性(外部から変更できない)を保証します。

ブラウザプロキシにとって、これはセキュアな環境を離れることなく、ログイン、セッショントークンの保持、支払い情報の処理を行えることを意味します。たとえユーザーのマシン、オペレーティングシステム、またはネットワークが侵害されたとしても、これらの機密データは漏洩しません。これにより、プロキシ導入における最大の障害の一つである、機密性の高い認証情報や操作に関する信頼性の問題が直接的に軽減されます。

分散型構造化データネットワーク

最新のアンチボット検出システムは、リクエストが「速すぎる」か「自動化されている」かをチェックするだけでなく、IPレピュテーション、ブラウザフィンガープリンティング、JavaScriptチャレンジレスポンス、行動分析(カーソルの動き、入力リズム、セッション履歴など)を組み合わせます。データセンターのIPアドレスや、完全に再現可能なブラウジング環境から発信されたプロキシは容易に識別されます。

この問題に対処するため、これらのネットワークは、人間向けに最適化されたウェブページをクロールするのではなく、機械が読み取り可能なデータを直接収集して提供するか、実際の人間の閲覧環境を介してトラフィックをプロキシします。このアプローチは、従来のクローラーの解析とアンチクロールにおける脆弱性を回避し、よりクリーンで信頼性の高い入力をプロキシに提供します。

配信ネットワークは、トラフィックをこれらの現実世界のセッションにプロキシすることで、ブロックをすぐにトリガーすることなく、AI エージェントが人間のように Web コンテンツにアクセスできるようにします。

#場合

  • Grass: ユーザーが未使用の住宅用ブロードバンドを共有する分散型データ/DePIN ネットワーク。エージェントフレンドリーで地理的に多様なアクセスを提供し、収集とモデルのトレーニングにパブリック Web データを提供します。
  • WootzApp:暗号通貨決済に対応し、バックエンドプロキシを備え、ゼロ知識IDを提供するオープンソースのモバイルブラウザ。消費者向けにAI/データタスクをゲーム化します。
  • Sixpence: 世界中の貢献者によるブラウジングを通じて AI エージェントのトラフィックをルーティングする分散ブラウザ ネットワーク。

しかし、これは完全な解決策ではありません。行動検出(マウス/スクロールトラッキング)、アカウントレベルの制限(KYC、アカウントの有効期限)、指紋の一貫性チェックなどは、依然としてブロックを引き起こす可能性があります。したがって、分散型ネットワークは、人間のような実行戦略と組み合わせることで最大限の効果を発揮する、基盤となるプライバシーレイヤーと捉えるのが適切です。

プロキシのWeb標準(将来展望)

現在、ますます多くの技術コミュニティや組織が、将来のインターネット ユーザーが人間だけでなく自動化されたエージェントである場合、Web サイトはどのようにして安全かつコンプライアンスに準拠して対応できるのかを検討しています。

これにより、いくつかの新しい標準とメカニズムに関する議論が促進され、現在のようにプロキシを「ロボット攻撃」としてデフォルトでブロックするのではなく、Web サイトが「信頼できるプロキシのアクセスを許可する」と明示的に宣言し、やり取りを完了するための安全なチャネルを提供できるようにすることが目標となっています。

  • 「エージェント許可」タグ:検索エンジンが従うrobots.txtと同様に、ウェブページはブラウザエージェントに「アクセスしても安全です」と伝えるためにコードにタグを追加することがあります。例えば、エージェントを使って航空券を予約する場合、ウェブサイトは大量のCAPTCHAを表示するのではなく、直接認証されたインターフェースを提供します。
  • 認定エージェント向け API ゲートウェイ: ウェブサイトは、認証済みのエージェント向けに「ファストレーン」のような専用入口を開設できます。エージェントは人間のクリックや入力をシミュレートする必要はなく、より安定した API パスを使用して注文、支払い、データクエリを完了できます。
  • W3Cの議論:ワールド・ワイド・ウェブ・コンソーシアム(W3C)は既に「マネージド・オートメーション」のための標準化された仕組みの開発に取り組んでいます。これは、将来的には、セキュリティとアカウンタビリティを維持しながら、信頼できるプロキシをウェブサイトが識別し、受け入れることを可能にする、世界的に認められた一連のルールが確立される可能性があることを意味します。

これらの研究はまだ初期段階ですが、実装されれば、人間、エージェント、そしてウェブサイトの関係を劇的に改善できる可能性があります。想像してみてください。エージェントはリスク管理を「欺く」ために必死に人間のマウスの動きを模倣する必要がなくなり、「正式に承認された」チャネルを通じてオープンにタスクを完了できるようになるのです。

暗号資産ネイティブなインフラは、この方向を主導する可能性が高いでしょう。これは、オンチェーンアプリケーションが本質的にオープンAPIとスマートコントラクトに依存しているため、自動化に最適だからです。対照的に、従来のWeb2プラットフォーム、特に広告や不正防止システムに依存するプラットフォームは、慎重かつ防御的な姿勢を維持する可能性が高いでしょう。しかし、ユーザーや企業が自動化による効率性の向上を徐々に受け入れていくにつれて、こうした標準化の取り組みは、インターネット全体をエージェントファースト・アーキテクチャへと導く重要な触媒となるでしょう。

結論は

ブラウザエージェントは、単純な会話ツールから、複雑なオンラインワークフローを実行できる自律システムへと進化しています。この変化は、ユーザーがインターネットとやり取りするコアインターフェースに自動化機能を直接組み込むという、より広範なトレンドを反映しています。生産性向上の可能性は計り知れない一方で、既存のボット対策メカニズムの克服、安全性、信頼性、そして責任ある利用の確保など、課題も同様に重要です。

短期的には、エージェントの推論能力の向上、速度の高速化、既存サービスとの緊密な統合、そして分散ネットワークの進歩により、信頼性は徐々に向上していくと考えられます。長期的には、自動化がサービスプロバイダーとユーザーの両方にメリットをもたらすシナリオにおいて、「エージェントフレンドリー」な標準が段階的に導入される可能性があります。しかし、この移行は不均一です。DeFiのような自動化に適した環境では導入が加速する一方で、ユーザーとのインタラクションや制御に大きく依存するWeb2プラットフォームでは、受け入れが遅くなるでしょう。

今後、テクノロジー企業間の競争は、エージェントが現実世界の制約をいかにうまく乗り越えられるか、重要なワークフローにいかに安全に統合できるか、そして多様なオンライン環境でいかに確実に結果を提供できるかに焦点が当てられるようになるでしょう。これが最終的に「ブラウザ戦争」の様相を変えるかどうかは、純粋な技術力ではなく、信頼を築き、インセンティブを調整し、日常的な利用において具体的な価値を示せるかどうかにかかっています。

共有先:

著者:IOSG

本記事はPANews入駐コラムニストの見解であり、PANewsの立場を代表するものではなく、法的責任を負いません。

記事及び見解は投資助言を構成しません

画像出典:IOSG侵害がある場合は、著者に削除を連絡してください。

PANews公式アカウントをフォローして、一緒に強気相場と弱気相場を乗り越えましょう
おすすめ記事
2時間前
4時間前
5時間前
6時間前
6時間前
6時間前

人気記事

業界ニュース
市場ホットスポット
厳選読み物

厳選特集

App内阅读