モデル以外はすべてHarness：Deepseekが参入、国内AI競争の主戦場が変わった理由とは？

2026年5月中下旬、Deepseekは社内に新たなHarnessチームを立ち上げた。その方向性はコードエージェント製品であり、社内的にはAnthropic傘下のClaude Codeをベンチマークとしている。元Jane Streetのスター定量エンジニアである崔天一は3月にこのチームに加わり、シニアリサーチャーの陳德里がこれを公に認め、採用を担当している。Deepseekの求人票（JD）には、次の公式が明確に記されている：「Model + Harness = Agent」。基盤大規模モデルの能力が次第に横ばいになるにつれ、単純にパラメータを競う時代は過ぎ去りつつある。Deepseekが自らツールチェーンチームを立ち上げたことは、国内AI競争の主戦場が「大規模モデルの訓練」から「ツールチェーンの構築とオフィスへの実装」へと移行しつつあることを示している。

Deepseekが自らHarnessに乗り出す理由とは？

長い間、開発者のDeepseekに対する期待は、より強力な基盤モデルをオープンソース化することにとどまっていた。しかし、コード能力が高いからといって、開発者がそれを生産性ツールとして採用するとは限らない。働き方を本当に変えるのは、チャットボックス内のコード回答ではなく、ターミナルに入り込み、プロジェクトを理解し、ファイルを読み書きし、コマンドを実行し、エラーを修正できるエンジニアリングエージェントである。公式が動き出す前から、開発者コミュニティはDeepseekモデルを基に様々なオープンソースのターミナルエージェントを構築していた。DeepseekがこのタイミングでHarnessチームを立ち上げたのは、インターフェース設計権と訓練データのクローズドループを掌握し、コミュニティが切り開いた道を公式の主力製品へと取り込む意図がある。

この戦略的意図を理解するには、まずHarnessとは何かを明確にしなければならない。技術的なバックグラウンドを持たない読者にとって、「Harness」という言葉は馴染みが薄いかもしれない。Deepseekの公式では、モデルは推論を担当し、Harnessはその他すべてを担当する。Harnessは本来、工学分野で「馬具」や「安全ベルト」を意味するが、AI分野に敷衍すると、エージェントの「ランタイムインフラストラクチャ」を指す。

より分かりやすく理解するために、大規模モデルを高IQの働き手の「脳」と「知性」に例えるなら、Harnessはその働き手の「職務記述書、KPI評価基準、オフィスの防御壁、そしてツールボックス」にあたる。それは実行前に組み立てる「足場」でも、構成要素を提供する「フレームワーク」でもなく、継続的に稼働するシステムである。実行ループの調整、ツール呼び出しの分配、コンテキスト管理、セキュリティチェックの実行、エラーリカバリと状態の永続化を担当する。大規模モデル自体はステートレスで環境との相互作用能力を持たず、テキスト入力を受け取りテキストを出力することしかできない。Harnessはこれらの欠陥を補い、モデルが実際に外部世界と対話し、具体的なタスクを実行できるようにする。

基盤モデル企業がこのランタイムを自ら掌握しなければならないのはなぜか？その核心は、エージェント製品がモデル能力の出口であるだけでなく、モデル能力の訓練場でもある点にある。Deepseekの求人票では「モデルとHarnessの共進化の実現」が強調されている。現実の複雑なタスクにおいて、モデルは環境の制限やツールからの異常な戻り値によって様々な失敗に遭遇する。Harnessはこれらの失敗の軌跡を記録し、モデル訓練にフィードバックすることでフライホイール効果を生み出す。もしコミュニティによる代替構築を許せば、モデルベンダーは最も中核的なアプリケーション層のデータフィードバックを失い、単なる計算資源と重みの提供者へと転落してしまう。

工学的な観点から見ると、Harnessの最適化は単なるプロンプトの最適化よりもエージェントの成否を左右する。技術専門家の分析によると、エージェントの実行中、ツールの出力はエージェントがコンテキスト内で実際に目にする内容の67.6%を占めるのに対し、システムプロンプトはわずか3.4%に過ぎない。これは、モデルの「視野」の大部分がツール呼び出しの結果によって占められていることを意味する。Harnessがツール出力のフォーマット処理を誤ったり、冗長な情報を効果的に圧縮できなければ、モデルは「コンテキスト腐敗」に陥り、後続の推論品質が急激に低下する。

さらに致命的なのは複合エラーの問題である。10のステップを含み、各ステップの信頼性が99%のエージェントプロセスでは、エンドツーエンドの成功率は約90%だが、タスクの複雑さが50ステップに増加すると、成功率は60%に急落する。実際のコードベースの保守や企業のオフィス自動化シナリオでは、数十ステップに及ぶ連続操作が常態である。この場合、モデル自体の推論能力がどれほど高くても、確率論的な累積損失を補うことはできない。Harnessのエラー処理と回復メカニズムを通じてのみ、ステップ失敗時に再試行やパス修正が可能となる。これこそがHarnessの工学的価値であり、Deepseekが自ら乗り出さなければならない理由である。

Tencentはコネクター、Alibabaはフロントエンド浸透：大手企業のツールチェーン差別化戦略

Deepseekの方向転換は単独の事例ではない。業界メディアの報道によると、エージェント能力の強化は、2026年における国産基盤大規模モデルの重要な発展方向となっている。基盤モデルは徐々に「水・電気・石炭」のようなインフラと化し、競争の主戦場はアプリケーション層へと移行している。国内の他の大手企業もツールチェーンを通じて差別化されたポジショニングを模索しているが、その道筋はそれぞれ異なり、各社のエコシステムの強みとターゲットユーザーの違いを反映している。

Tencentは2026年6月、企業向けエージェントの新たな切り札としてWorkBuddy企業版を発表した。その中核的な位置づけは、全シーンに対応する職場インテリジェントエージェントのデスクトップワークベンチであり、個人の効率化から組織的なコラボレーションへの進化を主眼としている。WorkBuddy企業版は、マルチエージェントの並列処理とビジネスシステムコネクターへの接続をサポートし、AIオフィスの統一エントリーポイントの獲得を試みる。Tencentのポジショニングの論理は、その巨大なWeCom（企業微信）とTencent Cloudのエコシステムに依拠している。大企業にとって、AIオフィスの痛点は単一ツールの究極的な体験ではなく、社内に孤立したオフィスシステムを打通できるかどうかにある。Tencentはコネクターとして機能することで、エージェントが企業データとプロセスを直接操作できるようにし、組織レベルのコラボレーションと複雑なタスクの遂行に重点を置く。この道筋の強みは参入障壁が高く、一度企業のコア業務プロセスに組み込まれれば、切り替えコストが極めて大きくなる点にある。課題は、極めて高いエンタープライズサービス能力とカスタマイズサポートが必要となる点である。

Alibabaは別の道を切り開き、Web側での自動化の敷居を下げることを選択した。Alibabaは純粋なフロントエンドブラウザ内GUIエージェントフレームワーク「PageAgent」をオープンソース化した。このフレームワークはバックエンドへのデプロイが不要で、一行のコードでWebサイトにAIオペレーター機能を統合できる。Alibabaのポジショニングの論理は、Web開発者を支援し、あらゆるWebページを瞬時にAIネイティブアプリケーションに変えることにある。多くの従来型企業システムがAPIインターフェースを提供できない現実において、フロントエンドのDOM操作による自動化は、現実的な「低次元からの破壊」戦略である。この道筋の強みは軽量で統合が容易であり、大量のロングテールWebサイトを迅速にカバーできる点にある。しかし、フロントエンドのDOM構造の頻繁な変更は安定性の課題をもたらす可能性があり、Harnessのエラー回復能力に一層高い要求を突きつける。

比較すると、各社はもはや単純にモデルのベンチマークスコアを競うのではなく、自社のエコシステムの強みに応じてツールチェーンを構築している。Tencentはコネクター、Alibabaはフロントエンド浸透、Deepseekは開発者にとって最も需要の高いコードエンジニアリングのシーンから切り込む。この分化は、国内AI業界が、完璧な汎用エージェントは存在せず、特定のシーンにおいて厚みのあるHarnessエンジニアリングによって磨き上げられた垂直ソリューションのみが存在することを認識したことを示している。企業の購買担当者にとって、どのツールチェーンを選択するかは、本質的にどの自動化の道筋を選ぶかという問題である。それは、オフィスエコシステムへの深い紐付けか、既存のWebシステムへの柔軟な組み込みか、あるいは開発者のエンジニアリングワークフローへの支援か、という選択である。

ViktorのARR2000万ドルが証明する、企業は自律実行に対して支払う意欲があること

ツールチェーンの成熟は、AIがオフィス分野に関与するパラダイムを変えつつある。従来のCopilotのロジックは「草案を作成し、人間が完了するのを待つ」というものだった。AIが文案やコードを生成しても、最後のステップでは人間が介入して修正・実行する必要があった。このモードでは、AIは単なる効率化ツールに過ぎず、真に労働力を代替することはできない。企業の従業員は常にAIの出力を監視し、検証し、実行に移す必要があり、これは実際には認知的負荷を増大させる。

海外市場では、すでにパラダイムシフトの明確なシグナルが現れている。海外トレンドの参考事例として、ポーランドのAIオフィス自動化企業Viktorは、Slack内のAI従業員として位置づけられ、営業チームなしでARR（年間経常収益）2000万ドルを達成し、3万社にサービスを提供、2026年5月にはシリーズAで7500万ドルの資金調達を実施した。Viktorのモデルは、新型AI従業員の最終形態を代表している。すなわち、クラウドコンピュータを持ち、長時間の連続作業が可能で、大量のコンテキストをしっかりと把握し、直接成果物を納品する。

ViktorはTier 3 AI Coworkerと位置づけられており、これは単純なQ&Aではなく、マーケティング監査、広告管理、リード調査など、複数ステップで長時間実行される複雑なタスクを処理することを意味する。企業側には、人間による最終確認が不要で長時間連続稼働できるAIに対して、大きな支払い意欲が存在する。このビジネスデータの急成長は、オフィス自動化の価値のアンカーが「生成補助」から「自律実行」へと移行したことを証明している。

国内メーカーがHarnessとエージェントツールチェーンを配置するのは、まさにこのトレンドを取り込むためである。Harnessが十分な安全ガードレール、状態の永続化、エラー回復能力を提供できるようになれば、AIは人間が常に監視する必要がある「インターン」から、独立して成果物を納品できる「外部委託先」へと進化できる。企業の購買担当者の関心も、モデルのパラメータサイズから、エージェントが8時間安定して稼働しクラッシュしないか、APIのレート制限やWebページの構造変更に自動的に対処できるか、といった点に移るだろう。開発者にとっては、AIアプリケーション構築の焦点が「優れたプロンプトの書き方」から「堅牢なランタイム環境の設計方法」へと移行することを意味する。

トークン爆発と「厚いフレームワーク」の工学的障壁

ツールチェーン競争へと移行した後も、企業の購買担当者や開発者が実際の実装で直面する課題は減るどころか、より工学的な側面に集中することになる。

まず直面するのがトークン爆発の問題である。長時間実行されるエージェントは、「思考、行動、フィードバック」のループの中で、冗長なツール出力によってコンテキストが急速に膨張しやすい。開発者コミュニティではこの難題が広く議論されており、推論コストを押し上げるだけでなく、モデルの注意力を分散させ、タスク失敗率を急上昇させると考えられている。例えば、Webデータスクレイピングタスクを実行する際、HarnessがWebページ全体のHTMLソースコードをそのままコンテキストに詰め込むと、モデルはすぐに冗長な情報の中で迷子になり、当初のタスク目標を忘れてしまう。したがって、Harnessのコンテキスト圧縮と記憶管理能力は、企業調達時の中核的な評価指標となる。優れたHarnessは、どの履歴情報を破棄すべきか、どのツールの戻り値を要約すべきかを知っていなければならず、これはモデル自体の知性ではなく、深いエンジニアリングアーキテクチャ能力が問われる部分である。

これはまた、「ラッパー（套壳）」的な薄いフレームワークに対する開発者の警戒感を引き起こしている。大規模モデルベンダーが提供するHarnessが、単純なAPIラッパーで基本的な対話ウィンドウとツール呼び出しインターフェースを提供するだけなら、実際のデバッグ価値に欠ける。本番環境での脆弱性は、Harnessがサンドボックス隔離、きめ細かい権限制御、ブレークポイントリジューム（中断再開）といった「厚いフレームワーク」の特性を備えることを要求する。深い工学的障壁を備えたランタイムだけが、エンタープライズ級アプリケーションの安定性要件を真に解決できる。例えば、コード実行シーンでは、Harnessは安全なサンドボックス環境を提供し、モデルが生成した悪意のあるコードがホストシステムを破壊するのを防がなければならない。長時間タスクでは、ネットワークの変動によってタスク全体が最初からやり直しになるのを避けるため、ブレークポイントリジュームをサポートしなければならない。

さらに、地政学的要因が国産Harnessに巨大な市場の空白を残している。Claude Codeなどの海外のトップクラスのエンジニアリングエージェント製品は、中国本土および中国資本の企業に対してアクセス制限を実施している。国内の開発者はこれらのトップツールを直接使用できない状況で、国産代替品を求めるしかない。DeepseekのHarnessチーム立ち上げは、技術トレンドへの追随であるだけでなく、この巨大な代替需要への対応でもある。

企業の購買担当者や開発者にとって、Harnessの価値を理解するということは、AI製品を選択する際に、派手な対話デモに惑わされることなく、そのエラー回復メカニズムは何か、コンテキスト管理戦略は何か、そしてそれが既存のワークフローに真に統合できるかどうかを問うことを意味する。ツールチェーン競争の段階において、企業はモデルのベンチマークスコアを単純に比較するのではなく、ベンダーのエンジニアリングデリバリー能力とエコシステム互換性を優先的に評価すべきである。開発者は、Harnessフレームワークの開放性とデバッグツールチェーンの完成度に注目し、深いレベルでの制御可能なランタイムを提供するプラットフォームを選択すべきである。