OpenAIがGPT-Image-2をリリース:デザイナーの生計は本当に危機に瀕するかもしれない。

  • OpenAIはGPT-Image-2を発表し、視覚AI分野でリーダーシップを回復し、Text-to-Image競技場で242ポイントの差で首位を獲得し、競合他社を上回った。
  • 即時モードと思考モードの2つのモードを備え、前者は迅速な画像生成、後者は推論とウェブ検索を統合し、ポスター作成やリサーチなどの戦略的タスクを実現。
  • 主要機能には、高度な視覚理解、複数画像の一貫性ある物語、正確な多言語テキストレンダリング、極端なアスペクト比の処理、微小制御が含まれる。
  • 技術的にはO系列推論モデルとGPT-5バリアントを使用し、トークンベースのAPI価格は経済的で、一括使用を促進。
  • Gabriel GohやAlex Yuなどの専門家チームにより開発され、テキストと画像の整合や3D空間レンダリングの課題を解決。
  • このモデルはデザイン業界を混乱させ、実行スキルを自動化し、創造的戦略に焦点を移すが、正確な物理操作などの制限がある。
要約

画像

著者:マックス、常に旅をしている、 01創設者

もし2025年のOpenAIの進捗状況をまとめるとしたら、多くの人はおそらく平穏無憂、あるいはやや消極的だったと評するだろう。

この1年間、彼らは確かに論理的推論の道を着実に発展させ、o3proからo4miniまでの一連の推論モデルに加え、GPT-4.5やGPT-5といった新たな基盤モデルをリリースしてきた。

しかし、一般ユーザーが最も目にしやすく、最も自然に拡散しやすい視覚生成の分野では、彼らの存在感は徐々に薄れつつある。

Soraの発表による最初の衝撃の後、OpenAIはこの分野において長い沈黙期間に入ったようだ。

一方、テーブルにいた他のプレイヤーたちも、何もせずにいたわけではなかった。

オープンソースのエコシステムにおいて、Fluxのようなモデルは、高品質なローカルグラフ出力に対する障壁を完全に打ち破った。

商業面では、既存の競合他社が極めて高い美的基準を維持しているだけでなく、オンライン検索機能を内蔵したNano-bananaのような新規参入企業も出現している。

それに比べて、OpenAIの主要な生画像モデルであるGPT-Image-1.5は、すでに時代遅れに見える。

画質が悪くレイアウトも融通が利かないだけでなく、複雑なテキストを扱うと頻繁にクラッシュする。

徐々に、業界内でコンセンサスが形成された。

OpenAIは画像生成において技術的なボトルネックに直面しており、様々な競合他社との競争に追いつくのに苦労している。

数週間前までは、その転換点は非常に微妙な形で現れていた。

「ダクトテープ」というコードネームを持つ謎の画像モデルが、大型モデル向けの有名なブラインドテストプラットフォームであるLMアリーナに密かに潜入していた。

ブラインドテストに参加したユーザーは、すぐに何かがおかしいことに気づいた。

このモデルは、極端な画像サイズを極めて正確に制御できるだけでなく、大量の多言語テキストを含むレイアウトポスターも欠陥なく出力できます。まるで、画像を出力する前に目に見えない論理的な計画プロセスを実行しているかのようです。

画像

一時期、様々な技術コミュニティでは、どの企業がこの重大な動きを密かに開始したのかについて憶測が飛び交っていたが、OpenAIは沈黙を保っていた。

今朝早く、ついに真実が明らかになった。

OpenAIは、大規模な発表イベントや過剰なマーケティング宣伝を行うことなく、「tape」というコードネームのモデルをChatGPT GPT-Image-2と名付け、市場に投入した。

また、やや息苦しいテキスト画像変換アリーナのリーダーボードも公開された。

GPT-Image-2は1512という素晴らしいスコアで初登場1位を獲得し、 2位のデバイス(オンライン検索機能を備えたNano-banana-2)に242ポイントもの大差をつけた。

画像

大規模モデルのベンチマークにおいては、わずか数十分の1秒、あるいは一桁の差でも大げさに捉えられがちだが、上位モデル間のスコアは非常に僅差である。

242点差のリードは、このアリーナの歴史上前例のないものだ。

これはマイナーバージョンアップではなく、世代交代という大きな飛躍だ。

私はその日のほとんどを、その様々な高度な機能と最新のAPIインターフェースのドキュメントを注意深く確認することに費やした。

私の最大の気持ちはただ一つです。

OpenAIは今も昔と変わらないOpenAIだ。

失地回復を決意した時、それは単に古いカードテーブルをひっくり返すことで実現した。

このモデルを前にして、 AIによって完全に置き換えられるまでにはあと2、3年かかると思われていたビジュアルデザインの仕事は、基本的に今日で終焉を迎えたと言えるだろう。

パート1 画像生成:モデルからビジュアルエージェントへ

GPT-Image-2がなぜこれほど劇的なスコア差を達成できるのかを理解するには、まずテキストベースの画像モデルに関する先入観を捨てる必要がある。

以前は、AIを使って絵を描くのは、いわばブラインドボックスを開けるようなものでした。いくつかのヒントとなる言葉を投げかけ、AIがピクセルを並べて望む形にしてくれるのを待つだけでした。

しかし、GPT-Image-2は、視覚エンジンを内蔵したインテリジェントエージェントに近い。

最も明白な変化は、メカニズムの観点から見て、全く異なる2つのモードに直接分離することである。

画像

一つはインスタントモードで、これはすべてのユーザーが利用できます。

このモードは、迅速な対応と、日常生活や業務の流れへのシームレスな統合を重視しています。

例えば、スマートフォンからコマンドを送信すると、数秒以内に完全な図表を表示させることができます。

極めて強力な視覚理解能力を備えているが、主に高頻度かつ単一トランザクションの視覚変換ニーズに対応する。

思考モードは有料ユーザーのみが利用可能です。

実際に1ピクセルでもレンダリングを開始する前に、まず10秒以上かかる論理的推論とネットワーク検索の期間を経る。

画像

このモデルは、極めて重要でありながら非常に難しい問題を解決するものです。

モデルは初めて、自分が何を描くべきかを真に理解した。

最も直感的な例を挙げるとすれば。

ダイアログボックスに以下を入力します。

ポスターを作ってください。謎のダクトテープモデルに関する人々の意見をオンラインで検索し、ChatGPTのQRコードを含めてください。

画像

旧モデルを使用すると、ネットユーザーが何を言っているのか全く理解できず、文字化けしたポスターや偽のテキストが表示されるだけで、QRコードもスキャンできない偽のステッカーになってしまいます。

しかし、思考モードにおけるワークフローは以下のとおりです。

まず描画を一時停止し、オンライン検索ツールを起動して、Reddit、Threads、またはLinkedIn上のネットユーザーからの実際のコメントを収集します。

そして、ポスターのレイアウト、余白、フォントの階層構造を計画し始めた。

最後に、直接スキャンできる、実際に使用可能なQRコードを生成し、画像全体を表示します。

画像

これはもはや単なる作図作業ではなく、調査、企画、コピーライティングの抽出、レイアウトデザインといった作業を独立して完了できるワンストップショップと言えるでしょう。

ここでは並行比較が必要である。

大規模なモデルコミュニティを追っている人なら、ネットワーク機能と検索機能を備えた生画像モデルはOpenAIが発明したものではないことを知っているだろう。

ランキング2位のナノバナナは、既にこの仕組みを備えている。

しかし、実際にナノバナナを使ってみると、多くの点で少し使いづらいと感じるでしょう。

ナノバナナの背後にある考え方は、しばしば機械的で断片的な論理に基づいている。

例えば、ポスターを作るために業界のトレンドを検索するように指示すると、確かに検索はしてくれるのですが、たいていはWikipediaから文章を不自然に切り取って、無理やり画像に貼り付けるだけです。

抽象的なビジネス上の要求を解釈する必要のある指示に直面すると、容易に迷子になってしまう。

画像

まるで、話の内容は理解できるものの、実務経験が全くないインターン生のような感じだった。実行方法は分かっているが、戦略については全く見当もつかないのだ。

しかし、この点におけるGPT-Image-2の性能は、誇張されているとしか言いようがない。

その考え方は、単に形式的な手順を踏むことではなく、根底にある文化的背景やビジネス上の意図を真に理解することに基づいている。

テスト中、私は非常にシンプルな中国語のコマンドを入力しました。「イーロン・マスクがライブ配信中にDouyinでパンを販売しているスクリーンショットを描いてください。」

古い描画モデルを使用すると、おそらくイーロン・マスクに似た白人男性が肉まんを持ち、背景がぼやけた画像が描かれ、TikTokがどんなものかさえ分からなくなるでしょう。

しかし、その思考過程を踏まえると、GPT-Image-2の結果はやや憂慮すべきものである。

単に要素を寄せ集めたのではなく、中国のインターネットに関する知識を自律的に活用し、Douyinのライブ配信UIのスクリーンショットを生成した。それはピクセル単位でほぼ完璧な複製だった。

画像

この映像には、リアルなイーロン・マスクが豆豉(Doubao)のAIアシスタント向けに完璧にフォーマットされた看板を持っている様子が映っているだけでなく、プロンプトには表示されなかった詳細がさらに恐ろしい。

左上隅には「フォロー」ボタンと時間ごとのランキングが表示され、右上隅には1023万6000人のオンラインユーザーが表示され、下部には標準的な商品カードがポップアップ表示され、さらに99という価格に取り消し線が引かれ、特別価格が69であること、そしてカウントダウン付きの「今すぐ購入」ボタンも表示されます。

最もゾッとするのは、左下隅に表示されるネットユーザーからのコメントが信じられないほどリアルにスクロール表示されることだ。

テクノロジー初心者:豆蔭(Doubao)って何ですか?便利ですか?

星と海:マスク氏を応援しよう!国産AIを応援しよう!

コメントに何を書くべきか、製品のUIをどう見せるべきか、価格をどう設定すべきか、誰も指示しなかった。

これは、Douyin eコマースとDoubaoビッグモデルという2つのタグを分析した後、モデルが人間に代わって作成および実行した、完全なビジネスUIデザインおよび運用計画です。

現在、画像生成における大規模モデルの評価基準は、単に美しく描画できるかどうかから、戦略やレイアウトの論理を理解しているかどうかへと正式に移行した。

パート02 コア機能の実地試験

その限界を検証するため、商用設計の基準に従い、いくつかの高周波かつ複雑なシナリオを用いて試してみた。

結果は、その問題解決の粒度が驚くほど細かいことを示していた。

最初のシナリオ:視覚的な理解とビジネスのクローズドループ(モデルの装飾)

従来のeコマースにおけるビジュアルデザインやファッションプランニングでは、アイデアを思いついてから実際に製品を着用した際の効果を確認するまでの実行コストが非常に高い。

モデルを探し、衣装を借り、スタジオを設営し、後処理でレタッチを行う必要があります。

その後、AIの登場により、人々はLoRAモデルを訓練して人間の顔の形状を修正するようになったが、それでも数十枚の画像とかなりの学習コストが必要だった。

GPT-Image-2では、このプロセスが極限まで圧縮されている。

私は試しに何気ない自撮り写真をアップロードして、来月ビーチ旅行に行くことを伝え、いくつかコーディネートを提案してくれるよう頼んでみました。

まず最初に、まるでプロのECサイトのルックブックのようなレイアウトで、全く異なる8種類の夏のコーディネートが提示され、それぞれのアイテムには適切なテキストラベルまで付いていました。

画像

さらに重要なのは、その瞬間に私の顔の特徴と体型を正確に分析したことだ。

私が最初の衣装がどんな感じか見てみたいと伝え、様々な角度から撮った詳細な写真をいくつか渡すと、すぐに私の自撮り写真に写っている人物を認識し、その人に夏の衣装を着せ、横顔や上半身など、様々な角度からの写真を表示してくれました。

画像

この移行は驚くほどスムーズだった。つまり、基本的な服飾スタイリングやレンダリング、あるいはモデルによる試着といった外注作業が持つ競争上の優位性は、完全に失われたということだ。

2つ目のシナリオ:一貫性と連続性のある物語の解決(1文で漫画を作成する)

AI生成画像を扱ったことがある人なら誰でも知っていることだが、AIに美しい画像を描かせるのは難しくない。しかし、同じ人物の画像を10枚、ポーズや視点を一定に保ったまま描かせるのは難しい。

これは、いわゆる一貫性の問題である。

しかし、今回の実際のテストでは、過去の経験とは全く矛盾する事例に遭遇した。

昨日撮ったあなたと友達の写真をアップロードして、簡単な指示に従うだけでOKです。

私たちを主人公にして、3ページ構成の日本風漫画を3枚描いてください。ストーリーはあなたが決めてください。

数秒後、標準的なコマ割りの白黒漫画が3ページ、直接出力された。

最も恐ろしいのは、実在の人物をモデルにしたこの2人の漫画キャラクターが、3ページにわたる異なるコマに描かれていることだ。

画像

クローズアップであれ、走っているロングショットであれ、後ろ姿であれ、顔の表情、髪型の細部、服のしわに至るまで、すべてが完璧に一貫している。

さらに驚くべきことに、この漫画の筋書きは完全に首尾一貫しており、吹き出しの中のセリフさえも完全な物語の論理を構成している。

画像

時間と空間における一貫性を実現できるということは、それが単一画像生成の領域を超越し、連続的な物語を演出する能力を備えていることを示している。

3つ目のシナリオ:テキストレンダリングにおける最後の難関を克服する(多言語タイポグラフィ)

一貫性が物語上の問題を解決するのであれば、多言語テキストを正確に表現することは、グラフィックデザイナーをまさに窮地に追い込むことになる。

以前は、画像に少しでも文字が含まれていると、大型モデルは意味不明な文字を書き始めていた。

このモデルはテキストをトークン(意味ブロック)として理解するのに対し、生成される画像はピクセルであるため、これら2つはこれまで別個のものと考えられていました。

GPT-Image-2はこの問題を完全に解決します。

フランスのファッション雑誌の表紙、ひらがなと漢字だらけの日本のレストランメニューを生成させてみたり、極めて文字密度の高いロシア語の注釈も試してみたりした。

画像

その結果、スペルミスが一切ない完璧な印刷物が一度限りで完成した。

最も残念なのは、単に単語を正しく表記するだけでなく、言語に合わせて現地の文化的美意識やフォントデザインを調和させる方法も知っている点だ。

例えば、日本語のチラシに使われている漢字は、非常に本格的な日本のレトロなアートフォントを使用しており、ひらがなのレイアウトも日本人の縦読みの習慣に合致している。

レイアウトデザインはかつて、グラフィックデザイナーだけの領域だった。

文字間隔の調整、テキストの優先順位付け、テキストと背景の視覚的なバランスの実現には、いずれも徹底的な練習が必要です。

しかし、AIがこれほど多くの言語をエラーなく処理し、高度なタイポグラフィの美学を備えるようになれば、日常的なポスター、パンフレット、ニュースフィード広告において、人が手作業で位置合わせのための基準線を引く必要はなくなるだろう。

第4シーン:歪んだ画像フォーマットと極めて微細な制御(米粒への文字書き)。

最後に、その服従がどれほど恐ろしいものかを確かめるために、私はいくつか非常に難しい命令を与えてみた。

まず最初に、その極端なアスペクト比をテストしてみました。

従来の拡散モデルは、非標準的な比率に対して非常に脆弱である。

以前は、画像を少し引き伸ばすと、画像の中に2つの頭が現れていた。

しかし、Images 2.0に3:1の超広角画像と1:3の縦長画像を生成するように指示したところ、エラーが発生するどころか、端から端まで接続され、論理的に閉じたループを持つ360度のパノラマ画像を生成した。

2015年に使い捨てカメラで撮影した写真の項目が追加されたことで、古いレンズの歪みや壁へのフラッシュの反射の悪さまでが鮮明に再現されている。

画像

その微細な制御能力をより分かりやすく示すもう一つの方法は、公式チームが発表イベントで披露した、やや奇抜な米粒を使った実験である。

研究者たちは、まだベータテスト段階にある実験的な4K APIを使用した。マクロ撮影や8K超高解像度といった難解な用語は一切使わず、非常に抽象的で平易な言葉で指示を与えた。

米の山。この山の中の米粒の一つに「GPT Image 2」と書かれている。

画像

画面上で画像を数十倍に拡大しても、あるいはピクセル化が生じたとしても、米粒の山の中に、文字が刻まれた小さな粒子を実際に見つけることができる。

この米粒の質感は依然として物理法則に従っており、文字は米粒のわずかな曲線に沿って表面に正確に埋め込まれている。

画像

残りの作業、つまりマクロ視点の呼び出し、被写界深度の計算、潜在空間における米粒の物理座標の特定、そして米粒への文字の印刷はすべて、思考モードの大型モデルによって自動的に完了された。

この事例は、モデルが空間位置を理解する能力がピクセルレベルの外科手術並みの精度に達していることを鮮明に示している。

これはつまり、今後の作業において、デザイン案のあらゆる細部を正確に修正できることを意味します。以前のように襟のデザインを変更しようとすると、デザイン全体が変わってしまうといった事態ではなく、指定した箇所に正確な変更を加えることができるようになるのです。

パート03 技術的な詳細

このような高度な制御と戦略的知性は、単に無分別にコンピューティング能力を積み上げるだけでは達成できない。

その切り札が何なのかを突き止めるため、GPT-Image-2に対していくつかのプローブテストを行った。

その結果、非常に興味深い点を発見しました。

公式ドキュメントには、GPT-Image-2 の知識ベース全体が 2025 年 12 月まで更新されたと記載されていますが、実際のテストでは...

インスタントモードにおけるトレーニングデータの提出期限は、2024年5月末のままです。

画像

綿密な検討を必要とする思考モードには、おおよそ2024年6月時点のネイティブ知識ベースが備わっている(ただし、正確な日付はリアルタイムのインターネット接続で取得できる)。

画像

これら2つの時点に基づくと、GPT-Image-2の根本的な構造は追跡可能であるように思われる。

まずは、高周波画像出力が特徴のリアルタイムモードから見ていきましょう。

2024年5月という期限を考えると、o4-miniをそのまま採用するか、GPT-5ファミリーの軽量版(GPT-5 mini、あるいは極めて小さなパラメータを持つGPT-5 nanoなど)を採用する可能性が非常に高い。

これらの軽量ベースが、非常に優れた空間計画能力と複雑な指示を理解する能力を備えているからこそ、上位レベルの画像生成は安定した状態を保ち、混乱に陥ることがないのです。

その極めて知的でビジネス感覚に優れた思考パターンは、GPT-5のマスターモデルに基づいているはずがない。

GPT-5の知識ベースの提出期限は2024年9月です。

思考モードは、バックグラウンドで絶えず反復処理されているOシリーズ推論モデル(o4や更新されたo3など)と密接に関連している可能性が高い。

大型モデルでは、まずOシリーズ独自の長時間の検討メカニズムを用いて、ビジネスロジック、オーディエンス心理、レイアウト座標を潜在空間内で明確に計算し、その後、最終的なピクセルレンダリングのためにビジュアルモジュールに渡します。

もちろん、別の道もある。

OpenAIの高度な計算能力割り当てメカニズムにより、高速モードではGPT-5 nanoをバックアップとして直接利用することができ、思考モードでは、やや大型のGPT-5 miniを外部ツールと組み合わせて利用します。

しかし、基盤となるプラットフォームの組み合わせに関係なく、OpenAIのAPIエコシステムを追ってきた人であれば、その基盤となる生成ロジックがMidjourneyのものとは全く異なることに気づくでしょう。

パート4 価格設定、誰にとっても最も重要なこと

しかし、基本価格を推測するのではなく、実際にそれをワークフローに統合したいと考えている開発者や企業がより注目すべきは、非常に現実的でありながら直感に反するAPI料金表です。

以前は、DALL-E 3は画像ごとに課金されていました(例:画像1枚あたり0.04ドル)。

しかし、OpenAIは最初の世代であるGPT-Image-1から、トークンベースの課金フレームワークへと完全に変更した。

今回、GPT-Image-2はこの標準規格を踏襲するだけでなく、より多くの機能を低価格で提供します。

先日公開された公式価格表によると、100万トークンあたりの価格は以下のとおりです。

画像

GPT-Image-2 画像セクション: 入力 $8.00、キャッシュされた入力 $2.00、出力 $30.00。

前世代のgpt-image-1.5と比較すると、出力は32.00ドルです。

新しいモデルの方が実際には安い。

計算してみましょう。

従来、高品質な画像を生成するには、約1,000~1,500個の出力トークンが必要だった。

100万個の出力トークンあたり30ドルの価格に基づくと、1枚の画像を生成する実際のコストは約0.03ドルから0.045ドル(人民元換算で約2~3セント)となります。

即時応答が不要で、公式のバッチAPIモードを使用する場合は、価格が半額になります(出力は15.00ドルに下がります)。

画像1枚の生成にかかる費用は、合計でわずか10セント程度です。

チケット1枚あたりの価格はすでにかなり競争力がありますが、このサービスの真の強みは、価格表にキャッシュされた入力値にあります。

以前は、同じシリーズの漫画を描いたりポスターをデザインしたりする場合、コンテンツを再生成するたびに、大量のキャラクター参考画像、過去の出来事の概要、長い指示文などを再アップロードする必要があり、非常にコストがかかっていました。

しかし、現在のトークンベースの課金モデルでは、一度に8つの連続したコミックを生成すると、最初の画像の視覚要素がコンテキストとして直接キャッシュされます。

2枚目の画像から、画像の入力コストは8ドルから2ドルに急落しました(つまり、コストの25%しか請求されなかったということです)。

これは、大規模な商業用バッチ製版生産や、極めて高い役割の一貫性が求められる連続生産を行う場合、その限界費用が大幅に低下することを意味する。

モデルの精度が高く、作成される図面の数が多いほど、図面1枚あたりのコストは低くなります。

この工業化された請求ロジックこそが、流れ作業的なアーティストたちを真に絶望へと追いやる原因なのだ。

パート5 舞台裏チーム公開

最後に、ライブ配信されたカンファレンスでステージ上で披露された、OpenAI社内のドリームチームによる画像処理技術を振り返ってみましょう。以前は突飛に思えた多くの機能が、今となっては完璧に理にかなっていることがわかります。

例えば、複雑な多言語組版や意味不明な文字といった問題を、具体的にどのように解決するのでしょうか?

これは、チームの上級科学者であるガブリエル・ゴー氏と切り離せない関係にある。

画像

学術界では、彼は画期的なマルチモーダルモデルであるCLIPの中核的な著者として最もよく知られている。

CLIPは、人間の言語と画像ピクセルがどのように対応しているかを理解する現代のAIの基礎を築いた。

この研究者がチームを率いて異種モダリティ間の意味マッピングに取り組むことで、GPT-Image-2はもはやテキストの形状を推測するだけでなく、実際にピクセルレベルでテキストを書き込むことができるようになった。

例えば、どのようにして三次元空間の関係性を理解し、極端なアスペクト比を持つ360度パノラマ画像を作成し、米粒のマクロな光と影を理解できるのでしょうか?

これは、もう一人の中心メンバーであるアレックス・ユーのおかげです。

画像

OpenAIに入社する前は、3D生成分野の有望なスタートアップ企業であるLuma AIの共同創業者兼元CTOであり、3Dニューラルレンダリング(NeRFなど)に専念した一流の研究者でもあった。

彼が加わったことで、GPT-Image-2は従来の2次元ピクセルぼかしの域を実際に超えた。

おそらく、まず頭の中で3Dシーンを作成し、照明を設定し、それから正確な2Dスライスをレンダリングしているのでしょう。

複数のページにわたるコミックで、これほどまでに驚異的な一貫性をどのようにして実現したのでしょうか?

これは、MIT CSAILを卒業したばかりの若い二人組のチームメンバーに該当する。

陳博源氏(左)と宋奇漢氏(右)。

画像

彼らの学術研究における主要な分野は、「世界モデル」と「身体化された知能」と呼ばれている。

機械に物理世界の仕組みを理解させ、登場人物が異なる時間や空間の場面でも完全に一貫した特徴を維持し、変形しないようにすることこそ、まさにこの二人の学者が解決しようとしてきた問題である。

最後に、大規模な推論モデルと視覚の根底にある論理との間のギャップを埋めることに尽力してきたニタン・クディゲ氏(左、Oシリーズ推論モデルの主要著者)とケンジ・ハタ氏(右、元Google研究員でスタンフォード大学ビジョンラボ卒業)を紹介します。

画像

このグループの人々が集まると、根底にある論理的思考、3D空間レンダリング、テキストと画像の完璧な位置合わせ、そして物理世界の法則が自然に統合され、同じモデルが構築される。

パート06 GPT-Image-2の境界

どのモデルにも限界がある。

同当局者はまた、特定の極端な状況下では依然として苦戦していることを認めた。

例えば、正確な物理的空間反転を必要とする折り紙のガイド、ルービックキューブの解法、あるいは非常に密度の高い砂粒のような高度に反復的なディテールは、依然としてその能力の限界に挑戦するだろう。

しかし、商用アプリケーションの観点からすれば、これは極めて軽微な欠点である。

デザイン業界全体にとって、不安を売り込む必要はない。しかし、これは美学の終焉を意味するものではない。

優れたセンス、ビジネス感覚、戦略的思考力を持つ人であれば、今でもそれを使って素晴らしい製品を生み出すことができる。

しかし、客観的な事実として、デザイナーという職業を守る堀は大幅に侵食されてしまった。

以前は、デザインソフトのキーボードショートカットを暗記したり、フォントを水平方向と垂直方向に整列させる方法を知っていたり、言語に応じてフォーマットする方法を知っていたり、詳細な画像編集や切り抜きを行う方法を知っていたりすることで生計を立てていました。

しかし、将来的にはそれは難しくなるだろう。なぜなら、かつては対価を支払って公然と取引されていたこれらのスキルは、今では誰でもたった一文で無料で呼び出せる基本的なコマンドになっているからだ。

沈黙期間を経て、OpenAIは再び、非常に冷静ながらも極めて強力な方法で、このポーカーテーブルで真に主導権を握っているのは誰なのかを証明した。

従来の実行ツールチェーンは崩壊しつつあり、業界に残された問題は、AIが人間にとって代わるかどうかではなく、この全く新しい生産ラインにどのように適応していくべきかということである。

共有先:

著者:01Founder

本記事はPANews入駐コラムニストの見解であり、PANewsの立場を代表するものではなく、法的責任を負いません。

記事及び見解は投資助言を構成しません

画像出典:01Founder。権利侵害がある場合は著者へ削除をご連絡ください。

PANews公式アカウントをフォローして、強気・弱気相場を一緒に乗り越えましょう
PANews APP
ビットコイン現物ETFには昨日、合計1184万4200ドルの純流入があり、6日連続の純流入となった。
PANews 速報