OpenAI最強模型GPT-5發布：效能大幅提升，微軟搶先整合

OpenAI於8月7日發布新一代旗艦AI模型GPT-5，CEO Sam Altman稱其為「世界上最好的模型」，並在實現通用人工智慧（AGI）道路上邁出重要一步。GPT-5在程式設計、數學、健康等領域表現出色，幻覺問題大幅改善，錯誤訊息率僅4.8%。

核心優勢
- 程式設計能力：在SWE-bench Verified測試中準確率達74.9%，可快速生成網站、App及遊戲代碼。
- 創意寫作：能處理複雜結構的詩歌與自然流動的自由詩，回應更自然。
- 健康諮詢：錯誤訊息率僅1.6%，能解析醫療結果，但強調不可取代專業醫療建議。
用戶開放與差異
- 免費用戶與付費用戶（Plus、Pro、Team）即日開放，Enterprise與Edu方案一週內上線。
- 付費版提供更高用量或無限使用（如GPT-5 Pro），免費用戶達限後切換至GPT-5 mini。
安全與改進
- 新增「安全補全」訓練，減少幻覺與過度拒絕，回應更透明。
- 推出四種預設聊天性格（如憤世嫉俗者、機器人），可調整互動風格。
微軟整合
- 同日宣布整合至365 Copilot、GitHub Copilot等產品，企業與消費者用戶可立即體驗GPT-5的高階功能。

Altman盛讚GPT-5為歷史性突破，使用體驗遠超GPT-4，並比喻為「隨時擁有博士專家團隊」。微軟的快速整合進一步強化其AI生態系競爭力。

作者：李丹

來源：華爾街見聞

今年OpenAI 最期待大眾的產品來了。

美東時間8 月7 日週四，OpenAI 宣布，推出新一代旗艦人工智慧（AI）模型GPT-5。它是OpenAI 首個「一體化」的AI 系統，也是OpenAI 首次將o 系列模型的推理能力與GPT 系列模型快速反應能力結合的產物。

OpenAI CEO Sam Altman 在新模型發布會上高度評價GPT-5，稱它是“世界上最好的模型”，是相比此前模型的“重大升級”，並表示，它的問世標誌著，OpenAI 在實現通用人工智能（AGI）道路上邁出“重要一步”。

OpenAI 介紹，GPT-5 在多項基準測試中表現出色，在程式設計、數學、健康等領域達到前沿程度。 GPT-5 在SWE-bench Verified 程式碼測試中得到74.9% 的準確率，略超Anthropic 本週二發布的新模型Claude Opus 4.1。同時，GPT-5 的幻覺問題大幅改善，錯誤訊息率僅4.8%，遠低於前代模型GPT-4o 的20.6%。

從本週四當天起，GPT-5 向所有ChatGPT 的免費用戶和訂閱Plus、Pro、Team 的付費用戶開放，作為預設型號使用，並於一周內在Enterprise 和Edu 付費方案上線。

與GPT-4o 一樣，GPT-5 免費和付費版的差別在於用量。 Plus 使用者享有更高使用限額，Pro 使用者可無限使用並獲得增強版本GPT-5 Pro。對於免費用戶，完整的推理功能可能需要幾天才能全部上線。一旦免費用戶達到GPT-5 的用量限制，OpenAI 就會為他們切換到更小的型號GPT-5 mini。

OpenAI 週三還表示，將以每年1 美元的象徵性收費向美國聯邦政府機構提供ChatGPT 產品。具體來說是ChatGPT 的企業版，其中包含強化的安全和隱私功能。

OpenAI 剛剛官宣GPT-5，微軟就宣布，從本週四開始，將GPT-5 整合到旗下廣泛的產品組合中，包括365 Copilot、Copilot、GitHub Copilot 和Azure AI Foundry 等平台，讓微軟的企業和消費者用戶能夠立即體驗到GPT-5 的高級推理能力和編程優勢。

GPT-5 擁有程式設計、創意寫作、健康領域三大優勢

OpenAI 的GPT5 發佈公告在一開頭就說，GPT-5 是OpenAI「最智能、最快速、最實用的模型，其內置的思維能力，讓每個人都能擁有專家級的智慧。」

根據OpenAI 介紹，作為OpenAI 的「最強大模型」，GPT-5 在三個關鍵領域實現了顯著提升。

首先是程式設計能力。 GPT-5 是OpenAI 迄今為止最強大的編碼模型，在複雜的前端生成和大型程式碼庫調試方面表現突出，能夠僅憑一個提示就創建美觀響應式的網站、應用程式App 和遊戲。早期測試者註意到其在間距、排版和留白等設計選擇方面的改進。

在從GitHub 取得現實世界編碼任務的基準測試SWE-bench Verified 中，GPT-5 思考後首次嘗試的準確率達74.9%，高於OpenAI 推理模型o3 的69.1% 和GPT-4o 的30.8%。

評論指出，這意味著，GPT-5 的表現略勝於Anthropic 週二推出的Claude Opus 4.1 和谷歌DeepMind 的Gemini 2.5 Pro，後兩者在SWE-bench Verified 測試的得分分別為74.5% 和59.6%。

不過，在衡量數學、人文和自然科學領域模型表現的各學科專家級能力Humanity‘s Last Exam 測試中，帶有擴展推理功能的GPT-5 增強版本GPT-5 pro 在使用工具的情況下得分42%。這略低於得分44.4% 的xAI 模型Grok 4 Heavy。

Altman 稱，GPT-5 尤其擅長按需啟動整個軟體App，也就是所謂的「氛圍編碼」、即用AI 根據自然語言提示產生功能代碼，從而加快開發速度。

作為實例，OpenAI 的研究者演示了，要求GPT-5 創建一款網頁App，幫助說英語的用戶學習法語，而該App 必須有一個引人入勝的主題，包含抽認卡、測驗、經典的貪吃蛇遊戲，以及追踪每日學習進度的方法。

研究者將相同的提示詞提交到兩個GPT-5 視窗中，幾分鐘後產生了兩個不同的App。 OpenAI 的負責人稱，這些App「存在一些缺陷」，但使用者可以根據個人喜好再調整AI 生成的軟體，例如更改背景或添加更多標籤頁。

在創意寫作方面，GPT-5 能夠處理結構複雜的寫作任務，如無韻律的抑揚格五音步詩或自然流動的自由詩。 OpenAI 的ChatGPT 業務副總Nick Turley 表示，GPT-5 在創意任務上表現出「更好的品味」，回應更自然。

健康諮詢是第三個重要提升領域。

GPT-5 能更積極地標記潛在健康問題，幫助使用者解析醫療結果，儘管OpenAI 強調，ChatGPT 不能取代醫療專業人員。

在名為HealthBench Hard Hallucinations 的測驗中，具備思考能力的GPT-5 出現幻覺的錯誤訊息率僅1.6%。這遠低於GPT-4o 和o3 模型，後兩者的錯誤訊息率分別為15.8% 和12.9%。

幻覺可能性顯著降低新的安全訓練模式

OpenAI 稱，GPT-5 相比先前的模型更可靠、更實用，它能更準確地回答現實世界的疑問，幻覺的可能性顯著降低。

在對代表ChatGPT 生產流量的匿名提示詞啟用網路搜尋後，GPT-5 回應中包含事實錯誤的可能性比GPT-4o 低約45%；在思考後，GPT-5 回應中包含事實錯誤的可能性比o3 低約80%。下圖可見，GPT-5 回應的錯誤訊息率僅4.8%，GPT-4o 為20.6%，o3 為22%。

OpenAI 也表示，為GPT-5 引入了一種新的安全訓練形式，名為安全補全（safe completions）。它教導模型在安全範圍內盡可能給出最有幫助的答案。有時，這可能意味著部分回答使用者的問題，或只提供高水準的答案。

如果需要拒絕，經過訓練的GPT-5 會以透明的方式告知使用者拒絕的原因，並提供安全的替代方案。

在受控的實驗和OpenAI 的生產模型中，OpenAI 都發現這種安全補全的方法更加細緻入微，能夠更好地引導雙重用途問題，增強對模糊意圖的魯棒性，並減少不必要的過度拒絕。

OpenAI 的後訓練負責人Michelle Pokrass 表示：「GPT-5 已經過訓練，能夠識別任務何時無法完成，避免猜測，並能更清晰地解釋局限性，相比之前的模型，這減少了無根據的斷言。」

推出四款可選的ChatGPT 聊天預設性格

OpenAI 稱，GPT-5 在指令執行方面表現提升，其執行自訂指令的能力也得到了相應的提升。 OpenAI 將為所有ChatGPT 用戶推出四種預設性格的全新研究預覽版。

初始的四種性格選項－憤世嫉俗者（Cynic）、機器人（Robot）、傾聽者（Listener）和書呆子（Nerd）都是可選的，用戶可在設定中隨時調整，用以匹配ChatGPT 和用戶的溝通風格。

上述四個性格最初適用於文字聊天，之後將擴展到語音聊天，讓用戶無需編寫自訂提示詞即可設定ChatGPT 的互動方式——無論是簡潔專業的、周到支援的，還是略帶諷刺的。

OpenAI 稱，所有這些新性格都達到或超過了我們減少諂媚行為的內部評估標準。

Altman 盛讚歷史性突破用回GPT-4 後效果相當糟

在本週四的簡報會上，Altman 對GPT-5 給予了極高評價，將GPT-5 定位為通往AGI 的重要里程碑。他表示：

「在以往歷史上任何時期，擁有像GPT-5 這樣的東西都是不可想像的。」「這是第一次感覺就像在與任何領域的專家交談。」

Altman 在簡報會上甚至不惜用「踩」GPT-4 抬高GPT-5。他說：

「我嘗試過用回GPT-4，但效果相當糟糕。」

GPT-5 採用統一的系統架構，配備即時路由器，能夠根據對話類型、複雜性和工具需求自動決定是快速回應還是進行深度「思考」。這消除了使用者選擇合適設定的需要，使ChatGPT 更易於使用。

在經濟價值工作的內部基準測試中，使用推理模式的GPT-5 在大約一半的案例中可與專家水平相當或更優，涵蓋法律、物流、銷售和工程等40 多個職業。 OpenAI VP Nick Turley 稱：「這個模型的感覺真的很好。」

Altman 比喻，使用GPT-5 就像隨時擁有學歷通通為博士的專家團隊。他還說：「在很多新領域，人們受到想法的限制，但實際上卻沒有執行能力。」

微軟全面整合搶佔先機

微軟在GPT-5 發布當日即宣布，將其整合到廣泛的產品線中。在企業級應用程式方面，Microsoft 365 Copilot 將利用GPT-5 來更好地處理複雜問題、在長對話中保持專注並理解使用者上下文。企業用戶可透過推理功能處理電子郵件、文件和文件。

對於消費者，Microsoft Copilot 的新智慧模式將利用GPT-5 幫助使用者發現最佳解決方案。使用者可透過copilot.microsoft.com 或Windows、Mac、Android 和iOS 裝置上的Copilot 應用程式免費體驗GPT-5。

開發者將透過GitHub Copilot 和Visual Studio Code 獲得GPT-5 支持，用於編寫、測試和部署程式碼。 Azure AI Foundry 平台將提供所有GPT-5 模型，配備AI 驅動的模型路由器，根據每個任務的複雜性、效能需求和成本效率選擇最佳模型。

微軟AI 紅隊使用嚴格的安全協定測試了GPT-5 推理模型，結果顯示，該模型在惡意軟體生成、詐欺自動化等多種攻擊模式下展現出OpenAI 歷代模型中最強的AI 安全性配置之一。