給決策評估者2026.06.16

Agentic AI 進入 benchmark 時代：NVIDIA Blackwell 拿下首個 agent 基礎設施基準

摘要：AI 評測機構 Artificial Analysis 推出業界首個多廠商開放的 agentic AI 基準測試 AA-AgentPerf，用真實程式 agent 的執行軌跡來測。NVIDIA GB300 NVL72 在每百萬瓦電力下可跑 61.4K 個並行 agent，約是 H200（2.6K）的 20 倍。重點不是誰領先，而是 agent 終於有了可被比較的共同標準。

Artificial Analysis 於 2026 年 6 月 12 日推出 AA-AgentPerf，號稱業界首個多廠商開放的 agentic AI 基準測試。
它用公開程式庫、跨 12 種以上語言的真實 coding agent 軌跡來測，量的是每百萬瓦電力能跑多少並行 agent。
NVIDIA GB300 NVL72 每百萬瓦跑 61.4K 個並行 agent、H200 為 2.6K，差距約 20 倍（DeepSeek-V4-Pro、特定 SLO 條件下）。

【核心洞察】agent 從「能不能跑」進到「跑得多有效率」

過去比 AI agent，多半比的是能力 — 能不能完成任務、完成得對不對。AA-AgentPerf 換了一個問法：同樣的電力，你能同時跑幾個 agent？

Artificial Analysis 在 2026 年 6 月 12 日推出這個基準，定位是「業界首個多廠商開放、profiling 真實 AI agent coding 任務軌跡」的測試。它不是用人造題目，而是抓公開程式庫裡真實 coding agent 的執行軌跡 — 讀檔、寫與改程式、執行指令、再依結果迭代 — 涵蓋 12 種以上程式語言。

【深度拆解】

AA-AgentPerf 測的到底是什麼

它測的核心指標是「每百萬瓦電力的並行 agent 容量」，並設兩個服務水準目標（SLO）：每個 agent 每秒 20 token 與 60 token。換句話說，它把抽象的「效能」翻譯成一個更貼近帳單的單位 — 在固定電力預算下，你能同時服務多少個 agent，而且每個都還跑得夠快。

61.4K vs 2.6K：數字背後的意義

在第一個 SLO 設定下，NVIDIA GB300 NVL72 每百萬瓦可跑 61.4K 個並行 agent、平均每張 GPU 57.5 個；上一代 H200 則是每百萬瓦 2.6K 個、每張 GPU 1.4 個。兩者差距約 20 倍。測試模型用的是 DeepSeek-V4-Pro。NVIDIA 把這個落差歸因於 GB300 NVL72 的 72 顆 GPU rack 級 NVLink 連接，以及 fused MoE、MXFP4／MXFP8 kernel 等推論優化。

為什麼是「每百萬瓦」這個單位

agentic workload 的瓶頸跟單次問答不一樣。它的特徵是要「同時服務海量 agent」，這時候真正的天花板往往不是單卡算力，而是電力。用「每百萬瓦並行容量」當單

位，等於直接對齊資料中心的成本與供電現實。對打算把 agent 規模化部署的團隊，這個指標比「每秒幾個 token」更接近你最後會付的那張電費單。

【我的觀點】

我認為這個基準的出現，比「哪家硬體領先」更值得記下來。當一個能力有了公認的量測方式，行銷話術就會被逼回可驗證的數字。對做決策評估的人來說這是好事 — 你終於能用「每百萬瓦並行容量」這種指標去比，而不是看一段剪好的 demo。

但要保留一點警覺：這類基準目前是廠商主導發布的，NVIDIA 自己貼自己領先，SLO 怎麼設、用哪個模型測，都會牽動結論。我會把 AA-AgentPerf 當成「業界開始有共同語言」的起點，而不是最終裁判。真正有價值的，是之後其他廠商願不願意都上來測、數字能不能交叉驗證。

對台灣團隊，務實的讀法是：如果你要做 agent 的規模化服務，採購和雲端選型應該開始把「電力效率／並行容量」放進比較表，而不是只看單卡規格。這一輪的訊號是，agent 的成本競爭已經從「模型多強」往「同樣電力能跑多少」移動了。

【常見問題 FAQ】

AA-AgentPerf 跟一般 LLM 基準測試差在哪

一般 LLM 基準多半測單次回答的品質或準確率。AA-AgentPerf 測的是 agent 工作負載下的並行效率與電力效率 — 用真實的 coding agent 執行軌跡，量「每百萬瓦電力能同時跑多少個 agent」，更貼近實際部署與成本。

GB300 NVL72 比 H200 快 20 倍是真的嗎

依 NVIDIA 公布的數據，在第一個 SLO 設定下，GB300 NVL72 每百萬瓦可跑 61.4K 個並行 agent，H200 為 2.6K，差距約 20 倍。但這是在 DeepSeek-V4-Pro 模型、特定 SLO 條件下的結果，換模型或換設定數字會變動。

沒有自建機房的團隊需要關心這個嗎

需要。雲端 agent 服務的成本最終會跟硬體的電力效率掛鉤，效率越高、單位 agent 的成本越低。即使你不採購硬體，在選雲端供應商或方案時，並行容量與電力效率仍是值得納入的比較維度。

原文出處：NVIDIA Blackwell Leads on First Agentic AI Infrastructure Benchmark（NVIDIA）、NVIDIA Achieves Leading Agentic Coding Performance on First Agentic AI Benchmark（NVIDIA Developer）

給決策評估者

AI 工具會來來去去，真正該設計的是底下的資料庫

2026.04.21

給決策評估者

企業導入 RAG 完整實戰指南 — 從「要不要做」到「做完怎麼評估」

2026.03.24

給決策評估者

你的資料真的需要 RAG 嗎？三組 Baseline 實測告訴你

2026.03.24

給決策評估者

8 萬人告訴 Anthropic 他們想從 AI 得到什麼 — 答案不是「更多生產力」

2026.03.22

【核心洞察】agent 從「能不能跑」進到「跑得多有效率」

【深度拆解】

AA-AgentPerf 測的到底是什麼

61.4K vs 2.6K：數字背後的意義

為什麼是「每百萬瓦」這個單位

【我的觀點】

【常見問題 FAQ】

AA-AgentPerf 跟一般 LLM 基準測試差在哪

GB300 NVL72 比 H200 快 20 倍是真的嗎

沒有自建機房的團隊需要關心這個嗎

相關文章