Agentic AI 進入 benchmark 時代:NVIDIA Blackwell 拿下首個 agent 基礎設施基準
摘要:AI 評測機構 Artificial Analysis 推出業界首個多廠商開放的 agentic AI 基準測試 AA-AgentPerf,用真實程式 agent 的執行軌跡來測。NVIDIA GB300 NVL72 在每百萬瓦電力下可跑 61.4K 個並行 agent,約是 H200(2.6K)的 20 倍。重點不是誰領先,而是 agent 終於有了可被比較的共同標準。
- Artificial Analysis 於 2026 年 6 月 12 日推出 AA-AgentPerf,號稱業界首個多廠商開放的 agentic AI 基準測試。
- 它用公開程式庫、跨 12 種以上語言的真實 coding agent 軌跡來測,量的是每百萬瓦電力能跑多少並行 agent。
- NVIDIA GB300 NVL72 每百萬瓦跑 61.4K 個並行 agent、H200 為 2.6K,差距約 20 倍(DeepSeek-V4-Pro、特定 SLO 條件下)。
【核心洞察】agent 從「能不能跑」進到「跑得多有效率」
過去比 AI agent,多半比的是能力 — 能不能完成任務、完成得對不對。AA-AgentPerf 換了一個問法:同樣的電力,你能同時跑幾個 agent?
Artificial Analysis 在 2026 年 6 月 12 日推出這個基準,定位是「業界首個多廠商開放、profiling 真實 AI agent coding 任務軌跡」的測試。它不是用人造題目,而是抓公開程式庫裡真實 coding agent 的執行軌跡 — 讀檔、寫與改程式、執行指令、再依結果迭代 — 涵蓋 12 種以上程式語言。
【深度拆解】
AA-AgentPerf 測的到底是什麼
它測的核心指標是「每百萬瓦電力的並行 agent 容量」,並設兩個服務水準目標(SLO):每個 agent 每秒 20 token 與 60 token。換句話說,它把抽象的「效能」翻譯成一個更貼近帳單的單位 — 在固定電力預算下,你能同時服務多少個 agent,而且每個都還跑得夠快。
61.4K vs 2.6K:數字背後的意義
在第一個 SLO 設定下,NVIDIA GB300 NVL72 每百萬瓦可跑 61.4K 個並行 agent、平均每張 GPU 57.5 個;上一代 H200 則是每百萬瓦 2.6K 個、每張 GPU 1.4 個。兩者差距約 20 倍。測試模型用的是 DeepSeek-V4-Pro。NVIDIA 把這個落差歸因於 GB300 NVL72 的 72 顆 GPU rack 級 NVLink 連接,以及 fused MoE、MXFP4/MXFP8 kernel 等推論優化。
為什麼是「每百萬瓦」這個單位
agentic workload 的瓶頸跟單次問答不一樣。它的特徵是要「同時服務海量 agent」,這時候真正的天花板往往不是單卡算力,而是電力。用「每百萬瓦並行容量」當單
【我的觀點】
我認為這個基準的出現,比「哪家硬體領先」更值得記下來。當一個能力有了公認的量測方式,行銷話術就會被逼回可驗證的數字。對做決策評估的人來說這是好事 — 你終於能用「每百萬瓦並行容量」這種指標去比,而不是看一段剪好的 demo。
但要保留一點警覺:這類基準目前是廠商主導發布的,NVIDIA 自己貼自己領先,SLO 怎麼設、用哪個模型測,都會牽動結論。我會把 AA-AgentPerf 當成「業界開始有共同語言」的起點,而不是最終裁判。真正有價值的,是之後其他廠商願不願意都上來測、數字能不能交叉驗證。
對台灣團隊,務實的讀法是:如果你要做 agent 的規模化服務,採購和雲端選型應該開始把「電力效率/並行容量」放進比較表,而不是只看單卡規格。這一輪的訊號是,agent 的成本競爭已經從「模型多強」往「同樣電力能跑多少」移動了。
【常見問題 FAQ】
AA-AgentPerf 跟一般 LLM 基準測試差在哪
一般 LLM 基準多半測單次回答的品質或準確率。AA-AgentPerf 測的是 agent 工作負載下的並行效率與電力效率 — 用真實的 coding agent 執行軌跡,量「每百萬瓦電力能同時跑多少個 agent」,更貼近實際部署與成本。
GB300 NVL72 比 H200 快 20 倍是真的嗎
依 NVIDIA 公布的數據,在第一個 SLO 設定下,GB300 NVL72 每百萬瓦可跑 61.4K 個並行 agent,H200 為 2.6K,差距約 20 倍。但這是在 DeepSeek-V4-Pro 模型、特定 SLO 條件下的結果,換模型或換設定數字會變動。
沒有自建機房的團隊需要關心這個嗎
需要。雲端 agent 服務的成本最終會跟硬體的電力效率掛鉤,效率越高、單位 agent 的成本越低。即使你不採購硬體,在選雲端供應商或方案時,並行容量與電力效率仍是值得納入的比較維度。
原文出處:NVIDIA Blackwell Leads on First Agentic AI Infrastructure Benchmark(NVIDIA)、NVIDIA Achieves Leading Agentic Coding Performance on First Agentic AI Benchmark(NVIDIA Developer)