Anthropic 收購 Vercept:Claude 電腦操作能力從 15% 躍升至 72.5%

Anthropic 收購 AI 感知與互動技術公司 Vercept,三位共同創辦人加入團隊。Claude 的電腦操作能力在 OSWorld 基準測試上從 2024 年底的不到 15% 躍升至 72.5%,接近人類水準,這是 Anthropic 繼收購 Bun 後的第二次重大團隊併購。

【核心洞察】Anthropic 用併購補齊 AI Agent 的「眼睛和手」
AI 能寫程式碼、能回答問題,但要讓它像人一樣操作電腦 — 看懂螢幕上的按鈕、在試算表裡切換欄位、跨分頁填寫表單 — 這需要解決的是「感知與互動」問題。Anthropic 在 2026 年 2 月 25 日宣布收購 Vercept,正是為了補齊這塊能力。
Vercept 的團隊多年來專注於研究 AI 系統如何在人類日常使用的軟體中「看見並行動」。三位共同創辦人 Kiana Ehsani、Luca Weihs 和 Ross Girshick 將加入 Anthropic,直接推進 Claude 的電腦操作(Computer Use)能力。Vercept 將在未來幾週內結束其對外產品營運。
【深度拆解】
OSWorld 基準測試從不到 15% 跳升至 72.5% 意味著什麼?
OSWorld 是一個被廣泛使用的 AI 電腦操作能力評測基準。2024 年底,Sonnet 模型在該基準上的得分不到 15% — 這代表 AI 在大多數真實電腦操作任務上會失敗。
到了現在,Sonnet 4.6 的得分已達到 72.5% 讓 AI 操作電腦的核心難題不只是語言理解,而是視覺感知與互動 — AI 必須理解螢幕上每個元素的意義、位置和操作方式。這是一個需要多年深耕的專門領域。Vercept 的創立前提就是「讓 AI 真正有用地完成複雜任務,需要解決困難的感知與互動問題」。 這是 Anthropic 繼收購 Bun 之後的第二次重大團隊併購。Anthropic 在公告中表示,他們優先選擇技術野心與自身一致、且重視安全與嚴謹原則的團隊。這種「收購團隊而非產品」的策略,顯示 Anthropic 認為 Computer Use 是需要長期投入的核心能力,而非可以快速疊加的功能。 Anthropic 指出,Claude 的電腦操作能力讓它可以「在真實應用程式中處理多步驟任務,就像一個坐在鍵盤前的人」,並且能「解決單靠程式碼無法解決的問題」。這句話的關鍵在於:很多企業流程並沒有 API,員工是透過 GUI 介面(點擊、輸入、切換分頁)來完成工作。Computer Use 讓 AI Agent 能直接操作這些介面,而不需要等待每個軟體都開發 API 串接。 Vercept 是一家專注於 AI 感知與互動技術的公司,核心能力是讓 AI 系統理解並操作人類日常使用的軟體介面。三位共同創辦人 Kiana Ehsani、Luca Weihs 和 Ross Girshick 將加入 Anthropic。Vercept 將在未來幾週結束對外產品營運,團隊全力投入 Claude 的 Computer Use 能力開發。 根據 Anthropic 公佈的數據,Sonnet 4.6 在 OSWorld 基準測試上達到 72.5% 的成績,能處理導航複雜試算表、跨瀏覽器分頁填寫表單等任務,接近人類水準。相比 2024 年底不到 15% 的成績,能力已大幅提升。但這仍非 100%,在高度複雜或非標準化的介面操作上仍有侷限。 Vercept 是 Anthropic 繼 Bun 之後的第二次重大團隊併購。兩次收購都是「收購團隊」而非「收購產品」的模式,目標是將特定領域的頂尖人才整合進 Anthropic 內部。這透露出 Anthropic 正在系統性地透過併購補齊 AI Agent 所需的核心技術能力。 原文出處:Anthropic acquires Vercept to advance Claude’s computer use capabilities為什麼 Anthropic 選擇併購而非自建?
Computer Use 能解決什麼「純程式碼解決不了」的問題?
【Takeaways:你能帶走的價值】

