供應商變對手 — Cursor 為什麼要親手打破 LLM 依賴

供應商變對手 — Cursor 為什麼要親手打破 LLM 依賴

📅 ・ 約 9 分鐘閱讀 ・ 2,611 字

有一個數字讓我看了很久:十分之一。

三月十九日,Cursor 發布了 Composer 2——它的第一個真正意義上的自研代碼模型。在 CursorBench 測試上,Composer 2 以 61.3 分略勝 Claude Opus 4.6 的 58.2 分。但更讓人注意的,是定價:輸入每百萬 token $0.50,輸出 $2.50。而 Claude Opus 4.6 的報價是 $5.00/$25.00。

兩者效果相近,但成本差了十倍。

這個數字說的不只是定價。它說的是一家公司終於走到了一個它在商業邏輯上早就應該走到的地方。

Composer 2 速覽(2026-03-19)

  • 模型定位:代碼專用(code-only),不處理非程式碼任務,200,000 token 上下文窗口
  • 核心技術:以 Kimi K2.5 開源模型為基礎(約 25%),加入 Cursor 自有長任務強化學習(Long-Horizon RL)和自摘要壓縮技術
  • 定價:Standard $0.50/$2.50 per M token;Fast(預設)$1.50/$7.50(vs Claude Opus 4.6 的 $5/$25)
  • CursorBench:61.3(Composer 2)vs 58.2(Claude Opus 4.6),但 SWE-bench Multilingual 上 Claude 仍以 77.8 vs 73.7 領先
  • 背景:Cursor 年化收入突破 $20 億(二○二六年二月),估值洽談中目標 $500 億

你的供應商,成了你最強的競爭對手

要理解為什麼 Cursor 要建立自己的模型,先要理解它的處境有多尷尬。

Cursor 的產品,長期建立在 Anthropic 和 OpenAI 的 API 上。它是 Anthropic 最大的企業客戶之一。每一個 Cursor 用戶用 AI 補全一段代碼、讓 Composer 幫他重構一個函式,背後都有一筆 API 費用流向 Anthropic 或 OpenAI。

然後,在二○二五年二月,Anthropic 推出了 Claude Code。

Claude Code 做的事和 Cursor 做的事幾乎一樣——AI 驅動的代碼生成與 Agent 模式。到二○二六年初,它的年化收入已超過 $25 億,企業客戶逾三十萬。而 OpenAI 也在同期推出獨立的 Codex 應用,Google 推出 Gemini CLI。

換言之,Cursor 的供應商全部搖身一變成了競爭對手。

這不是 Cursor 的運氣特別差——這是一個在 SaaS 行業有幾十年歷史的結構性風險:建立在平台上的產品,當平台決定親自做這件事的時候,你拿什麼抵禦?通常沒有什麼。除非你在那之前已經建立了足夠的差異化。

更糟的是,競爭是不對稱的。Anthropic 和 OpenAI 以「批發價」使用自家模型,Cursor 以「零售 API 價」採購,然後試圖在同一個市場裡競爭。用某位分析師的話說:「每花一美元只賺回九十美分不是一門生意。」

Composer 2 是什麼,它是怎麼練出來的

Cursor 官方部落格在發布時說的是「自研代碼模型」,強調的是長任務強化學習和自摘要壓縮技術。這兩個技術確實有意思。

長任務強化學習(Long-Horizon RL)解決的是一個很具體的問題:通才大模型在執行超過幾百步的複雜代碼任務時容易「迷路」——不知道自己走到哪一步、接下來該做什麼。Cursor 透過在這類長任務上做強化學習,讓模型學會如何維持方向感。

自摘要壓縮(Self-Summarization / Compaction-in-the-Loop RL)則是另一個實用技術:當對話逼近 token 上限,模型會主動把五千個 token 的上下文壓縮成約一千個,同時比標準壓縮方法減少 50% 的資訊損失。這讓長時間的 Agent 工作流變得更穩定。

不過,發布幾小時後,社群工程師透過 API 回應識別碼發現了一個細節:模型識別碼顯示 kimi-k2p5-rl-0317-s515-fast。基礎模型是中國 Moonshot AI 的開源模型 Kimi K2.5,Cursor 在其上進行了持續預訓練和強化學習。Cursor 聯合創辦人 Aman Sanger 事後承認:「一開始沒有提到這點是個失誤。」

這在開發者社群引起了一陣討論。有人說:「Composer 1 用 Qwen,這次用 Kimi,IDE 基於 VSCode——有多少是真正自研的?」也有聲音認為,Cursor 在基礎模型之上加入的 RL 和上下文技術,是實實在在的工程貢獻,不能因為基礎是開源模型就否定整個工作。

這個爭議很有意思,但我認為它問錯了問題。

「有多少是自研的」不重要。重要的問題是:這個模型是否讓 Cursor 脫離了對 Anthropic 和 OpenAI 的結構性依賴? 答案是:部分是的。

深夜的開發者工作台——AI 編碼工具的角力最終發生在這裡

SaaS 的垂直整合:Windsurf 早走了一步

Cursor 不是第一個做這件事的。

二○二五年五月,Windsurf(前身 Codeium)發布了 SWE-1 系列模型,比 Composer 2 早了整整十個月。Windsurf 的定位是「流程感知(flow awareness)」——模型被訓練成理解整個軟體工程流程,而不只是當前的代碼片段。它在當時被認為效果接近 Claude 3.5 Sonnet。

反觀 GitHub Copilot,它選擇了另一條路:不自建模型,而是做多模型聚合——支援 GPT-5.2、GPT-5 Mini、Claude、Gemini,讓使用者選擇。GitHub 的優勢在於微軟的 Azure OpenAI 深度整合,以及對 GitHub 平台生態的掌控,這讓它不需要用自研模型來建立差異化。

Amazon Q Developer(前身 CodeWhisperer)則走的是另一個維度——把自家的 Titan 模型和 AWS 生態綁在一起,優先服務 AWS 用戶,而不是追求模型能力的前沿。

這三種路線,其實代表了 AI 工具商當前的三種選擇:

一、垂直整合,打造代碼專用模型,用成本和專業化對抗通才大廠(Cursor、Windsurf)。 二、多模型聚合,把「選擇」本身做成護城河(GitHub Copilot)。 三、生態綁定,靠平台優勢彌補模型能力的差距(Amazon Q)。

🎯

三條路線的商業邏輯

垂直整合(Cursor、Windsurf)

建代碼專用模型,單位成本更低、對長任務優化更深。風險是:如果 Anthropic 和 OpenAI 的通才模型繼續縮小和代碼專用模型的差距,護城河就會變淺。

多模型聚合(GitHub Copilot)

把「使用哪個模型」的決策權還給用戶,自己做整合層和開發者工作流。優勢是不押注單一模型;劣勢是缺乏成本結構的長期控制。

生態綁定(Amazon Q)

不追求最強模型能力,靠平台基礎設施優勢留住企業用戶。這條路對已有大型生態的玩家有效,對新創公司幾乎不可複製。

通才 API 模式(正在消失)

單純重新打包 OpenAI/Anthropic API 加 UI 的「API 包裝器」商業模式,在供應商直接下場競爭後,生存空間快速收窄。

Cursor 的更深層賭注

Composer 2 的發布,其實說的不只是一個模型,而是 Cursor 在一個更根本問題上的選擇:它到底想成為什麼?

一條路是做成「AI 編輯器平台」,提供最好的開發體驗,但模型能力依賴外部供應商。這條路的極致,是類似 IDE 版的「App Store」——開發者在 Cursor 上選模型,就像消費者在 App Store 選 app。Cursor 的角色是整合層和用戶界面,而不是模型本身。

另一條路是做成「代碼 AI 全棧公司」,從模型層到應用層都自己掌控。這條路的代價更高,需要更大的研發投入,但護城河也更深——因為你的成本結構和競爭對手根本上不同。

CEO Michael Truell 在接受 TechCrunch 訪問時說過一句話:「我們要成為一家長期獨立的、世代性的企業。」這話的分量,不只在「世代性」,而在「長期獨立」。拒絕 OpenAI 的收購邀約、推出自研模型,都是這個方向的具體行動。

從創投角度看,Cursor 現在的處境很有意思:年化收入 $20 億,估值談判中達 $500 億,是 SaaS 史上成長最快的公司之一。但它的核心挑戰,並不是能不能繼續成長,而是能不能在成長的同時讓單位經濟往正毛利的方向走。

Composer 2 如果真能做到「十分之一成本,九成效果」,那個方程式就通了。

但有一個隱患

Composer 2 的 Kimi K2.5 基礎模型,來自中國的 Moonshot AI。這件事在當前的地緣政治氣候下,比在兩年前更敏感。Cursor 的客戶裡有 67% 的財富 500 強企業,其中必然包括對供應鏈來源有合規要求的金融、國防相關公司。

Cursor 辯稱,它透過 Fireworks AI 作為授權推理合作夥伴運行模型,技術上不構成直接的供應鏈依賴。這個解釋法務上可能成立,但在某些客戶的 IT 合規審查裡,「基礎模型訓練語料和架構來自哪裡」是另一個問題。

我不確定這個問題最終會不會成為障礙。但它是一個值得關注的風險點——尤其是在 Cursor 向更多大型企業拓展的過程中。

結尾

Cursor 的故事,說到底是一個關於「護城河」的老問題:在 AI 時代,應用層公司的護城河究竟在哪裡?

是使用者習慣?是工作流整合深度?是模型能力?還是成本結構?

Composer 2 給出了一個明確的押注方向:成本結構。如果代碼專用模型的訓練成本會繼續下降,而通才大模型的優勢會持續縮小,那「做垂直整合」在邏輯上是走得通的。

但通才模型的能力也沒有停止進步。GPT-5.4 在 Terminal-Bench 2.0 上仍以 75.1 分對 Composer 2 的 61.7 分,差距不算小。Anthropic 手上的 Claude Opus 在 SWE-bench Multilingual 上仍以 77.8 分領先。

這場仗才剛換了個打法,還沒看到終局。

Cursor 的護城河,到底夠不夠深——你覺得呢?