每天燒 $1,500 萬、終身賺 $210 萬 — Sora 的死,揭開視頻 AI 最危險的陷阱

每天燒 $1,500 萬、終身賺 $210 萬 — Sora 的死,揭開視頻 AI 最危險的陷阱

📅 ・ 約 11 分鐘閱讀 ・ 3,292 字

🎯 核心重點 (TL;DR)

  • Sora 終身總營收 $210 萬 vs. 單日推理成本 $1,500 萬,這個比例從根本上揭示了視頻 AI 在現有架構下商業模式無法成立的結構性困境。
  • 視頻 AI 的高成本源於 DiT 架構的三重疊加:token 數量是文字的 60 倍、無法使用 KV 快取、注意力機制的平方複雜度,使每次生成都需從頭完整計算二十至五十輪。
  • 「抽卡體驗」是視頻 AI 最致命的商業殺手:最佳工具的角色一致性只有 70%,用戶反覆重跑的挫敗感與平台的推理成本形成雙重死亡螺旋。
  • 目前唯一宣稱毛利轉正的 Kling,靠的是背靠快手基礎設施的成本補貼,這個優勢無法被獨立視頻 AI 公司複製,不能當作整個賽道的商業模式參考。
  • 視頻 AI 的生死關鍵在於推理成本能否在兩年內降十五倍:Sora 死在成本曲線走到可持續點之前,而現存玩家能否撐到那一天,才是這個賽道真正的核心問題。

OpenAI 在 2025 年 10 月 30 日這一天,剛剛上線 Sora 整整五週。

Bill Peebles,Sora 的負責人,在 X 上發了一則公告:Sora 要開始對重度使用者收取額外生成費用了。理由很直白——

“the economics are currently completely unsustainable”

五個月後,2026 年 3 月 24 日,Sora 關閉了。

終身總營收:約 $210 萬美元。 每日估算推理成本:約 $1,500 萬美元

把這兩個數字放在一起,你不需要讀財報就知道這件事有多糟。但我更想聊的,不是 OpenAI 為什麼失敗,而是這個失敗揭露了整個視頻 AI 賽道的結構性問題——一個用戶端和供給端同時出了問題的局面。

Sora 關閉 — 關鍵數字

  • 上線日期:2025 年 9 月下旬;關閉日期:2026 年 3 月 24 日(不到六個月)
  • 終身總營收:~$210 萬美元(含 App 內購 + API,Appfigures / Sensor Tower 數據)
  • 每日估算推理成本:~$1,500 萬美元(Cantor Fitzgerald 分析師 Deepak Mathivanan 估算)
  • 下載量:2025/11 高峰 333 萬次 → 2026/2 跌至 113 萬次(三個月跌 66%)
  • 第 30 天留存率:跌至個位數百分比
  • Disney 合作:$10 億股權 + 200+ 角色授權(含 Marvel、Star Wars、Pixar),從未動用,隨關閉告吹
  • 競爭格局:Runway($53 億估值)、Kling($1.5 億年收入,宣稱毛利轉正)、Pika($7 億估值)繼續運作

五個月的旋風,和一個從一開始就知道的問題

Sora 的關閉是意外嗎?不是。

2025 年 2 月,OpenAI 首次公開 Sora 的演示影片——在公開上線整整七個月前。那些演示影片太驚人了:城市景觀、海浪物理、電影質感的鏡頭運動。全網轉發,YouTube 上的反應影片累積了幾億次觀看。

九月正式上線,五週後負責人說「經濟模型完全不可持續」。

這中間發生了什麼?其實沒有發生什麼。問題從一開始就存在,只是在真正面對用量的時候變得無法迴避。

每一次 Sora 生成一段十秒的影片,Cantor Fitzgerald 的分析師估算成本大約是 $1.30 美元——需要大約四十分鐘的 GPU 時間,跨四張並行的 GPU。按照活躍用戶數和平均使用量計算,每天的推理費用大約落在 $1,500 萬。而 Sora 的月訂閱費(含在 ChatGPT Pro 的 $200/月套餐),以及直接的影片點數購買,加起來的終身總收入是 $210 萬。

這不是收費定太低的問題,也不是行銷做太差的問題。這是技術成本結構,在現有的架構下,就是對不起來。

為什麼視頻 AI 這麼貴:一個架構層的問題

要理解視頻 AI 的成本問題,需要先理解它和文字 AI 在技術上的根本差異。

ChatGPT 每個月的估算運算毛利率大約是 70%——也就是說,扣掉推理成本,OpenAI 從每個付費用戶的使用中能留下 70% 的毛利。生成一篇五百字的文章,大概需要七百五十個輸出 token,成本換算下來不到 $0.015。

Sora 用的是 DiT(Diffusion Transformer) 架構——把擴散模型(Diffusion)的生成邏輯和 Transformer 的注意力機制結合。問題在於,這個組合在視頻生成的場景下,有幾個疊加的成本炸彈:

第一,token 數量的量級差距。生成五秒的影片,在 Sora 的潛在空間(latent space)裡大約需要四萬到五萬個 token——約是生成五百字文章的 60 倍。但這只是起點。

第二,沒有 KV 快取的好處。文字模型用「逐 token 生成」的方式工作,可以把已計算過的結果快取起來,每個新 token 只需要增量計算。擴散模型不是逐步生成的——它每一輪去噪(denoising step)都要對所有 token 做完整的前向傳播,而且要做 二十到五十輪。等於每次生成都是從頭算一遍,再算一遍。

第三,注意力機制的平方複雜度。Transformer 的自注意力計算是 O(n²)——token 數量翻倍,計算量變成四倍。當 token 數從文字的幾百個膨脹到視頻的幾萬個,這個指數效應就變得致命。

把這三個因素疊加在一起,視頻生成在同樣算力下能做的事,遠遠少於文字生成。這不是 Sora 特有的問題,而是整個基於 DiT 的視頻生成架構的結構性限制。

抽卡體驗:期待與現實之間的落差

技術成本只是問題的一半。另一半是用戶體驗——一個讓這筆成本更難收回的惡性循環。

Sora 的行銷影片,是幾千次生成裡挑出來的最佳結果。你在 YouTube 上看到的那些海浪、城市、電影質感鏡頭,是「已知最好的輸出」,不是「典型輸出」。

真實使用 Sora 的用戶描述的是另一種體驗。研究者的測試顯示,大約 30% 的生成結果是真正令人滿意的,20% 是明顯失敗,剩下 50% 是「堪用但不驚喜」。這個比例聽起來不差,但問題在於:你不知道這次是哪 30%。

這就是「抽卡體驗」——每次生成都像是在拉一次扭蛋機。輸入同樣的提示詞,你不知道會得到什麼。

更具體的問題:

一致性崩潰。目前最好的視頻 AI 模型(如 Runway Gen-4)在「角色外觀一致性」測試中,成功率大約是 70%——Kling 是 50%,Veo 3 是 45%。也就是說,如果你想做一個三個場景的短片,同一個角色的臉、服裝、特徵維持一致的機率,在最好的工具上也只有七成。

手部和臉部的夢魘。這是所有主流視頻 AI 工具共有的問題:融合的手指、多餘的關節、在鏡頭切換之間悄悄改變的臉。人類的手有二十七根骨頭、三十四條肌肉,同時做出旋轉、彎曲、外展的動作——擴散模型在沒有明確三維先驗的情況下,很難在時序上維持這個一致性。

時間連貫性(temporal coherence)失效。超過十秒的影片,物體可能無故消失或出現,人物可能滑行而不是行走,肢體可能穿過障礙物。場景在時間軸上「漂移」,而不是在物理規則下穩定演進。

結果是:用戶需要多次重跑才能得到一個「勉強可用」的結果。而每一次重跑,都是一筆推理成本。

高成本 × 低命中率 = 雙重死亡螺旋。你多讓用戶跑幾次,你就多燒幾倍的成本。

AI 視頻生成的用戶體驗落差——行銷影片的科幻感,與實際抽卡過程的挫敗

競爭格局:誰還在撐,憑什麼撐

Sora 關閉了,但視頻 AI 這個賽道沒有關閉。活下來的玩家,用的是不同的策略。

Runway:$53 億估值,今年二月剛完成 $3.15 億的新輪融資,投資人包含 NVIDIA、Adobe、AMD。2024 年財務數字難看——$4,400 萬營收對比 $1.55 億的 EBITDA 虧損——但它有一個明確的市場定位:專業內容創作者,不是一般消費者。Runway 的用戶願意為品質付出更多,需求端更清晰。

Kling(快手):這是目前在商業化上走得最遠的視頻 AI。2025 年全年收入 $1.5 億(約十億人民幣),年末月收入超過 $2,000 萬,宣稱推理毛利轉正。快手整體毛利率是 55%,Kling 能掛在快手的運算基礎設施上成長,不需要單獨撐起全部成本。這個「背靠大樹」的結構,是 Sora 作為 OpenAI 獨立產品所沒有的緩衝。

Pika:估值約 $7 億,募資 $1.15 億,定位更偏消費者端和社群內容。整合進 Adobe Firefly,嘗試讓 AI 視頻成為非專業創作者的工具。

Google Veo 2:API 定價 $0.50/秒($30/分鐘)——這個定價不是以盈利為目的,而是以讓開發者使用 Google Cloud 為目的。Google 的整體年營收超過 $3,000 億,Veo 的虧損可以被無限稀釋。

共同點:除了 Kling 之外,沒有任何獨立視頻 AI 公司公開宣示毛利轉正。Runway 的估值是基於成長潛力,不是現有獲利能力。

成本下降的速度,決定這個賽道的命運

Cantor Fitzgerald 的分析師 Deepak Mathivanan 提出了一個讓人在意的預測:視頻 AI 的推理成本,2026 年底前可以降五倍,2027 年底前可以降十五倍

這不是空穴來風。文字 AI 的先例可以參考:2022 年底到 2026 年初,文字推理成本大約下降了 1,000 倍——硬體迭代(每代 GPU 省 2-3 倍)、軟體優化(vLLM、TensorRT)、架構效率(MoE),幾個因素疊加。

視頻 AI 同樣有具體的改善路徑。DiT 架構的「去噪步驟冗餘」問題,已經有研究(如 AdaCache)在著手解決。NVIDIA Blackwell 相比 Hopper 在大模型推理上降成本約四倍。每代 H100 等級的 GPU 在能源效率上每年改善約 30%。

問題是:改善速度夠快嗎?

就算推理成本降五倍,當前用戶每天的平均生成需求也只是從 $1,500 萬降到 $300 萬——$210 萬的終身收入依然追不上。更關鍵的是:成本降低的同時,競爭也在加劇。中國的 Kling 在追,Google 在貼補,Runway 在募資。OpenAI 必須在成本曲線降到商業可持續之前,維持足夠的競爭差距——這個賽跑它沒有選擇繼續。

我的判斷

視頻 AI 的問題不只是成本,而是成本和體驗同時出了問題。

如果今天視頻 AI 的生成品質像文字 AI 一樣「第一次就大約可用」,高成本還是值得付——消費者願意為高品質的創意工具付出更多。Midjourney 的圖片生成就是這樣打出來的:品質夠好,用戶願意訂閱,毛利穩健。

但現在的視頻 AI 是高成本 + 低一致性的組合。每次生成你要賭,賭輸了要重來,而每次重來都是錢。對用戶是挫敗感,對平台是燒錢。

Kling 的正毛利訊號是有意義的,但它建立在快手的基礎設施補貼上,不能直接外推到所有獨立視頻 AI 公司。真正的考驗是:當成本下降到可持續的範圍,市場上還剩下哪幾個玩家有足夠的用戶基礎和品牌認知,能把商業模式跑通?

Sora 死得太早了——它死在成本下降的曲線還沒走到可持續點之前。

這不是視頻生成 AI 的終結,而是第一批先烈的教訓:在硬體和架構讓成本真正下來之前,靠燒錢把市場打開,不是一個可以走通的策略。

🎯

五個你需要知道的觀點

$210 萬 vs $1,500 萬/天——數字本身就是結論

Sora 的問題不是執行不佳,而是架構決定了成本下不來。終身收入與單日成本的比例,是整個視頻 AI 賽道面對的縮影。

文字 AI 能賺錢是有原因的

ChatGPT 的推理毛利率 70%、GPT 毛利率約 50%,因為 KV 快取讓每個新 token 的邊際成本極低。DiT 視頻模型沒有這個優勢:每次生成都要從頭算二十到五十輪,沒有增量。

抽卡體驗是商業模式的殺手

最好的視頻 AI 角色一致性只有 70%,用戶需要多次重跑才得到可用結果。高成本 × 低命中率 = 雙重死亡螺旋,每次重跑都在燒更多推理費。

Kling 是目前唯一可參考的商業模式

快手旗下 Kling 宣稱毛利轉正,2025 年收入 $1.5 億。但 Kling 背靠快手基礎設施,這個優勢獨立公司複製不了——不能直接外推到整個賽道。

成本曲線決定誰能活到最後

分析師預測視頻 AI 推理成本兩年內降十五倍。這個窗口期,是現有玩家能否在技術趕上來之前建立足夠護城河的唯一機會。Sora 死在窗口期之前。

Sora 關閉五週後,Disney 宣布他們已在與其他 AI 視頻夥伴洽談。那份 $10 億的合約會找到新主人,問題是:新主人能撐到成本曲線走到商業可行的那一天嗎?

視頻 AI 不缺夢想,也不缺資本。它缺的,是時間。

📡

每週科技評析

喜歡這篇分析?

每週一篇深度科技洞察,直送你的信箱。不追流量,只寫有誠意的內容。

加入讀者行列

🔒 零垃圾信,隨時取消,完全免費

留言討論