AI 寫程式的真正瓶頸不是模型｜協和數位 Harmony Digital

把更貴的模型換上去，產出品質沒有等比提升——這是不少團隊導入 AI 編程代理（coding agent）後的真實感受。模型能力確實在進步，但決定一個 AI 代理能否真的加速開發的，往往不是它寫程式的能力，而是它能不能「看懂你的專案」。

模型很強，但專案脈絡才是真瓶頸

AI 代理在公開 benchmark 上的表現愈來愈好，可是這些評測多半是孤立的演算法題或單檔修改。真實專案完全是另一回事：跨檔案的依賴、團隊內部約定俗成的命名、半套自製的框架、過去某個 PM 留下的奇怪欄位、還有不寫在文件裡的業務規則。

舉個例子，假設一個典型的中型電商系統，訂單狀態橫跨好幾個服務，折扣規則散落在三四個地方。你叫代理「加一個新的折扣類型」，模型本身沒問題，但它如果只看到單一檔案，就會寫出語法正確、邏輯卻錯的程式碼——因為它不知道折扣最終會在另一個服務裡被重新計算一次。

這就是為什麼 retrieval、上下文壓縮、專案索引這些「不性感」的議題，在 2026 年反而成了 AI 工具競爭的主戰場。Cursor、Claude Code、GitHub 的 agent 模式，差別愈來愈不在背後的模型，而在於它們如何把對的檔案、對的歷史紀錄、對的 lint 規則塞進有限的 context window。

真正會用 AI 代理的團隊，反而更重視紀律

反直覺的一點：愈是仰賴 AI 代理的團隊，工程紀律反而要愈嚴。原因很簡單——當生成速度變快，code review 的負擔會線性放大。如果原本一週合併幾十個 PR，現在可能變成上百個，但人類審查的頻寬沒有變。

我們的經驗法則是，在建議客戶導入 AI 代理前，會先看三件事：

測試覆蓋率夠不夠：沒有自動測試，AI 寫的程式碼等於沒被驗證。
型別系統嚴不嚴格：TypeScript 的嚴格模式、Rust 的 borrow checker，這些都是免費的審查員。
PR 顆粒度小不小：代理一次塞給你三百行改動的 PR，沒人能好好讀。

換句話說，AI 代理不是把工程師變成「按按鈕的人」，而是把工程師的角色往上推一層——從寫程式，變成設計約束、審查產出、維護專案脈絡的人。沒有這些前置條件，導入再強的代理也只是讓技術債生成速度變快而已。

我們的觀察

選 AI 編程工具時，不要只看模型分數。比較實際的問題是：它怎麼讀你的 codebase？它能不能跑你的測試？它生成的 diff 是不是適合審查？這些工程化的細節，比模型本身的 IQ 對日常生產力影響更大。模型還會繼續變強，但真正的競爭優勢，會留給有紀律地把它整合進開發流程的團隊。

AI 寫程式的真正瓶頸不是模型

模型很強，但專案脈絡才是真瓶頸

真正會用 AI 代理的團隊，反而更重視紀律

我們的觀察

延伸閱讀

RSC 不是銀彈，是新的架構債

小模型反攻，別再什麼都丟給雲端 LLM

AI Agent 上線後，第一個壞掉的不是模型