LLM 到底怎麼運作?Transformer 架構白話解
Transformer 架構是 GPT、Claude、Gemini、Llama 所有主流 LLM 的共同基礎。這篇用白話拆解它的核心機制 — attention 怎麼運作、token 怎麼計價、context window 怎麼影響產品設計 — 目的是讓你能判斷「這個需求 LLM 做不做得到、成本合不合理」。
為什麼需要搞懂 LLM 的運作原理
一個具體場景:老闆問你「AI 能不能幫客服自動回覆?」你要怎麼判斷?
不懂原理的回答是「應該可以吧,ChatGPT 很厲害」。懂原理的回答是:「可以,但要看幾個條件 — 知識庫有多大(決定要不要用 RAG)、回答需不需要精確數字(LLM 不擅長計算)、客戶問題有沒有超出訓練資料範圍(會產生幻覺)、每月預估查詢量多少(影響 API 成本)。」
兩種回答的差距,就是理解運作原理帶來的判斷力。以下拆解 LLM 的五個核心概念。
深度拆解
Transformer 之前的世界
2017 年之前,自然語言處理的主流架構是 RNN(Recurrent Neural Network)。RNN 的做法是逐字處理文本 — 讀完第 1 個字才能讀第 2 個字,讀完第 99 個字才能讀第 100 個。
這個設計有兩個致命問題。
記憶衰減。處理一段 500 字的文章,RNN 到後半段就記不住前半段的關鍵資訊。技術上叫「梯度消失」(vanishing gradient)— 訊號在長序列中逐漸衰減到接近零。1995 年發明的 LSTM(Long Short-Term Memory)加了「記憶閘門」機制來緩解,但本質沒變。
無法平行運算。第 100 個字必須等前 99 個字處理完才能開始。類比:一條生產線上只有一個工人,每個零件按順序處理。LSTM 是給這個工人一本筆記本讓他記更多東西,但他還是只有一個人。GPU 再多也沒用,因為架構本身是序列的。
Attention 機制 — LLM 的核心引擎
2017 年,Google 團隊發表了 “Attention Is All You Need”(Vaswani et al.),提出 Transformer 架構,直接解決上述兩個問題。
核心思路的差異:RNN 是「一個字一個字讀」,Transformer 是「整段話同時看,然後判斷哪些字跟哪些字有關係」。
舉例:「那隻貓沒有追老鼠,因為牠不餓」。Self-attention 機制能直接判斷「牠」指的是「貓」而不是「老鼠」,不需要從頭逐字推理。
技術上,每個 token 會產生三個向量 — Query(我在找什麼)、Key(我能提供什麼)、Value(我的實際內容)。透過 Query 和 Key 的比對算出 attention score,決定每個 token 該關注其他哪些 token、關注多少。這不只做一次 — Multi-Head Attention 同時用多組 attention 平行運算,每組捕捉不同類型的關係:有的抓文法結構,有的抓語義關聯,有的抓長距離引用。
為什麼這是革命性的?兩個原因:
- 平行處理:整個句子的所有 token 同時處理,GPU 的平行運算能力終於能被充分利用。原始論文用 8 張 GPU 訓練 3.5 天就在機器翻譯上超越當時所有最佳模型(WMT 2014 英法翻譯 BLEU 41.8 分)
- 長距離依賴:能理解跨越整篇文章的引用關係,RNN 做不到
現代 LLM 幾乎都是 Decoder-only 架構(GPT、Claude、Llama、Gemini 皆是)。原始 Transformer 的 Encoder-Decoder 設計主要用在翻譯等任務,而 Google 2018 年的 BERT 是少數 Encoder-only 的代表,主要用於理解任務(分類、情感分析)而非生成。
Token 與 Context Window — 直接影響產品設計和成本
LLM 不是逐字處理文本,而是切成更小的單位叫 token。一個 token 大約是 4 個英文字元,或 0.75 個英文單詞。中文大約 1-2 個字佔 1 個 token(Unicode 編碼較複雜,效率比英文差)。不同模型用不同的 tokenizer(OpenAI 用 tiktoken,Anthropic 和 Google 各有自己的),同一段文字在不同模型上可能產生不同數量的 token — 這直接影響 API 費用計算。
Context Window(上下文窗口)是模型一次能處理的最大 token 數量,包含輸入和輸出。2026 年主流模型的 context window:
- Claude 系列:200K tokens
- GPT-5 系列:128K tokens
- Gemini 2.5 Pro:1M tokens(目前最大)
Context window 越大不代表越好。塞太多資訊可能降低品質(「大海撈針」問題 — 關鍵資訊被大量無關內容淹沒)。如果需求超過 context window 上限,就需要考慮 RAG(Retrieval-Augmented Generation)等架構。
Next Token Prediction — LLM 真正在做的事
這是理解 LLM 最重要的一個概念:LLM 的本質就是「預測下一個 token」。
給它一段文字,它預測最可能接在後面的下一個 token。生成完整回答的過程是:預測第一個 token → 加到輸
它不是「理解」問題然後「思考」答案,而是基於訓練數據中的統計模式預測最可能的下一個 token。Temperature 參數控制這個預測的隨機性 — 設 0 永遠選機率最高的(確定但可能重複),設 1 按機率分佈隨機取樣(多樣但可能偏題),實務上通常設 0.3-0.7。
理解這個本質,能直接推導出 LLM 的能力邊界:
- LLM 不是資料庫。它不「儲存」事實,而是學到文本中的統計模式。所以它可能很有自信地說出不正確的事(幻覺 / hallucination)
- 知識截止日。訓練資料有時間範圍,超過的事情它不知道
- 不擅長精確計算。它在做 token 預測,不是數學運算
- 輸出品質高度依賴 prompt 品質。同一個模型,不同的 prompt 可以產生天差地遠的結果
模型大小 vs 能力 vs 成本 — 三角取捨
Scaling Law 的核心發現:增加模型參數數量、訓練資料量和計算量,模型表現會可預測地提升。GPT-2(2019)1.5B 參數,GPT-3(2020)175B 參數,GPT-4(2023)推測數千億到兆級。但不是無限線性提升 — 存在收益遞減。
更值得注意的是湧現能力(Emergent Abilities):模型到達某個規模後,突然展現出小模型完全沒有的能力 — 少量範例學習(few-shot learning)、思維鏈推理(chain-of-thought)、程式碼生成。這讓模型的能力邊界變得難以預測。
但能力越強,成本越高。2026 年 3 月的主流模型 API 定價:
| 模型 | 輸入(每百萬 token) | 輸出(每百萬 token) | Context Window |
|---|---|---|---|
| Claude Opus 4.6 | $5.00 | $25.00 | 200K |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K |
| Claude Haiku 4.5 | $1.00 | $5.00 | 200K |
| GPT-5.2 | $1.75 | $14.00 | 128K |
| GPT-4o Mini | $0.15 | $0.60 | 128K |
| Gemini 2.5 Pro | $1.25 | $10.00 | 1M |
| Gemini 2.0 Flash Lite | $0.075 | $0.30 | 1M |
幾個省錢策略:輸出 token 比輸入貴 3-8 倍,限制最大輸出長度直接省錢。Prompt caching 讓重複使用的 system prompt 省下最多 90% 的費用。最有效的是模型路由(routing)— 簡單任務走便宜模型,複雜任務才用貴的,通常能省 60-80%。
我的觀點
理解「next token prediction」這個本質,能幫你快速判斷一個任務適不適合用 LLM。
文本摘要、分類、改寫、翻譯 — 這些本質上都是「給一段文字,預測最可能的輸出」,跟 LLM 的運作機制高度匹配。精確計算、即時數據查詢、需要 100% 正確性的場景 — 這些跟 token 預測的本質衝突,強行使用會出問題。
最常見的 AI 專案失敗原因不是技術不行,是需求端沒搞清楚 LLM 能做什麼。LLM 像一個讀過大量資料的實習生 — 語言能力極強、知識面很廣,但可能會自信地說出錯誤的事、不會做數學、也不知道昨天發生了什麼。用對場景它是超強工具,用錯場景它是昂貴的錯誤來源。
常見問題 FAQ
不懂程式的人需要理解 Transformer 架構嗎?
不需要理解數學細節,但需要理解設計邏輯。你不需要知道 attention score 的計算公式,但需要知道:LLM 能同時「看見」整段文字並判斷關聯性(所以擅長理解上下文)、它是靠 token 預測運作的(所以會產生幻覺)、context window 有上限(所以資料量太大需要其他方案)。這三個認知就足夠你做出合理的技術決策。
怎麼判斷一個任務適不適合用 LLM 來做?
問三個問題。第一,這個任務的本質是不是「給一段輸入,產生一段文字輸出」?如果是,LLM 大概能做。第二,容錯空間有多大?如果錯一次就會造成嚴重後果(醫療診斷、法律條文引用),LLM 單獨使用風險很高。第三,需不需要即時數據?LLM 有知識截止日,需要即時資訊的場景要搭配外部資料來源(如 RAG)。
評估一個 AI 專案可行性,最少要問哪些問題?
五個最基本的。資料有多大?(決定 context stuffing 還是 RAG。)輸入輸出是什麼語言?(影響 token 成本,中文比英文貴。)每月預估多少次呼叫?(算 API 月費。)容錯率多少?(決定需不需要人工審核環節。)有沒有現成的 API 或工具能直接用?(不是所有問題都需要從零建 pipeline。)