四個段落、九個架構。我們不背論文,建立直覺 → 看清資料流 → 認出它在拼哪些積木。
幾乎所有現代模型,
都在做同一件事:
把任務改寫成「序列預測」,
再交給最強的序列引擎去學。
接下來每個架構,我們都回到這句話:它把什麼變成了序列?
拿一張清晰照片,往上面慢慢撒鹽,撒一千次後變成純雜訊。
Diffusion 做的事,就是學會把這個過程倒帶回去。
每一步模型只回答一個小問題:
「這張髒髒的圖,比起一秒前,多了哪些雜訊?」
把預測到的雜訊減掉,圖就乾淨一點點。重複幾十次,純雜訊就長成一張新圖。
訓練 loss 簡單到不可思議:
U-Net 的 skip connection 把 Encoder 的高頻細節捷徑傳給 Decoder,所以生成的圖不會糊。
U-Net 在 Diffusion 上很好,
但它不太 scale。
而 Transformer 早被 GPT、ViT 證明:
加參數、加資料、加算力,效果穩定變好。
Peebles & Xie 的問題很直接 —
「能不能把去噪器從 U-Net 換成 Transformer?」
答案是可以,而且 scaling 曲線非常漂亮。
架構不再卡死輸入大小 → Sora 能生成任意解析度、任意長度的影片。這就是「Diffusion 給穩定,Transformer 給 scaling」的強強聯手。
訓一個基底模型,使用者用「提示」(點、框、文字)告訴它要切什麼 —— 就像 GPT 用 prompt 控制輸出。
效率的秘密:重的 encoder 只算一次,之後每點一下只跑毫秒級的 decoder。
SA-1B:1,100 萬張圖、11 億個 mask,史上最大分割資料集。
遮擋也能找回:物體被擋住時,Memory Attention 可以跨過遮擋幀,直接 attend 到它消失前還完整可見的特徵。
更快更小:image encoder 從 ViT-H 換成 Hiera(分層式 MAE),多尺度、token 更少、速度更快。
LLM 只懂 text token,視覺編碼器吐的是 image embedding。
這是兩個不同空間的向量 —— 怎麼接起來?
下一頁:三種把「眼睛」接到「大腦」的做法。
CLIP 出 576 個 image token → 2 層 MLP 翻譯到 LLM 空間 → 直接接上文字 token。
256 個可學習 query 去 cross-attend 圖像特徵,把任意大小的圖壓成固定長度。
不外接視覺,從 pretrain 就把圖像 token 和文字 token 混在一起學。
比喻:Resampler 像帶 256 個筆記格進圖書館 —— 只帶走精煉筆記,而非整櫃原書。
與其讓全部腦細胞都工作,不如只叫「相關的專家」上工。
Mixtral 8×7B:總參數接近 47B 的知識量,推理速度卻接近 13B 的小模型。
Router 老把 token 送同一個專家 → 其他專家學不到東西(expert collapse)。
解法:加 auxiliary loss 鼓勵 router 把 token 平均分給每個專家。
每次只跑 2 個,但 8 個都得放在 VRAM。47B × 2 bytes ≈ 94 GB。
解法:量化(INT4 → ~24 GB)、把閒置 expert offload 到 CPU。
分散式訓練時 token 要被 route 到不同 GPU 上的專家,all-to-all 通訊很貴。
解法:Expert Parallelism + 通訊優化(如 aux-loss-free 均衡)。
為什麼工業界還是愛它?因為它繞過 Chinchilla 瓶頸:固定推理算力下塞進更多總知識。
Self-attention 是 O(n²) 計算與記憶體。
序列長度翻倍,成本就翻四倍,KV cache 吃光顯存。
能不能做到 O(n),又記得住長期依賴?
答案來自控制理論的老朋友 —— 狀態空間模型 (SSM):
這其實就是一個 RNN —— 但 A,B,C 結構化後可等效成 convolution。
平行計算
線性、O(1) per step
原始 SSM 的 A,B,C 是固定的,記性平均。Mamba 讓 B、C、Δ 都依賴輸入 —— 這就是 selective:
像聽演講:大腦自動濾掉「嗯、啊」,但關鍵結論會特別記住。
代價:固定大小的 state 是有損壓縮 —— 精確檢索「第 37 頁第 2 行」的能力弱於 Attention。所以趨勢是 Hybrid(如 Jamba:80% Mamba + 20% Attention)。
不要直接編碼「絕對位置」,
而是讓 attention 的內積自然反映「相對距離」。
位置 m 的向量旋轉 m·θ 角度,內積後:
結果只依賴 (n−m) —— 相對位置!而且不增加任何參數。
外推:推理時加大 base frequency(NTK / YaRN),訓在 4k 就能推到 128k+ 不崩。
Llama、Mistral、Qwen 全用 RoPE。
瓶頸不在計算量,在記憶體搬運 (IO)。
標準 attention 要把 n×n 矩陣寫進慢的 HBM,IO 是計算的 12 倍。
exact,非近似 · 2–4× 加速 · 記憶體 O(n²)→O(n)。
不靠精心標註,而是靠海量「大概對」的網路字幕。量變造成質變。
它的強,不是架構創新,而是規模 + 弱監督。架構就是標準的 Encoder–Decoder Transformer:
<en><transcribe> → 英文轉寫
<ja><translate> → 日文 → 英文翻譯
不指定語言 → 模型先做語言偵測
<timestamps> → 帶時間戳記輸出
這跟今天用 ChatGPT 的 system prompt 是完全相同的思想 —— 用提示控制行為,不用改架構。早在 2022 年就出現了。
把 參數 N、資料 D、算力 C 同時加大,
test loss 就沿著一條漂亮的冪律穩定下降。
α≈0.076, β≈0.095,C≈6ND —— 跨 6 個數量級都成立。
含義:不用做架構創新,三個變數一起加大,loss 就繼續降。這直接點燃了 GPT-3、GPT-4 的軍備競賽。
這也是為什麼追 DiT、追 Mamba 時,最在意的是「scaling 曲線漂不漂亮」。
GPT-3:175B × 300B token
Chinchilla:70B × 1.4T token
Llama 3-8B:8B × 15T token
工業界為何選 overtrain?小模型多花 10× 訓練成本,但部署幾個月,推理省下的算力就回本。另外還有 Inference Scaling(o1 用 CoT 換品質)與 Data Scaling(合成資料)。
= Diffusion + Transformer
= DiT + 時空 patch
= Transformer + MoE + 多模態
= Transformer + RoPE + Flash
= Mamba + Transformer hybrid
學會看出一篇論文在拼哪些積木,比記住每篇論文重要得多。
噪聲、物件集合、mask、文字 —— Transformer 是最強的序列引擎。
架構創新只領先半年;先看 scaling 曲線漂不漂亮。
Encoder、Decoder、Projector 自由換 —— 現代模型是樂高。
Flash、MoE、Mamba、量化 —— 最終都要面對「跑不跑得動」。
從 LLaVA → GPT-4o,從文字 → 圖像 → 影片 → 音訊,統一進同一個模型。
原則:建立直覺 → 理解觀念 → 動手實作 → 做出自己的東西。
把這些架構當成工具箱裡的工具。你不需要全部精通 —— 認得出它在拼什麼,就夠了。