如何用價值$15000的 4060TI 談一場永不審查的戀愛,GGUF 與 ComfyUI 對於 API Wrapper CEO的救贖

那一夜,我講了一場 open mic

◼︎ 談戀愛的主角 1

▪︎ 4060 Ti 16GB(價值約 15,000台幣)

先介紹第一位主角。
它不新、不貴、也不在任何CEO的創業簡報裡。

但它很重要。

因為它代表的是,一般人買得起的算力。


◼︎ 談戀愛的主角 2

▪︎ 情趣內衣品牌

▪︎ 但 Google 沒辦法幫你生成色色的行銷圖

第二位主角比較尷尬一點。

它有需求、有預算、
但只要你把 prompt 打進 Google 的模型——

「對不起,這個內容不適合。」

不是你不會行銷,
你根本沒有選擇權。


AI 創業者,不能只把生成能力交給雲端

我講的是一段很現實的故事——
用一張價值 15,000 元的顯卡,完成雲端做不到的事,也完成了從沒想過地端能夠完成的事情。

現場有一點點人笑,有些人點頭表示他早就懂我說的了。
你遇到一個你很想要impress的性感內衣品牌,卻發現你的 AI 大殺氣抬不起頭
你的圖像,影音生成能力變成只能服務主流價值觀覺得OK的品牌

我頓時覺得自己引以為傲的AI Agent軍團突然遜色了不少


算力主權是什麼?為什麼它突然變成創業問題

算力主權(Compute Sovereignty),
不是政治名詞,而是一個極度實際的產品問題:

你的核心價值,是不是必須透過別人的 API 才能被生產?

如果答案是肯定的,你就同時接受了三件事:

  • 成本結構不在你手上

  • 內容邊界不在你手上

  • 推理節奏不在你手上

在生成式 AI 還只是輔助工具時,這不是問題;
但當「生成本身」變成產品核心,
這會直接影響你能不能 scale、能不能差異化。


雲端生成的結構性限制(不是效能不夠)

以主流雲端模型為例(Google、OpenAI、阿里系):

1️⃣ 內容審查(Content Moderation)是預設值

不論你做的是情趣、醫療、金融或情緒陪伴,
推理結果會先經過平台價值觀的裁切。

這不是 bug,是設計,是大公司的倫理,也是人類倫理的問題。

2️⃣ 推理延遲(Inference Latency)與成本不可控

  • 高品質模型需要排隊

  • 高峰期 latency 飄忽

  • API 計價每天都有可能調整

3️⃣ 模型不是你的

你無法深度測試極限、
也無法真正建立模型行為的理解。

這些問題,本質上都指向同一件事:
推理主權不在你手上。


那張 15,000 元的顯卡,為什麼成為轉捩點

我用的是 RTX 4060 Ti 16GB
不是資料中心等級,也不是旗艦卡。

但只要推理發生在地端(On-device / Local Inference),
你突然可以做到雲端模型「理論上能、實務上不給你做」的事。

包括一些對行銷極度關鍵、
但在雲端平台被直接擋掉的生成內容。

在研究過程中,我理解了兩個秘密武器,GGUF與ComfyUI


什麼是 GGUF?為什麼它是地端推理的關鍵

GGUF(GG Unified Format)
是一種為「推理(Inference)」而生的模型檔案格式。

它不是新模型,,
而是對模型「怎麼被載入、怎麼被存取」的重新設計

GGUF 的核心特性

  • Inference-first weight layout
    權重依照實際推理存取順序重排,
    降低 cache miss 與 VRAM peak,並且站在一個視角,這個模型不會再拿回去訓練了,他就是用來infernece的。

  • Block-wise Quantization(區塊量化)
    不平均犧牲精度,而是集中在低敏感區域。

  • Memory-mapped IO(mmap)
    權重不必全部常駐記憶體,
    由作業系統負責動態載入。

  • CPU / GPU Hybrid Execution
    將部分比較簡單的線性運算 offload 到 CPU,
    把 VRAM 留給 Attention 等高價值計算。

GGUF 能讓「模型大小」不再等於「記憶體需求」。


什麼是 ComfyUI?為什麼它讓 GPU 真的「撐得住」

ComfyUI
我原本以為他是一個人比較舒服使用的UI,但看起來其實一開始就沒有很COMFY
我才發現,阿原來是讓GPU comfy的阿!
不只是單純的 UI,而是一套以 DAG(Directed Acyclic Graph)
為核心的推理流程管理系統。

DAG 在推理裡做了什麼?

  • 每個節點都知道自己「依賴誰」

  • 只有當輸入改變,節點才會重新執行

  • 沒被影響的結果可以被快取與重用

例如:

  • 改 prompt → 只重跑 Text Encode 與 Sampler

  • Upscale、Face Restore、後處理 → 完全不動

這帶來一個關鍵效果:

VRAM 峰值被時間拆散,而不是被硬撐。


為什麼 Attention 特別吃記憶體?為什麼 GGUF + ComfyUI 有效

Transformer 本質只做四件事:

  1. 表示(Representation)

  2. 關聯(Attention)

  3. 變換(FFN)

  4. 穩定(Residual / LayerNorm)

真正導致 VRAM 爆炸的,是 Attention 的同時存在需求

  • Q / K / V

  • Attention score(O(N²))

  • KV cache(autoregressive inference)

GGUF 沒有改變 Attention 的數學,
ComfyUI 也沒有改模型結構。

它們做的只是同一件事:

避免讓所有昂貴的中間結果「同時活著」。


算力主權,最終是產品主權

當推理在你自己的機器上發生:

  • 你決定內容邊界

  • 你決定成本曲線

  • 你決定生成節奏

這對創業者意味著:

  • 可以測試雲端不允許的用例

  • 可以快速驗證市場真實反應

  • 可以在早期就建立技術護城河


回到五層蛋糕:創業者該重新思考的地方

黃仁勳提出的 AI 五層蛋糕:

  1. 能源

  2. 晶片

  3. 基礎設施

  4. 模型

  5. 應用

多數創業者只站在最上層。

但地端推理讓你第一次同時踩進:

  • 晶片選型

  • 推理基礎設施

  • 模型部署策略

護城河,不一定在最上層,
而是在你願不願意往下走。


那一夜的 open mic,
我講的其實不是顯卡,也不是模型。

我講的是一個選擇:

當生成能力成為產品核心,
你是否擁有不依賴雲端的能力?

那張價值 15,000 元的顯卡,可以讓你談一場永不審查的戀愛
你不見得要跟顯卡談戀愛,
但你第一次有資格做出選擇。