General AI 已到極限？用 Fine-tuning 為模型注入真正 Know-how

所謂「Verified Domain」，不僅包含科學、歷史等有明確答案的知識，也涵蓋了那些在預訓練資料中已大量存在的創意風格。例如，若想模仿《哈利波特》或《聖經》的風格，由於這些知名著作早已是 LLM 的養分，簡單的 Prompt Engineering 就足以應付。在這些領域，等待通用模型更新確實比 Fine-tuning 更具成本效益。

但問題在於，並非所有領域都如此幸運。我們身處的戰場——「社群口碑貼文」——就完全屬於另一類，也就是「Non-verified Domain」（非驗證領域）。

這類資料之所以稀缺，甚至不存在於 LLM 的預訓練資料庫中，原因很複雜：

平台內容的版權與爬取限制：社群平台（如 Dcard、PTT）的內容並非能輕易被獲取。
目標內容的定義模糊性：什麼是真正有效的「隱晦式行銷文」？那些由廠商操作、未被用戶識破、又能成功引發聲量的文章，本身就沒有固定標籤可供學習。
高度在地化的語氣與文化脈絡：台灣社群的「口吻」和網路「梗」，與全球主流語料庫存在巨大差異。

基於以上原因，當你的目標是讓 AI 掌握一個它從未學過的獨特技能時，Fine-tuning 就不再是選項，而是唯一的路徑。

「Unknown Factor」的量化方法論：從抽象概念到可操作參數

做 AI 訓練，最怕的就是「無法明確定義」。如果無法定義，訓練資料集的設計永遠會存在問題，導致訓練結果跟目的背道而馳。

但我們堅信一件事：那些高聲量的隱晦口碑文，它們一定有什麼我們不知道的共同因子（Unknown Factor）。

一定有的。

正常來說，當無法定義變因時，是無法設計出有參考價值的實驗的。但我們的做法是，巧妙地將這個抽象的「Unknown Factor」視為一個可操作的「參數」，並以此為前提去建立我們的資料集。這在某種程度上，就是強行讓這個實驗變得有意義。

我也不得不說，這種 Unknown Factor，可能每個人的主觀觀點不同，它就會是不同的東西。在 Non-verified Domain 中，沒有人能說他是絕對的「對」。

我們能做的，只是用「盡可能科學的方式」去引導模型學習它。舉例來說，奢華品牌傳達的「高級感」就是一個典型的 Unknown Factor。我們無法用明確的文字去定義它，但我們可以提供大量被市場公認為有「高級感」的文案、影像與設計給模型學習。對模型來說，儘管每筆資料的產品、情境、用詞都不同，但只要資料集都共同指向這個抽象概念，它就能從中學習到那個貫穿所有資料的、一致的「高級感」風格。

也因此，我會說，這並不是一個「標準答案」，而是一個「我們期望的答案」。

SFT vs. RFT：「教育」與「評分」的方法論探討

有了「好資料」（那些高聲量口碑文），接下來就是怎麼「餵」給模型。這就來到 SFT 和 RFT 的選擇。兩者在訓練邏輯與資料結構上，有著天壤之別。

• SFT：有標準答案的「教育」

SFT（Supervised Fine-tuning，監督式微調）的核心理念非常直觀：「我們提供標準答案，你照著學就對了。」

在訓練過程中，我們會提供一個「User Prompt」（用戶指令），並附上一個我們認為最完美的「Assistant Response」（助理回覆）。模型的工作，就是學習如何在前一個 Token 的基礎上，預測下一個最有可能出現的 Token，使其最終的生成結果，能最大程度趨近我們提供的標準答案。

為了讓模型學會 CoT（Chain of Thought）的思考能力，而不僅僅是模仿文風，我們在「User Prompt」中加入了【行銷手法】與【聲量策略】等欄位。這就像是給了模型一本教科書，讓它在學習寫作的同時，也能理解背後的策略佈局。

而「標準答案」的品質，就決定了模型能力的上限。因此，我們在挑選 SFT 訓練資料時，設下了極其嚴苛的標準：每一篇文章都必須同時符合「已知為品牌操作的業配文」、「在社群上未被識破」，以及「創造了高聲量與高互動」這三大條件。只有經過這樣篩選的資料，才有資格成為我們用來教育模型的教材。

SFT 結構範例：OpenAI vs. Gemini

OpenAI 和 Gemini 的結構略有不同，但核心邏輯相同。以下並排展示兩種平台的結構，方便比較：

OpenAI 結構

{
  "messages": [
    {
      "role": "system",
      "content": "(...System Instruction...)"
    },
    {
      "role": "user",
      "content": "【品牌】凡士林
【產品名稱】乳液
【產品特色】...
【文體】...
【人物設定】...
【故事切角】...
【行銷手法】...
【聲量策略】..."
    },
    {
      "role": "assistant",
      "content": "【標題】
#分享 首爾音樂節曬傷急救一個月成果
【內文】...
【回文】..."
    }
  ]
}

Gemini 結構

{
  "systemInstruction": {
    "parts": [{
      "text": "(...System Instruction...)"
    }]
  },
  "contents": [
    {
      "role": "user",
      "parts": [{
        "text": "【品牌】凡士林
【產品名稱】乳液
【產品特色】...
【文體】...
【人物設定】...
【故事切角】...
【行銷手法】...
【聲量策略】..."
      }]
    },
    {
      "role": "model",
      "parts": [{
        "text": "【標題】
#分享 首爾音樂節曬傷急救一個月成果
【內文】...
【回文】..."
      }]
    }
  ]
}

注意到了嗎？在 User 的 content 中，我們加入了【行銷手法】和【聲量策略】的描述，這些是模型的「教科書」。雖然最終輸出（Assistant/Model 的 content）不會包含這些資訊，但模型在訓練時會學習到，當採用「情境式植入」時，應該如何自然地描述場景；當需要「引起共鳴」時，應該設計什麼樣的情緒轉折。

不論是 OpenAI 還是 Gemini 的結構，SFT 的核心都是「給答案」，而且是「給答案 + 給方法論」。透過在訓練資料中加入【行銷手法】和【聲量策略】，我們實際上是在告訴模型：「這篇文章為什麼能成功」、「背後的策略邏輯是什麼」。對於具有 CoT 能力的模型來說，它不只學會了「怎麼寫」，更學會了「為什麼這樣寫」。這在 Non-verified Domain 是最可控、最有效的訓練方式。

以下是其中幾個模型的訓練結果範例：

OpenAI ChatGPT

Google Gemini

Gemini 與 OpenAI 的訓練邏輯略有不同，但更核心的議題是：在 Non-verified Domain 的創作型微調中，傳統的數據指標（如 Validation Loss）參考價值有限。

原因有二：首先，「創作」本身難以被量化驗證。我們無法讓模型判斷一篇文章是否符合「創作條件」，因為連人類都沒有標準答案。因此，Validation Set 的意義不在於追求 Loss 下降，而在於確保模型沒有學壞（Loss 不要顯著上升）即可。其次，本次訓練我們採用了極度精煉的資料集，沒有太多多餘內容可供切分給 Validation Set。從過往經驗來看，只要 Epochs 不設定過大，即便 Validation Loss 不會同步下降，但也不會顯著偏移，最終的生成成果依然優異。

RFT (Reinforcement Fine-Tuning)：一個仍在探索中的路徑

RFT 的訓練哲學則截然不同，它不提供「標準答案」，而是讓模型自行生成內容，再由一個我們定義的「Grader（評分器）」給予 Reward（獎勵）分數，引導模型朝著高分的目標演化。

這是一個理論上極具潛力的方向，我們也投入了資源進行初步探索。然而，在 Non-verified Domain 的實踐中，我們觀察到幾個挑戰：

評分標準的主觀性：如何為「創意」定義一個客觀、一致的評分標準，本身就是一大難題。我們發現 Grader 的評分結果存在浮動，這為訓練的穩定性帶來了不確定性。
訓練成本與效率：相較於 SFT，RFT 需要模型進行大量的探索與嘗試，這在計算資源上的開銷相當可觀。
對 CoT 過程的黑箱性：目前的 RFT 機制主要針對最終產出進行評分，較難對 CoT 的中間推理過程進行精準的獎勵或懲罰。這可能導致模型因單一環節的錯誤而否定了整個有價值的推理鏈。

當然，這僅是我們現階段的初步觀察。RFT 領域仍在快速發展，我們也將持續關注其後續的技術突破。

光看 RFT 的資料結構有多複雜就知道：

OpenAI RFT 結構範例

RFT 不僅要給任務，你還得定義一個極度複雜的 Grader 來教 AI「如何評分」。

1. 訓練資料結構（任務定義）

{
  "messages": [
    {
      "role": "developer",
      "content": "你是一位專業的社群口碑文章創作者，擅長以 Gen Z 語氣...\n"
    },
    {
      "role": "user",
      "content": "【品牌】\n凡士林\n\n【產品名稱】\n乳液\n\n"
    }
  ]
}

注意：這裡沒有 “assistant” 角色，因為答案是 AI 自己生成的，然後由 Grader 評分。

2. 評分器定義（Grader）

{
  "type": "multi",
  "graders": {
    "advertorial_quality": {
      "name": "優質業配判斷",
      "type": "score_model",
      "model": "gpt-4.1-2025-04-14",
      "input": [
        {
          "role": "user",
          "content": "你是一位「優質業配文稽核員」...\n\n-----\n{{sample.output_text}}\n-----\n黃金範文：\n{{item.reference_post}}"
        }
      ]
    },
    "covert_marketing": {
      "name": "隱晦式行銷評分",
      "type": "score_model",
      "model": "gpt-4.1-2025-04-14",
      "input": [
        {
          "role": "user",
          "content": "你是一位隱晦式行銷稽核員...\n── 評分量表 ──\n0 明顯廣告...\n1 幾乎難辨...\n── 高段手法對照表 ──\n1. 情境式植入...\n\n-----\n{{sample.output_text}}\n-----\n黃金範文：\n{{item.reference_post}}"
        }
      ]
    },
    "youth_tone": {
      // ... 評估口吻的 Grader ...
    },
    "purchase_intent": {
      // ... 評估購買意圖的 Grader ...
    },
    "high_virality": {
      // ... 評估聲量潛力的 Grader ...
    }
  },
  "calculate_output": "0.2 * advertorial_quality + 0.15 * youth_tone + 0.3 * covert_marketing + 0.15 * high_virality + 0.2 * purchase_intent"
}

光是設計和維護這套 Grader，其難度、成本和不可控性，就遠遠高於準備 SFT 的「標準答案」。

這也引出了 RFT 在訓練評估上的根本差異。SFT 的目標是「模仿標準答案」，因此可以用 Loss（損失）來衡量模型輸出與標準答案的差距，目標是讓 Loss 越小越好。

但 RFT 沒有標準答案，它評估的是「生成品質」。模型每生成一個輸出，Grader 就會給予一個 Reward（獎勵）分數。因此，RFT 的訓練目標不是「降低 Loss」，而是「最大化 Reward」。模型會不斷嘗試，找出能從 Grader 拿到最高分的寫作策略。這也再次凸顯了 Grader 的重要性——它就是模型唯一的學習方向。

而另一個我們觀察到的潛在挑戰是，RFT 對於 CoT（Chain of Thought）「過程」的評估似乎存在限制。一個具備 CoT 能力的模型，其輸出是多個思維步驟的結果。我們推測，可能其中 90% 的推理都相當出色，僅因最後一步的微小瑕疵，就導致 Grader 判定結果不佳、給予低 Reward。由於 Grader 的評分更側重於最終結果，它可能難以分辨是「哪一個思維環節出錯」，進而可能導致整個、原本極具價值的推理鏈被給予負面評價。這種機制，讓我們認為模型可能會因此放棄許多有價值的思考路徑，為訓練成果帶來了更高的不確定性。

終極架構：「Brief Model」+「Writing Model」

談到 AI 寫作，很多人會說「重點是懂得提問」，也就是給出好的 Brief（Input）。

這話只對一半。問題是，怎樣才能做出一個「好的 Brief」？

答案是：你還是得拿「好的文章」作為 Dataset 去教模型。我們的目標，是訓練一個「Brief Model」。

步驟一：我們用 SFT 訓練模型，讓它知道「好的文章」長怎樣。
步驟二：模型因為有 CoT 能力，它會開始 Reasoning（推理）：「要寫出這篇好文章，它的前提結構（組成要件）是什麼？」
步驟三：這個「前提結構」，就是「好的 Brief」。

於是，我們打造出了兩階段的自動化架構：

Brief Model（撰寫 Brief 的模型）：我們不是給 AI 一堆 Rule 要它優化 Prompt。而是用戶可以只提供「品牌」、「產品」，Brief Model 就會自動產出「符合那個 Unknown Factor 的文章組成要件」（也就是超級 Brief）。
Writing Model（撰寫文章的模型）：Brief Model 產出的 Brief，直接輸出給 Writing Model，就能無限複製出那些「能引起用戶互動、卻又不會被發現是業配」的高聲量隱晦式行銷貼文。

這套「Brief Model + Writing Model」的自動化流程，具體運作如下：

輸入指令：僅需提供「品牌」與「產品」（例如：GAP 外套）。
Brief Model 產出策略：模型啟用 Google Search Tool 進行即時搜索，分析產品特色，並自主推理出最適合的人設、故事切角與行銷策略，最終生成一份完整的 Brief（如下方左圖）。
Writing Model 生成文章：將產出的 Brief 作為 User Prompt，調用 Writing Model，即可生成包含詳細圖片描述（Image Text）的完整文章（如下方右圖），確保後續 AI 圖片能精準生成。

最後，我們將 Writing Model 生成的 Image Text，搭配對應的參考圖片，送入我們稱之為 nanobanana 的圖像生成模型。

一個有趣的觀察是，即使提供參考圖片，模型依然會以 Text Prompt 的描述為主軸進行創作，參考圖片則作為風格、構圖或元素的輔助。例如，即使我們上傳一張「白色 GAP 連帽外套」的參考圖，但只要 Prompt 中描述的是「灰色 GAP 連帽外套」，模型依然會生成灰色的外套。同理，即便參考圖是校園的草地，Prompt 中的場景是「衣櫃」，模型也不會讓衣櫃出現在草地上。

這項特性在需要固定人物時尤其強大——我們能將指定的人物照片融入各種情境，同時保持一致性。這意味著，未來只要鎖定「固定人物 + 特定產品 + 場景照片」，我們就能實現大規模、風格一致且高度相關的自動化視覺內容產出。

總結與初步發現

在 General AI 飛速演進的當下，為模型注入特定領域的 Know-how 顯得至關重要，尤其是在不存在標準答案的「Non-verified Domain」。我們的核心觀察是，隨著具備 CoT 能力的「Thinking Model」逐漸成熟，傳統 SFT 的價值也得到了重新定義：它不再是單純的「答案背誦」，而是轉化為一種高效的「思維模式傳承」。

在方法論的比較上，我們的實驗結果顯示，相較於 RFT，SFT 在處理創意寫作這類任務時，展現了更高的穩定性與成本效益。RFT 雖然在理論上極具潛力，但在 Grader 的客觀性、高昂的訓練成本，以及對 CoT 過程洞察力的缺乏等方面，仍是其在現階段應用上所面臨的主要挑戰。

基於上述發現，我們提出並實踐了一套以 SFT 為核心的「Brief Model」+「Writing Model」自動化內容生成工作流。實驗證明，此架構能有效地將抽象的「Unknown Factor」轉化為具體的模型能力，並結合 nanobanana 圖像生成技術，實現從策略、文案到視覺產出的完整流程。

總結來說，這些觀察讓我們傾向認為，在當前的技術背景下，SFT 或許是處理 Non-verified Domain 創意任務的一個更穩健且務實的路徑。當然，AI 方法論日新月異，我們本次的探索僅為一個階段性的總結，期待未來有更多研究能共同推進此領域的發展。

General AI 已到極限？用 Fine-tuning 為模型注入真正 Know-how

目錄

通用 AI 的知識邊界：為何 Fine-tuning 是注入領域 Know-how 的關鍵？

「Unknown Factor」的量化方法論：從抽象概念到可操作參數

SFT vs. RFT：「教育」與「評分」的方法論探討

• SFT：有標準答案的「教育」

RFT (Reinforcement Fine-Tuning)：一個仍在探索中的路徑

終極架構：「Brief Model」+「Writing Model」

總結與初步發現