目錄
通用 AI 的知識邊界:為何 Fine-tuning 是注入領域 Know-how 的關鍵?
一個常見的論點是:既然通用 AI 模型每半年就大幅更新,耗費資源進行 Fine-tuning 是否還有價值?畢竟,下一代的通用模型可能輕易就超越我們辛苦微調後的成果。
這個觀點,在處理「Verified Domain」(已驗證領域)時,基本上是正確的。
所謂「Verified Domain」,不僅包含科學、歷史等有明確答案的知識,也涵蓋了那些在預訓練資料中已大量存在的創意風格。例如,若想模仿《哈利波特》或《聖經》的風格,由於這些知名著作早已是 LLM 的養分,簡單的 Prompt Engineering 就足以應付。在這些領域,等待通用模型更新確實比 Fine-tuning 更具成本效益。
但問題在於,並非所有領域都如此幸運。我們身處的戰場——「社群口碑貼文」——就完全屬於另一類,也就是「Non-verified Domain」(非驗證領域)。
這類資料之所以稀缺,甚至不存在於 LLM 的預訓練資料庫中,原因很複雜:
平台內容的版權與爬取限制:社群平台(如 Dcard、PTT)的內容並非能輕易被獲取。
目標內容的定義模糊性:什麼是真正有效的「隱晦式行銷文」?那些由廠商操作、未被用戶識破、又能成功引發聲量的文章,本身就沒有固定標籤可供學習。
高度在地化的語氣與文化脈絡:台灣社群的「口吻」和網路「梗」,與全球主流語料庫存在巨大差異。
基於以上原因,當你的目標是讓 AI 掌握一個它從未學過的獨特技能時,Fine-tuning 就不再是選項,而是唯一的路徑。
「Unknown Factor」的量化方法論:從抽象概念到可操作參數
做 AI 訓練,最怕的就是「無法明確定義」。如果無法定義,訓練資料集的設計永遠會存在問題,導致訓練結果跟目的背道而馳。
但我們堅信一件事:那些高聲量的隱晦口碑文,它們一定有什麼我們不知道的共同因子(Unknown Factor)。
一定有的。
正常來說,當無法定義變因時,是無法設計出有參考價值的實驗的。但我們的做法是,巧妙地將這個抽象的「Unknown Factor」視為一個可操作的「參數」,並以此為前提去建立我們的資料集。這在某種程度上,就是強行讓這個實驗變得有意義。
我也不得不說,這種 Unknown Factor,可能每個人的主觀觀點不同,它就會是不同的東西。在 Non-verified Domain 中,沒有人能說他是絕對的「對」。
我們能做的,只是用「盡可能科學的方式」去引導模型學習它。舉例來說,奢華品牌傳達的「高級感」就是一個典型的 Unknown Factor。我們無法用明確的文字去定義它,但我們可以提供大量被市場公認為有「高級感」的文案、影像與設計給模型學習。對模型來說,儘管每筆資料的產品、情境、用詞都不同,但只要資料集都共同指向這個抽象概念,它就能從中學習到那個貫穿所有資料的、一致的「高級感」風格。
也因此,我會說,這並不是一個「標準答案」,而是一個「我們期望的答案」。
SFT vs. RFT:「教育」與「評分」的方法論探討
有了「好資料」(那些高聲量口碑文),接下來就是怎麼「餵」給模型。這就來到 SFT 和 RFT 的選擇。兩者在訓練邏輯與資料結構上,有著天壤之別。
• SFT:有標準答案的「教育」
SFT(Supervised Fine-tuning,監督式微調)的核心理念非常直觀:「我們提供標準答案,你照著學就對了。」
在訓練過程中,我們會提供一個「User Prompt」(用戶指令),並附上一個我們認為最完美的「Assistant Response」(助理回覆)。模型的工作,就是學習如何在前一個 Token 的基礎上,預測下一個最有可能出現的 Token,使其最終的生成結果,能最大程度 趨近我們提供的標準答案。
為了讓模型學會 CoT(Chain of Thought)的思考能力,而不僅僅是模仿文風,我們在「User Prompt」中加入了【行銷手法】與【聲量策略】等欄位。這就像是給了模型一本教科書,讓它在學習寫作的同時,也能理解背後的策略佈局。
而「標準答案」的品質,就決定了模型能力的上限。因此,我們在挑選 SFT 訓練資料時,設下了極其嚴苛的標準:每一篇文章都必須同時符合「已知為品牌操作的業配文」、「在社群上未被識破」,以及「創造了高聲量與高互動」這三大條件。只有經過這樣篩選的資料,才有資格成為我們用來教育模型的教材。
SFT 結構範例:OpenAI vs. Gemini
OpenAI 和 Gemini 的結構略有不同,但核心邏輯相同。以下並排展示兩種平台的結構,方便比較:
OpenAI 結構
{
"messages": [
{
"role": "system",
"content": "(...System Instruction...)"
},
{
"role": "user",
"content": "【品牌】凡士林
【產品名稱】乳液
【產品特色】...
【文體】...
【人物設定】...
【故事切角】...
【行銷手法】...
【聲量策略】..."
},
{
"role": "assistant",
"content": "【標題】
#分享 首爾音樂節曬傷急救一個月成果
【內文】...
【回文】..."
}
]
}Gemini 結構
{
"systemInstruction": {
"parts": [{
"text": "(...System Instruction...)"
}]
},
"contents": [
{
"role": "user",
"parts": [{
"text": "【品牌】凡士林
【產品名稱】乳液
【產品特色】...
【文體】...
【人物設定】...
【故事切角】...
【行銷手法】...
【聲量策略】..."
}]
},
{
"role": "model",
"parts": [{
"text": "【標題】
#分享 首爾音樂節曬傷急救一個月成果
【內文】...
【回文】..."
}]
}
]
}注意到了嗎?在 User 的 content 中,我們加入了【行銷手法】和【聲量策略】的描述,這些是模型的「教科書」。雖然最終輸出(Assistant/Model 的 content)不會包含這些資訊,但模型在訓練時會學習到,當採用「情境式植入」時,應該如何自然地描述場景;當需要「引起共鳴」時,應該設計什麼樣的情緒轉折。
不論是 OpenAI 還是 Gemini 的結構,SFT 的核心都是「給答案」,而且是「給答案 + 給方法論」。透過在訓練資料中加入【行銷手法】和【聲量策略】,我們實際上是在告訴模型:「這篇文章為什麼能成功」、「背後的策略邏輯是什麼」。對於具有 CoT 能力的模型來說,它不只學會了「怎麼寫」,更學會了「為什麼這樣寫」。這在 Non-verified Domain 是最可控、最有效的訓練方式。
以下是其中幾個模型的訓練結果範例:
OpenAI ChatGPT


Google Gemini
Gemini 與 OpenAI 的訓練邏輯略有不同,但更核心的議題是:在 Non-verified Domain 的創作型微調中,傳統的數據指標(如 Validation Loss)參考價值有限。
原因有二:首先,「創作」本身難以被量化驗證。我們無法讓模型判斷一篇文章是否符合「創作條件」,因為連人類都沒有標準答案。因此,Validation Set 的意義不在於追求 Loss 下降,而在於確保模型沒有學壞(Loss 不要顯著上升)即可。其次,本次訓練我們採用了極度精煉的資料集,沒有太多多餘內容可供切分給 Validation Set。從過往經驗來看,只要 Epochs 不設定過大,即便 Validation Loss 不會同步下降,但也不會顯著偏移,最終的生成成果依然優異。
RFT (Reinforcement Fine-Tuning):一個仍在探索中的路徑
RFT 的訓練哲學則截然不同,它不提供「標準答案」,而是讓模型自行生成內容,再由一個我們定義的「Grader(評分器)」給予 Reward(獎勵)分數,引導模型朝著高分的目標演化。
這是一個理論上極具潛力的方向,我們也投入了資源進行初步探索。然而,在 Non-verified Domain 的實踐中,我們觀察到幾個挑戰:
評分標準的主觀性:如何為「創意」定義一個客觀、一致的評分標準,本身就是一大難題。我們發現 Grader 的評分結果存在浮動,這為訓練的穩定性帶來了不確定性。
訓練成本與效率:相較於 SFT,RFT 需要模型進行大量的探索與嘗試,這在計算資源上的開銷相當可觀。
對 CoT 過程的黑箱性:目前的 RFT 機制主要針對最終產出進行評分,較難對 CoT 的中間推理過程進行精準的獎勵或懲罰。這可能導致模型因單一環節的錯誤而否定了整個有價值的推理鏈。
當然,這僅是我們現階段的初步觀察。RFT 領域仍在快速發展,我們也將持續關注其後續的技術突破。
光看 RFT 的資料結構有多複雜就知道:
OpenAI RFT 結構範例
RFT 不僅要給任務,你還得定義一個極度複雜的 Grader 來教 AI「如何評分」。
1. 訓練資料結構(任務定義)
{
"messages": [
{
"role": "developer",
"content": "你是一位專業的社群口碑文章創作者,擅長以 Gen Z 語氣...\n"
},
{
"role": "user",
"content": "【品牌】\n凡士林\n\n【產品名稱】\n乳液\n\n"
}
]
}注意:這裡沒有 “assistant” 角色,因為答案是 AI 自己生成的,然後由 Grader 評分。
2. 評分器定義(Grader)
{
"type": "multi",
"graders": {
"advertorial_quality": {
"name": "優質業配判斷",
"type": "score_model",
"model": "gpt-4.1-2025-04-14",
"input": [
{
"role": "user",
"content": "你是一位「優質業配文稽核員」...\n\n-----\n{{sample.output_text}}\n-----\n黃金範文:\n{{item.reference_post}}"
}
]
},
"covert_marketing": {
"name": "隱晦式行銷評分",
"type": "score_model",
"model": "gpt-4.1-2025-04-14",
"input": [
{
"role": "user",
"content": "你是一位隱晦式行銷稽核員...\n── 評分量表 ──\n0 明顯廣告...\n1 幾乎難辨...\n── 高段手法對照表 ──\n1. 情境式植入...\n\n-----\n{{sample.output_text}}\n-----\n黃金範文:\n{{item.reference_post}}"
}
]
},
"youth_tone": {
// ... 評估口吻的 Grader ...
},
"purchase_intent": {
// ... 評估購買意圖的 Grader ...
},
"high_virality": {
// ... 評估聲量潛力的 Grader ...
}
},
"calculate_output": "0.2 * advertorial_quality + 0.15 * youth_tone + 0.3 * covert_marketing + 0.15 * high_virality + 0.2 * purchase_intent"
}
光是設計和維護這套 Grader,其難度、成本和不可控性,就遠遠高於準備 SFT 的「標準答案」。
這也引出了 RFT 在訓練評估上的根本差異。SFT 的目標是「模仿標準答案」,因此可以用 Loss(損失)來衡量模型輸出與標準答案的差距,目標是讓 Loss 越小越好。
但 RFT 沒有標準答案,它評估的是「生成品質」。模型每生成一個輸出,Grader 就會給予一個 Reward(獎勵)分數。因此,RFT 的訓練目標不是「降低 Loss」,而是「最大化 Reward」。模型會不斷嘗試,找出能從 Grader 拿到最高分的寫作策略。這也再次凸顯了 Grader 的重要性——它就是模型唯一的學習方向。
而另一個我們觀察到的潛在挑戰是,RFT 對於 CoT(Chain of Thought)「過程」的評估似乎存在限制。一個具備 CoT 能力的模型,其輸出是多個思維步驟的結果。我們推測,可能其中 90% 的推理都相當出色,僅因最後一步的微小瑕疵,就導致 Grader 判定結果不佳、給予低 Reward。由於 Grader 的評分更側重於最終結果,它可能難以分辨是「哪一個思維環節出錯」,進而可能導致整個、原本極具價值的推理鏈被給予負面評價。這種機制,讓我們認為模型可能會因此放棄許多有價值的思考路徑,為訓練成果帶來了更高的不確定性。
終極架構:「Brief Model」+「Writing Model」
談到 AI 寫作,很多人會說「重點是懂得提問」,也就是給出好的 Brief(Input)。
這話只對一半。問題是,怎樣才能做出一個「好的 Brief」?
答案是:你還是得拿「好的文章」作為 Dataset 去教模型。我們的目標,是訓練一個「Brief Model」。
步驟一:我們用 SFT 訓練模型,讓它知道「好的文章」長怎樣。
步驟二:模型因為有 CoT 能力,它會開始 Reasoning(推理):「要寫出這篇好文章,它的前提結構(組成要件)是什麼?」
步驟三:這個「前提結構」,就是「好的 Brief」。
於是,我們打造出了兩階段的自動化架構:
Brief Model(撰寫 Brief 的模型):我們不是給 AI 一堆 Rule 要它優化 Prompt。而是用戶可以只提供「品牌」、「產品」,Brief Model 就會自動產出「符合那個 Unknown Factor 的文章組成要件」(也就是超級 Brief)。
Writing Model(撰寫文章的模型):Brief Model 產出的 Brief,直接輸出給 Writing Model,就能無限複製出那些「能引起用戶互動、卻又不會被發現是業配」的高聲量隱晦式行銷貼文。
這套「Brief Model + Writing Model」的自動化流程,具體運作如下:
輸入指令:僅需提供「品牌」與「產品」(例如:GAP 外套)。
Brief Model 產出策略:模型啟用 Google Search Tool 進行即時搜索,分析產品特色,並自主推理出最適合的人設、故事切角與行銷策略,最終生成一份完整的 Brief(如下方左圖)。
Writing Model 生成文章:將產出的 Brief 作為 User Prompt,調用 Writing Model,即可生成包含詳細圖片描述(Image Text)的完整文章(如下方右圖),確保後續 AI 圖片能精準生成。





最後,我們將 Writing Model 生成的 Image Text,搭配對應的參考圖片,送入我們稱之為 nanobanana 的圖像生成模型。
一個有趣的觀察是,即使提供參考圖片,模型依然會以 Text Prompt 的描述為主軸進行創作,參考圖片則作為風格、構圖或元素的輔助。例如,即使我們上傳一張「白色 GAP 連帽外套」的參考圖,但只要 Prompt 中描述的是「灰色 GAP 連帽外套」,模型依然會生成灰色的外套。同理,即便參考圖是校園的草地,Prompt 中的場景是「衣櫃」,模型也不會讓衣櫃出現在草地上。
這項特性在需要固定人物時尤其強大——我們能將指定的人物照片融入各種情境,同時保持一致性。這意味著,未來只要鎖定「固定人物 + 特定產品 + 場景照片」,我們就能實現大規模、風格一致且高度相關的自動化視覺內容產出。
總結與初步發現
在 General AI 飛速演進的當下,為模型注入特定領域的 Know-how 顯得至關重要,尤其是在不存在標準答案的「Non-verified Domain」。我們的核心觀察是,隨著具備 CoT 能力的「Thinking Model」逐漸成熟,傳統 SFT 的價值也得到了重新定義:它不再是單純的「答案背誦」,而是轉化為一種高效的「思維模式傳承」。
在方法論的比較上,我們的實驗結果顯示,相較於 RFT,SFT 在處理創意寫作這類任務時,展現了更高的穩定性與成本效益。RFT 雖然在理論上極具潛力,但在 Grader 的客觀性、高昂的訓練成本,以及對 CoT 過程洞察力的缺乏等方面,仍是其在現階段應用上所面臨的主要挑戰。
基於上述發現,我們提出並實踐了一套以 SFT 為核心的「Brief Model」+「Writing Model」自動化內容生成工作流。實驗證明,此架構能有效地將抽象的「Unknown Factor」轉化為具體的模型能力,並結合 nanobanana 圖像生成技術,實現從策略、文案到視覺產出的完整流程。
總結來說,這些觀察讓我們傾向認為,在當前的技術背景下,SFT 或許是處理 Non-verified Domain 創意任務的一個更穩健且務實的路徑。當然,AI 方法論日新月異,我們本次的探索僅為一個階段性的總結,期待未來有更多研究能共同推進此領域的發展。
