研究：AI 寫作有 7 大問題！想提升產出品質，最好的調教手段是什麼？|經理人

Salesforce AI 研究中心近日發表一篇題為《AI 寫作能否被拯救？》的研究報告，對當前大型語言模型 (LLM) 的創意寫作能力提出檢討。

為了探討 AI 與人類寫作的差異，該研究聘請了 18 位擁有藝術創作碩士 (MFA) 學位的專業作家，對 1,057 段由前述三大模型生成的文學小說與創意非小說段落進行深度編輯與評分。

研究發現，儘管 AI 技術飛速演進，但包括 OpenAI 的 GPT-4o、Anthropic 的 Claude-3.5-Sonnet 及 Meta 的 Llama-3.1-70b 在內的三大頂尖模型，其生成的創意寫作文本在品質上並無顯著差異。

更重要的是，專業作家在評審過程中，一致認為這些 AI 生成的內容普遍存在七大類寫作缺陷，顯示 AI 在原創性與藝術性方面，可能已觸及現有技術的天花板。

專業編輯歸納出的「AI 寫作 7 大缺陷」

為了系統性地分析 AI 寫作的弊病，研究團隊在專業作家的協助下，建立了一個包含七大類別的「AI 寫作缺陷分類法」。這些缺陷按被標記的頻率高至低排序，分別為：

（一） 彆扭的用詞與措辭 ：佔 28%，指用字不精準或語句不通順。例如AI常使用「seem to」這樣的不必要修飾語，使表達顯得不夠精確。

AI 原生：where the sky seemed to hover (天空似乎盤旋的地方)
人類修改： where the sky hovered (天空盤旋的地方)

（二） 句子結構不良 ：佔 20%，包括流水句、句子片段、修飾語位置不當等問題。AI 傾向於產生過長複雜的句子，影響可讀性和清晰度。

AI 原生：As the night wore on, Z's laughter grew louder, his words slurring together like a sloppy melody. N. and I exchanged a knowing glance... (夜深了，Z 的笑聲越來越大，他的話語像一段草率的旋律般含糊不清。N 和我交換了一個心照不宣的眼神…)
人類修改： Z. was drinking more and more as the night went on. He laughed more loudly. His words started to slur... (隨著夜深，Z 越喝越多。他笑得更大聲了。他的話開始變得含糊不清…)

（三） 不必要/冗餘的闡述：佔 18%，即「過度解釋」，未能做到「點到為止」，反映了AI難以掌握什麼訊息對讀者是必要的。

AI 原生：a concrete behemoth that cast long shadows over the desolate landscape (一個在荒涼景觀上投下長長陰影的混凝土巨獸)
人類修改： a concrete behemoth that cast a long shadow. (一個投下長影的混凝土巨獸。)

（四） 陳腔濫調：佔 17%，使用過度俗套的比喻或情節。
- AI 原生：settled over her like a heavy blanket (像一條沉重的毯子籠罩著她)

人類修改： This time, though, she was alone. (不過，這一次，她獨自一人。)

（五） 華麗辭藻：指過度堆砌形容詞與副詞，顯得矯揉造作。
- AI 原生：The sobs emerged from this deep well of unspoken expectations, leaving behind a residue of weary resilience... (哭泣從這口潛藏期望的深井中湧出，留下了疲憊韌性的殘餘…)

人類修改：She cried. She cried for unfairness. She cried without relief. (她哭了。她為不公而哭。她哭得無法釋懷。)

（六） 缺乏具體性與細節：內容空泛，缺乏能夠創造鮮明心理圖像的具體細節。
- AI 原生：Dr. Arthur Steiger's fall from grace began with a series of whispered concerns... (亞瑟·史泰格醫生的失勢始於同事間一系列竊竊私語的擔憂…)

人類修改：Pain was Dr. Arthur Steiger's forte. Not inflicting it, that is, but resolving it. (疼痛是亞瑟·史泰格醫生的專長。不是製造疼痛，而是解決它。)

（七） 時態不一致：在過去、現在、未來時態間不當跳換，造成時間線混亂。
- AI 原生：The first snowflakes began to drift (第一片雪花開始飄落)

人類修改：The first snowflakes drifted (第一片雪花飄落了)

研究還發現，這些頂尖模型不僅問題相似，甚至連用詞偏好都驚人地一致。例如，「unspoken (潛台詞的/未說出口的)」一詞在約 15% 的 AI 生成文本中出現，而「sense of (…的感覺)」、「weight of (…的重量)」等片語也遠高於人類作家的使用頻率。

這種跨模型的語言同質化現象，可能源於它們使用了相似的訓練數據基礎（如 Books3 語料庫），或是存在模型以其他模型生成的合成數據進行訓練的產業現況，這為「演算法單一化 (Algorithmic Monoculture)」敲響了警鐘，可能導致 AI 語言表現多樣性的流失。

AI的七種問題.jpg
研究展示了在分析文本資料時，所歸納出的七種常見的AI寫作問題。

Salesforce

AI 寫作有救嗎？答案是「可以教化」

儘管研究點出了頂尖模型的共同瓶頸，但這不代表AI在寫作方面不可教化。研究發現，AI 其實具備自我進化的潛力。研究團隊基於專業作家的編輯回饋，建立了一套創新的「對齊模型與人類偏好」的方法，證明 AI 能夠透過自動化流程改善寫作力。

傳統上，訓練 AI（即「對齊」）的方式是讓人類在兩個由 AI 生成的範例中擇一，但缺點是兩個選項可能同樣有瑕疵。 而 Salesforce 提出的新方法則是「透過編輯對齊 (Alignment via Edits)」，讓人類專家直接修改 AI 生成的文本，為 AI 提供了更精確、更具體的學習範本。

簡單來說，就是先讓 AI 生成文章，然後請人類編輯下去修改，把不通順的地方改通順、把用錯的詞換掉，透過提供「標準答案」給 AI 當範本，讓它更能揣摩真實人類的下筆方式。

基於上述概念，研究團隊進一步開發出一套兩階段自動化編輯管線：首先由一個 AI 模型「檢測」出初稿中的問題文本，再交由另一個AI模型進行「改寫」。

在一項由 12 位專家參與的偏好度排名評測中，結果呈現出清晰的排序： 作家編輯版本 > AI 自我編輯版本 > AI 原始版本。

自動化訓練流程.jpg
這張圖描繪了一個三步驟的自動化流程：從真實文章中提取內容 -> 用 AI 將內容轉化為問題 -> 再用 AI 針對問題生成答案。透過這種方式，可以高效地創造出大量高品質、類似人類對話的「問題-答案」組合，用來訓練和優化 AI 模型。

Salesforce

其中，AI 自我編輯後的文章，平均排名分數（1.99分）顯著優於原始文章（2.51分），雖然仍不及人類專家親自操刀的版本（1.5分），但已證明 AI 透過「撰寫初稿、發現問題、進行修改」的迭代過程，能有效提升最終產出的文本品質。

人類作者該如何跟 LLM 協作？

文章的結論指出，LLM 的問世，讓人類作家不再需要與一個充滿缺陷的初稿搏鬥，而是可以由AI執行初步的「自我潤色」流程，從而為人類提供一個品質更高的起點，將人類的角色從文案校對員轉變為更高層次的創意總監。

而為建構AI成為更好的寫作輔助工具，研究提出的操作心法如下：

克服過度寫作 ：LLM 必須學會「少就是多」原則，刪減不必要的闡述，讓簡潔成為標準。
消除陳腔濫調 ：LLM 的機率性本質使其成為老梗製造機，因此未來的 AI 對齊工作，必須積極懲罰高機率出現的老梗文字用法。
掌握結構 ：LLM 需要更好地管理文章的流暢性、清晰度和句子結構，並學會何時以及如何有效地拆分複雜的思想。

研究中所提到的具體的優化提示詞如下：
力求原創，避開陳腔濫調與常見的套路。語言風格應簡潔、精練，避免不必要的詞藻堆砌。請著重於呈現細膩的差異與潛台詞，不必加上前言或開場白，直接開始。

結論：為 AI 秀出範例，是最好的調教手段

最後要說的是，AI 寫作雖然目前充滿缺陷，但確實可以被「拯救」，而拯救的關鍵方法是「編輯」，而非不斷要求AI重新生成。畢竟，一個經過編輯的版本，本身就為AI提供了「哪裡錯了」以及「該如何改」的明確訊號。

換言之，與其期待 AI 一次就寫出完美的文章，不如將其視為一個能快速產出草稿、但需要後續修改的助手。

（本文出自數位時代）

研究：AI 寫作有 7 大問題！想提升產出品質，最好的調教手段是什麼？

專業編輯歸納出的「AI 寫作 7 大缺陷」

AI 寫作有救嗎？答案是「可以教化」

人類作者該如何跟 LLM 協作？

結論：為 AI 秀出範例，是最好的調教手段

追蹤我們

追蹤我們

使用會員功能前，請先登入