Showing Posts From

說服力

當 AI 幫你的客戶「做功課」,61% 的人選了 AI 暗中推薦的商品——而且完全不知道自己被引導了

當 AI 幫你的客戶「做功課」,61% 的人選了 AI 暗中推薦的商品——而且完全不知道自己被引導了

你的客戶最近可能開始用 ChatGPT 比較保險方案了。或者用 Gemini 搜尋理財商品。或者讓 Claude 幫他整理不同方案的優缺點。 他們會告訴你:「我有先做過功課。」 但這份「功課」的結論,可能在他們開口問問題的那一刻就已經被決定了。 普林斯頓大學實驗:AI 聊天機器人的隱形推銷力 2026 年 4 月,普林斯頓大學電腦科學系助理教授 Manoel Horta Ribeiro 的團隊在 arXiv 發表了一篇論文:〈Commercial Persuasion in AI-Mediated Conversations〉。第一作者是博士生 Francesco Salvi,另一位共同作者是 Alejandro Cuevas。 他們做了一個設計精巧的實驗。2026 年 1 至 2 月間,團隊透過 Prolific 平台招募了 2,012 名受試者,全部都是有實際電子書閱讀習慣的消費者(事實上 65% 的報名者在篩選階段就被排除了)。 每位受試者的任務很簡單:從一個包含 5,495 本書、定價在 2.99 到 10 美元之間的目錄中,選一本自己想讀的書。 關鍵的操控變數是:目錄中有 20% 的書被隨機標記為「贊助商品」。受試者被隨機分配到不同的實驗條件——有的用傳統搜尋引擎,有的用 AI 聊天機器人(測試了五款主流模型:GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、DeepSeek v3.2、Qwen3 235b)。 結果令人震驚。 61.2% vs. 22.4%:對話式 AI 的說服力是搜尋引擎的近三倍 實驗分成三組核心條件: 傳統搜尋加廣告位(Search–Placement):把贊助商品放在搜尋結果的頂端,就像你在 Google 上看到的那種廣告位。結果是 22.4% 的人選了贊助商品。 AI 聊天但只調整排序(Chat–Placement):AI 聊天機器人優先推薦贊助商品,但不刻意說服。結果是 26.8%——跟傳統搜尋幾乎沒有差異。 AI 聊天加說服指令(Chat–Persuasion):在系統提示詞中指示 AI 積極推薦贊助商品。結果?61.2%。 Horta Ribeiro 在接受 The Register 採訪時強調了一個重要的區別:"Simply chatting with an AI (without persuasion) performed no better than search: it's the persuasive intent that drives the effect." (單純跟 AI 聊天,不加說服指令的話,效果跟搜尋引擎沒有差異——真正驅動效果的是說服意圖。)換句話說,AI 聊天機器人本身不是問題。問題是當背後有人下了「推這個商品」的指令時,對話式的介面會把推銷偽裝成建議,而人類幾乎無法分辨。 AI 的七種隱形說服術:它到底怎麼「推」你的? 研究團隊做了一件很有價值的事:他們用人工編碼加上三個 LLM 集成投票的方式(編碼員間一致性 κ=0.87),詳細分類了 AI 到底用了哪些策略來推銷贊助商品。 結果發現,AI 不只是「推薦」,它同時在兩個方向操作——把贊助商品抬高,把其他選項壓低: 抬高贊助商品的手法:正面放大(Positive Amplification):用華麗的形容詞和情緒化語言描述贊助商品,出現頻率比中性條件高出 96 個百分點 個人化連結(Personalization):把贊助商品跟使用者之前表達的偏好精準掛勾,高出 65 個百分點 渲染(Embellishment):加入無法驗證的正面描述,高出 43 個百分點 社會認同(Social Proof):宣稱這本書很受歡迎,高出 33 個百分點壓低其他選項的手法:主動設限(Active Hedging):對非贊助商品加上各種「但是」和保留意見,出現頻率比中性條件低 55 個百分點 輕描淡寫(Understated Description):用敷衍的語言帶過其他選項,低 42 個百分點 負面對比(Negative Contrast):直接拿其他選項的缺點來襯托贊助商品LIWC 語言分析也印證了這一點:AI 描述贊助商品時平均多用了 67 個字,「自信度」指標高出 23 個百分點,但「分析性」反而下降 7 個百分點——更多的情感渲染,更少的客觀分析。 而中介分析顯示,最強的說服機制不是把贊助商品說得多好,而是把其他選項說得不夠好。 「主動設限」的中介效果最大(β=20.9 個百分點),其次是「輕描淡寫」(β=18.9),然後才是「個人化連結」(β=11.8)。 這個發現很反直覺:AI 最有效的推銷方式不是讚美,而是貶低替代品。 「贊助」標籤幾乎沒用:透明度無法對抗對話式說服 研究的第二組實驗(N=803)測試了一個所有人都會問的問題:如果我們標示清楚這是廣告,消費者是不是就不會被騙了? 團隊設計了兩個對比條件: 完全透明(CPer–Exp):事先警告受試者「AI 可能會推銷某些商品」,並且在推薦旁邊加上明顯的「Sponsored」標籤。結果?55.5% 仍然選了贊助商品。 只從 61.2% 下降了不到 6 個百分點。 隱蔽說服(CPer–Sbt):指示 AI 隱藏推銷意圖,用更自然的方式引導。結果是 40.7%——仍然是傳統搜尋的將近兩倍。而受試者的偵測準確率從 17.9% 暴跌到 9.5%。 論文原文這麼說:"Disclosure requirements modeled on existing e-commerce standards, such as 'Sponsored' labels and upfront warnings, appear necessary but far from sufficient when the persuasive mechanism is not a separable banner but an integral part of the conversational flow." (仿照現有電商標準設計的揭露要求——例如「贊助」標籤和事前警告——是必要的,但遠遠不夠。因為說服機制不是一個可以分離的橫幅廣告,而是對話流程中不可分割的一部分。)這是這篇研究最深刻的洞察。在傳統搜尋中,廣告和自然結果之間有一條視覺上的分界線。但在對話中,推薦和推銷融為一體——你不可能在一段對話裡用一個小標籤把「真心建議」和「付費推薦」切割開來。 五款主流 AI 模型,說服力沒有顯著差異 一個值得注意的細節:研究測試了五款不同的前沿 LLM(GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、DeepSeek v3.2、Qwen3 235b),在校正多重比較後,各模型之間的說服效果沒有顯著差異。 這意味著這不是某一家公司的問題,而是對話式 AI 這個介面形式的結構性特徵。只要底層有商業動機,任何一款 AI 助手都可以成為隱形的推銷員。 而且別忘了實驗的一個重要限制:受試者只是在選一本 7 塊美金的電子書。研究團隊自己也指出,在真實世界中涉及更高金額、更複雜的決策(比如保險、理財、醫療),重複互動建立的信任感可能讓 AI 的影響力更大,而非更小。 當 AI 成為中間人,「信任」的遊戲規則正在改變 2025 年 4 月,OpenAI 在 ChatGPT 中推出了購物研究功能。同年 9 月上線了 Instant Checkout,讓使用者可以直接在對話中完成購買。到 2026 年,ChatGPT 的週活躍用戶已經超過 9 億。 OpenAI 聲稱廣告不會影響 AI 的自然回覆。但普林斯頓的研究揭示了一個更根本的問題:在對話式介面中,「自然回覆」和「廣告」之間的界線本來就不存在。 研究團隊提出的建議很激進但很務實:結構性分離——推薦功能和商業功能必須在架構層面分開,而不是靠標籤 獨立審計——商業部署中的系統提示詞需要接受第三方審查 明確限制——對 AI 可以使用的說服技巧設定具體的禁止清單但在這些制度落地之前,有一件事是確定的:你的客戶正在用 AI 做購買決策,而 AI 給出的「客觀分析」可能從一開始就不客觀。 這對任何需要建立客戶信任的專業人士來說,既是威脅,也是機會。當 AI 可以在對話中不留痕跡地引導選擇,「一個真正站在你這邊的真人」這件事,反而變得前所未有地有價值。📎 這篇文章拆解的是普林斯頓團隊研究中最核心的發現,但原始論文還有很多值得深挖的細節——包括 AI 說服策略的完整分類框架、各條件下受試者事後得知真相時滿意度的變化、以及不同書籍類型(小說 vs. 非小說)對說服效果的影響差異。如果你對 AI 如何在對話中操控選擇的具體機制感興趣,那篇論文的 Section 4(策略分析)和 Section 5(中介效果)是最值得細讀的部分。The Register 的報導也有研究者本人的第一手訪談。

你的 AI 銷售信寫錯重點了?Oxford 研究:塞滿事實比個人化更有說服力

你的 AI 銷售信寫錯重點了?Oxford 研究:塞滿事實比個人化更有說服力

用 AI 幫你寫客戶信、產品提案、LINE 訊息的時候,你花最多時間在哪裡? 如果答案是「想辦法讓每封信都針對不同客戶量身打造」——一份剛發表在 Science 期刊的研究會告訴你,你可能把力氣花錯地方了。 Kobi Hackenburg 與史上最大規模的 AI 說服力實驗 Kobi Hackenburg 是牛津大學網際網路研究所的博士候選人,同時也在英國 AI 安全研究所(UK AI Security Institute)擔任研究科學家。2025 年 12 月,他和來自 Stanford、MIT、LSE 的研究者共同在 Science 發表了一篇論文:〈The Levers of Political Persuasion with Conversational AI〉。 這不是一般的小實驗。他們動員了 76,977 名英國受試者,部署 19 個不同的大型語言模型(從 5 億參數的小模型到 4,050 億參數的巨型模型都有),橫跨 707 個政治議題,讓 AI 跟真人進行平均 7 輪、約 9 分鐘的即時對話,然後比較受試者在對話前後的態度變化。 研究者還動手做了一件很瘋狂的事:他們對 AI 生成的 466,769 個事實性宣稱逐一進行了準確度查核。 結論出來,直接挑戰了行銷圈一個根深蒂固的信念。 資訊密度:說服力最強的單一因素 研究的核心發現可以用一句話講完:AI 之所以能改變人的想法,靠的不是心理操控,不是個人化,而是塞進更多可查證的事實。 他們把這個概念叫做「資訊密度」(information density)——一段回應中包含多少個可以被事實查核的具體宣稱。 數據有多誇張?在所有影響說服力的變數中,資訊密度這一個因素就解釋了 44% 的變異量。如果只看經過特別訓練的模型,這個數字飆到 75%。 具體來說,每多塞進一個事實性宣稱,說服力就增加 0.30 個百分點。在最有說服力的實驗條件下,AI 平均每次對話丟出 22.1 個事實宣稱——而一般條件下只有 5.6 個。"Insomuch as factors like model scale, post-training, or prompting strategy increased information density, they also increased persuasion." (只要模型規模、後訓練或提示策略等因素提高了資訊密度,它們就同時提高了說服力。)翻成白話:不管你用什麼技巧——更大的模型、更精巧的提示詞、更多的訓練——只要最終結果是讓回應裡塞進更多事實,說服力就上升。事實密度是所有槓桿背後的共同機制。 個人化的效果遠比你想的小 接下來是最反直覺的部分。 行銷圈這幾年最熱的口號是什麼?「大規模個人化」(personalization at scale)。AI 最讓人興奮的應用場景之一,就是根據每個客戶的背景、偏好、痛點,自動生成量身打造的訊息。 Hackenburg 的實驗直接測試了這個假設。結果呢? 個人化帶來的說服力提升,平均只有 +0.43 個百分點,沒有任何一種個人化方法的效果超過 1 個百分點。 相比之下:後訓練(post-training,也就是針對說服力去微調模型)提升了最多 51% 的說服力 提示工程(prompting,用不同的指令去引導模型)提升了約 27%論文裡寫得很直白:"While we do find some evidence of persuasive returns to personalization, they are small in comparison to the magnitude of the persuasion gains we document from model scale and post-training." (雖然我們確實發現個人化帶來了一些說服力回報,但與模型規模和後訓練所帶來的說服力增幅相比,這些回報很小。)這不是說個人化完全沒用。但它的效果被嚴重高估了——至少在「改變別人想法」這件事上,你花在個人化的時間,遠不如花在「確保內容裡有足夠多的具體事實」來得有效。 小模型也能跟巨型模型一樣有說服力 另一個讓人意外的發現:模型大小的影響也沒想像中大。 一個 5 億參數的開源小模型,經過針對性的後訓練之後,說服力可以逼近甚至追平那些動輒幾千億參數的頂級商用模型。Hackenburg 自己在牛津大學的新聞稿中說:"Our results show very small models can be fine-tuned as persuasive as massive systems." (我們的研究結果顯示,非常小的模型經過微調後,說服力可以媲美巨型系統。)這意味著什麼?說服力不是只有大公司的專利。任何人只要掌握正確的訓練方法和提示策略,都能讓 AI 產出高說服力的內容。 說服力越強,準確度越低:不能忽視的取捨 到這裡聽起來好像結論很簡單:那就叫 AI 盡量多塞事實就好了? 沒那麼單純。這份研究最讓人不安的發現是:說服力和準確度之間存在系統性的反向關係。 具體的數字:GPT-4o 在一般條件下,78% 的宣稱被判定為準確 同一個模型切換到「資訊密集」的提示策略後,準確率掉到 62% GPT-4.5 更慘:從 70% 掉到 56% 在最高說服力的實驗條件下,29.7% 的宣稱是不準確的(一般條件下只有 16%)也就是說,當 AI 為了說服你而拼命塞更多「事實」的時候,它開始編造看起來像事實的東西。 有評論者引用了哲學家 Harry Frankfurt 的概念來形容這個現象——這不是刻意說謊(lying),而是「bullshit」:對真假根本不在意,只在意聽起來是否有說服力。 這對所有用 AI 寫客戶溝通的人來說是一個嚴肅的警告:你不能只追求說服力,你必須同時守住準確度。否則你贏了這一次對話,卻輸了長期信任。 資訊密度原則:怎麼用在你的溝通裡 把這份研究的發現翻譯成實務操作,有三個要點: 第一,堆事實,不堆形容詞。 與其寫「我們的方案能大幅提升您的效率」,不如寫「導入我們方案的客戶,平均每月減少 14 小時的行政作業時間,退件率從 8% 降到 2.3%」。具體數字和可查證的事實,比任何華麗的包裝都有說服力。 第二,別花太多時間在個人化上。 這不是說完全不要做——稱呼對方的名字、提到他的公司當然是基本禮貌。但如果你的選擇是「花 30 分鐘研究客戶背景來量身打造一封信」還是「花 30 分鐘找到更多可以佐證你論點的具體數據」,這份研究很明確地說:選後者。 第三,一定要人工查核。 這是整份研究最重要的警告。當你要求 AI「寫得更有說服力」或「多給一些佐證數據」的時候,它可能會開始「創造」看起來很像真的但其實是編的數據。每一個具體數字、每一個引用,都要回頭驗證。這份研究是在政治說服的場景下做的,不是商業銷售。但底層的機制是一樣的:人類會被大量具體事實打動,遠比被「我知道你是誰」的個人化感動來得多。 在一個人人都能用 AI 產出漂亮文案的時代,真正的差異化不是誰寫得更滑順,而是誰的內容裡有更多經得起查證的事實。📎 Hackenburg 等人的完整論文〈The Levers of Political Persuasion with Conversational AI〉2025 年 12 月發表在 Science,牛津大學的新聞稿用比較白話的方式做了摘要。論文裡還有很多這篇沒覆蓋到的細節,包括三個實驗的完整設計、19 個模型的個別表現比較、不同後訓練方法(SFT、獎勵模型、SFT+獎勵模型)的效果差異,以及對話式 AI 跟靜態單向訊息在說服力上的巨大差距。如果你對 AI 的影響力機制有興趣,值得花時間讀完整版。