新智元報(bào)道
編輯:桃子
【新智元導(dǎo)讀】提示詞才是AI隱藏的王牌!馬里蘭MIT等頂尖機(jī)構(gòu)研究證明,一半提示詞,是讓AI性能飆升49%的關(guān)鍵。
AI性能的提升,一半靠模型,一半靠提示詞。
最近,來自馬里蘭大學(xué)、MIT、斯坦福等機(jī)構(gòu)聯(lián)手驗(yàn)證,模型升級(jí)帶來的性能提升僅占50%,而另外一半的提升,在于用戶提示詞的優(yōu)化。
他們將其稱之為「提示詞適應(yīng)」(prompt adaptation)。
論文地址:https://arxiv.org/pdf/2407.14333v5
為此,他們讓DALL-E 2和DALL-E 3來了一場(chǎng)PK,1,893名「選手」在10次嘗試中,用隨機(jī)分配三種模型之一復(fù)現(xiàn)目標(biāo)圖像。
令人驚訝的是,DALL-E 3圖像相似度顯著優(yōu)于DALL-E 2。
其中,模型升級(jí)本身僅貢獻(xiàn)了51%的性能,剩余的49%全靠受試者優(yōu)化的提示詞。
關(guān)鍵是,那些沒有技術(shù)背景的人,也能通過提示詞,讓DALL-E 3模型生成更好的圖片。
OpenAI總裁Greg Brockman也同樣認(rèn)為,「要充分發(fā)揮模型的潛力,確實(shí)需要一些特殊的技巧」。
他建議開發(fā)者們?nèi)プ觥窹rompt庫」管理,不斷探索模型的邊界。
換言之,你的提示詞水平,決定了AI能不能從「青銅」變成「王者」。
別等GPT-6了!
不如「調(diào)教」提示詞
GenAI的有效性不僅取決于技術(shù)本身,更取決于能否設(shè)計(jì)出高質(zhì)量的輸入指令。
2023年,ChatGPT爆紅之后,全世界曾掀起一股「提示詞工程」的熱潮。
盡管全新的「上下文工程」成為今年的熱點(diǎn),但「提示詞工程」至今依舊炙手可熱。
然而共識(shí)之下,提示詞設(shè)計(jì)作為一種動(dòng)態(tài)實(shí)踐仍缺乏深入研究。
多數(shù)提示詞庫和教程,將有效提示視為「可復(fù)用成品」,但卻用到新模板中可能會(huì)失效。
這就帶來了一些現(xiàn)實(shí)的問題:提示策略能否跨模型版本遷移?還是必須持續(xù)調(diào)整以適應(yīng)模型行為變化?
為此,研究團(tuán)隊(duì)提出了「提示詞適應(yīng)」這一可測(cè)量的行為機(jī)制,用以解釋用戶輸入如何隨技術(shù)進(jìn)步而演進(jìn)。
他們將其概念化為一種「動(dòng)態(tài)互補(bǔ)能力」,并認(rèn)為這種能力對(duì)充分釋放大模型的經(jīng)濟(jì)價(jià)值至關(guān)重要。
為評(píng)估提示詞適應(yīng)對(duì)模型性能的影響,團(tuán)隊(duì)采用了Prolific平臺(tái)一項(xiàng)預(yù)注冊(cè)在線實(shí)驗(yàn)數(shù)據(jù),共邀請(qǐng)了1,893名參與者。
每位受試者被隨機(jī)分配三種不同性能的模型:DALL-E 2、DALL-E 3,或自動(dòng)提示優(yōu)化的DALL-E 3。
除模型分配外,每位參與者還獨(dú)立分配到15張目標(biāo)圖像中的一張。這些圖像選自商業(yè)營(yíng)銷、平面設(shè)計(jì)和建筑攝影三大類別。
實(shí)驗(yàn)明確告知參與者模型無記憶功能——每個(gè)新提示詞均獨(dú)立處理,不繼承先前嘗試的信息。
每人需要提交至少10條提示詞,需通過模型盡可能復(fù)現(xiàn)目標(biāo)圖像,最優(yōu)表現(xiàn)者將獲得高額獎(jiǎng)金。
任務(wù)結(jié)束后參與者需填寫涵蓋年齡、性別、教育程度、職業(yè)及創(chuàng)意寫作/編程/生成式AI自評(píng)能力的人口統(tǒng)計(jì)調(diào)查。
隨機(jī)分配,10次生成
實(shí)驗(yàn)的核心結(jié)果指標(biāo),是參與者生成的每張圖像與指定目標(biāo)圖像之間的相似度。
這項(xiàng)指標(biāo)通過CLIP嵌入向量的余弦相似度進(jìn)行量化。
由于生成模型的輸出具有隨機(jī)性,同一提示詞在不同嘗試中可能產(chǎn)生不同的圖像。
為控制這種變異性,研究人員為每個(gè)提示詞生成10張圖像,并分別計(jì)算它們與目標(biāo)圖像的余弦相似度,隨后取這10個(gè)相似度得分的平均值作為該提示詞的預(yù)期質(zhì)量分?jǐn)?shù)。
回放分析:是模型,還是提示詞?
實(shí)驗(yàn)的另一個(gè)核心目標(biāo)在于,厘清圖像復(fù)現(xiàn)性能的提升中,有多少源于更強(qiáng)大的模型,又有多少來自提示詞的優(yōu)化?
根據(jù)概念框架的表述,當(dāng)模型從能力水平θ1升級(jí)至更高水平θ2時(shí),其輸出質(zhì)量的總改進(jìn)可表示為:
研究人員將這一變化分解為兩部分:
1. 模型效應(yīng):將相同提示詞應(yīng)用于更優(yōu)模型時(shí),獲得的性能提升;
2. 提示詞效應(yīng):通過調(diào)整提示詞以充分發(fā)揮更強(qiáng)大模型優(yōu)勢(shì)所帶來的額外改進(jìn)。
為實(shí)證評(píng)估這兩個(gè)組成部分,研究人員對(duì)DALL-E 2和DALL-E 3(原詞版)實(shí)驗(yàn)組參與者的提示詞進(jìn)行了額外分析。
具體方法是將實(shí)驗(yàn)過程中參與者提交的原始提示詞,重新提交至其原分配模型和另一模型,并分別生成新圖像。
· 分離模型效應(yīng)
針對(duì)DALL-E 2參與者編寫的提示詞(x*(θ1,s)),團(tuán)隊(duì)同時(shí)在DALL-E 2和DALL-E 3模型上進(jìn)行評(píng)估,分別獲得Q[θ1s,x*(θ1,s)]和Q[θ2,s,x*(θ_1,s)]的實(shí)測(cè)值。
這一對(duì)比可分離出模型效應(yīng):即在固定提示詞情況下,僅通過升級(jí)模型獲得的輸出質(zhì)量提升。
· 比較提示效應(yīng)
為了評(píng)估提示詞效應(yīng),作者還比較了以下兩組數(shù)據(jù):
1. 在DALL-E 3上回放DALL-E 2提示詞的質(zhì)量(即Q[θ2,s,x*(θ1,s)]估計(jì)值)
2. DALL-E 3的參與者專門為模型編寫的提示詞在相同模型上的質(zhì)量(即Q[θ2,s,x*(θ2,s)]估計(jì)值)
這一差異恰恰能反映,用戶通過調(diào)整提示詞,模型本身得到的額外改進(jìn)。
那么,這項(xiàng)實(shí)驗(yàn)的具體結(jié)果如何?
DALL-E 3強(qiáng)大的生圖能力
提示詞解鎖了一半
實(shí)驗(yàn)中,研究團(tuán)隊(duì)主要探討了三大問題:
(i) 接入更強(qiáng)大的模型(DALL-E 3)是否能提升用戶表現(xiàn);
(ii) 用戶在使用更強(qiáng)模型時(shí)如何改寫或優(yōu)化他們的提示詞;
(iii) 整體性能提升中有多少應(yīng)歸因于模型改進(jìn),多少應(yīng)歸因于提示詞的適應(yīng)性調(diào)整。
模型升級(jí),是核心
首先,團(tuán)隊(duì)驗(yàn)證了使用DALL-E 3的參與者,是否比使用DALL-E 2的參與者表現(xiàn)更優(yōu)?
如下圖1所示,匯總了所有發(fā)現(xiàn)。
A展示了三組代表性目標(biāo)圖像,每組都包含了從兩種模型中抽取的三張圖像。
中間行是,目標(biāo)圖像余弦相似度最接近全體參與者平均值的生成結(jié)果,上行(下行)則呈現(xiàn)比均值相似度高(低)約一個(gè)平均處理效應(yīng)(ATE)的圖像。
在10次必要提示嘗試中,使用DALL-E 3的參與者生成圖像與目標(biāo)圖像的余弦相似度平均高出0.0164。
這個(gè)提升相當(dāng)于0.19個(gè)標(biāo)準(zhǔn)差,如下圖1 B所示。
而且,這種優(yōu)勢(shì)在10次嘗試中持續(xù)存在,因此不可否認(rèn),模型升級(jí)一定會(huì)比前代有著顯著的性能提升。
而且,參與者的動(dòng)態(tài)提示行為在兩種模型間也存在顯著差異:
圖C表明,DALL-E 3使用者的提示文本平均比DALL-E 2組長(zhǎng)24%,且該差距隨嘗試次數(shù)逐漸擴(kuò)大。
他們更傾向于復(fù)用或優(yōu)化先前提示,這表明當(dāng)發(fā)現(xiàn)模型能處理復(fù)雜指令后,他們會(huì)采取更具開發(fā)性的策略。
此外詞性分析證實(shí),增加的詞匯量提供的是實(shí)質(zhì)性描述信息而非冗余內(nèi)容:
名詞和形容詞(最具描述性的兩類詞性)占比在兩種模型間基本一致(DALL-E 3組48% vs DALL-E 2組49%,p = 0.215)。
這說明了,提示文本的延長(zhǎng)反映的是——語義信息的豐富化,而非無意義的冗長(zhǎng)。
模型51%,提示詞49%
研究人員觀察到提示行為的差異表明,用戶會(huì)主動(dòng)適應(yīng)所分配模型的能力。
DALL-E 3使用者的整體性能提升中,有多少源自模型技術(shù)能力的增強(qiáng),又有多少歸因于用戶針對(duì)該能力重寫提示?
為解答這一問題,研究人員采用前文所述的回放(replay)分析法,以實(shí)證分離這兩種效應(yīng)。
模型效應(yīng)
將DALL-E 2參與者編寫的原始提示,分別在DALL-E 2和DALL-E 3上評(píng)估性能。
結(jié)果顯示,相同提示在DALL-E 3上運(yùn)行時(shí)余弦相似度提升0.0084(p<10^-8),占兩組總性能差異的51%。
提示效應(yīng)
將DALL-E 2參與者的原始提示與DALL-E 3參與者編寫的提示(均在DALL-E 3上評(píng)估)進(jìn)行對(duì)比。
結(jié)果顯示,該效應(yīng)貢獻(xiàn)了剩余48%的改進(jìn),對(duì)應(yīng)余弦相似度提升0.0079(p=0.024)。
總處理效應(yīng)
總處理效應(yīng)為0.0164,關(guān)鍵的是,當(dāng)DALL-E 3用戶編寫的提示應(yīng)用于DALL-E 2時(shí),性能較原始DALL-E 2提示無顯著提升(Δ=0.0020;p=0.56)。
這種不對(duì)稱性,印證了提示優(yōu)化的效果依賴于模型執(zhí)行復(fù)雜指令的能力邊界。
圖2 B通過單一目標(biāo)圖像直觀呈現(xiàn)這些效應(yīng):
上行展示DALL-E 2參與者的原始提示,在DALL-E 3上生成更高保真度的圖像,證明固定提示下模型升級(jí)的效果;
下行顯示DALL-E 3參與者的提示在DALL-E 2上輸出質(zhì)量顯著下降,凸顯當(dāng)模型能力不足時(shí),提示優(yōu)化的效果存在天花板。
這些發(fā)現(xiàn)研究人員的理論主張,提供了實(shí)證支持:
提示優(yōu)化是一種動(dòng)態(tài)互補(bǔ)策略——用戶根據(jù)模型能力提升而主動(dòng)調(diào)整行為,且這種調(diào)整對(duì)實(shí)際性能增益的貢獻(xiàn)不可忽視。
技能異質(zhì)性
如下表1呈現(xiàn)了「回歸分析結(jié)果」,測(cè)試了模型效應(yīng)、提示詞效應(yīng)以及總效應(yīng)是否會(huì)在不同技能水平的參與者之間系統(tǒng)性地變化。
主要發(fā)現(xiàn)如下:
1. 總效應(yīng)與表現(xiàn)十分位數(shù)的交互項(xiàng)呈負(fù)相關(guān)且統(tǒng)計(jì)顯著(?0.000115,p = 0.0152)。
這表明模型改進(jìn)縮小了高、低績(jī)效用戶之間的整體差距,這與概念框架中的命題1一致。
2. 模型效應(yīng)與表現(xiàn)十分位數(shù)的交互項(xiàng),同樣呈負(fù)相關(guān)且統(tǒng)計(jì)顯著(?0.000059,p=0.0210)。
這說明模型升級(jí)主要惠及低技能用戶。這與命題2的理論預(yù)測(cè)相符,因?yàn)榻咏阅苌舷薜母呒寄苡脩舸嬖谑找孢f減效應(yīng)。
3. 并沒有發(fā)現(xiàn)提示詞適應(yīng)的效益,在技能分布上存在顯著差異(?0.000056,p=0.2444)。
此外,研究團(tuán)隊(duì)還評(píng)估了自動(dòng)化提示詞的效果。
結(jié)果發(fā)現(xiàn),GPT-4經(jīng)常添加無關(guān)細(xì)節(jié)或微妙改變參與者的原意,導(dǎo)致模型輸出質(zhì)量下降58%。
用簡(jiǎn)單的話來說,AI寫的提示詞曲解了意圖,不如用戶精心編制的提示詞。
對(duì)此,Outbox.ai的創(chuàng)始人Connor Davis給出了建議,不要去過度自動(dòng)化提示詞,人還應(yīng)該在其中發(fā)揮主動(dòng)性。
作者介紹
Eaman Jahani
Eaman Jahani是馬里蘭大學(xué)商學(xué)院信息系統(tǒng)專業(yè)的助理教授。
他曾在UC伯克利統(tǒng)計(jì)系擔(dān)任博士后研究員,還獲得了MIT的社會(huì)工程系統(tǒng)與統(tǒng)計(jì)學(xué)雙博士學(xué)位。
Benjamin S. Manning
Benjamin S. Manning目前是MIT斯隆管理學(xué)院IT組的四年級(jí)博士生。他曾獲得MIT碩士學(xué)位和華盛頓大學(xué)學(xué)士學(xué)位。
他的研究圍繞兩個(gè)相輔相成的方向:(1) 利用AI系統(tǒng)進(jìn)行社會(huì)科學(xué)發(fā)現(xiàn);(2) 探索AI系統(tǒng)如何代表人類并按照人類指令行事。
Joe Zhang
Joe Zhang目前是斯坦福大學(xué)博士生,此前,曾獲得了普林斯頓大學(xué)的學(xué)士學(xué)位。
個(gè)人的研究喜歡從人機(jī)交互到社會(huì)科學(xué)等多個(gè)學(xué)術(shù)領(lǐng)域汲取靈感,試圖理解新興的人機(jī)協(xié)作系統(tǒng)及其對(duì)商業(yè)和社會(huì)的影響。
參考資料:
https://arxiv.org/abs/2407.14333v5
https://x.com/connordavis_ai/status/1957057335152836737
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.