成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓AI創(chuàng)作不千篇一律,提示詞隨機插詞匯就行

0
分享至

  • 時令 發(fā)自 凹非寺
    量子位 | 公眾號 QbitAI

如果你以為AI寫作產(chǎn)生的內(nèi)容都一樣,那可能要顛覆認知了。

最新研究發(fā)現(xiàn),只要在AI開寫前由人類提供一個開頭或者隨機插入一些詞匯,寫作效果會更具多樣性。

也就是說,AI寫作同質(zhì)化不是模型本身存在缺陷,更可能是“啟動條件”有問題。



實驗結(jié)果顯示,在Short Stories數(shù)據(jù)集上,人類的文體特征方差最低,表明人類在該數(shù)據(jù)集寫作風格較為統(tǒng)一,而模型則表現(xiàn)出更豐富的風格多樣性。



比如在最新的GPT-5里讓它用相同提示詞續(xù)寫同一段文章。

  • 你是一位創(chuàng)意寫作助手。請為以下故事續(xù)寫一個引人入勝的結(jié)尾。 以下是故事的上半部分。請你寫出與其長度相當?shù)南掳氩糠帧?/li>
  • {第一次見到7號記憶體時,它的數(shù)據(jù)流里飄著槐花香。我調(diào)整著全息投影儀的焦距,那些半透明的淡紫色光點便從操作臺上漫出來,在無菌實驗室的空氣中凝結(jié)成模糊的樹影……}

結(jié)果卻是不太一樣哎~



那此研究到底是如何證明AI寫作并不趨同的呢?我們接著了解更多細節(jié)。

創(chuàng)建三類同質(zhì)化評價指標

以往研究普遍認為,大型語言模型在詞匯、句法和語義等方面生成的文本,比起同等規(guī)模的人類作品,表現(xiàn)出明顯的多樣性不足。

這引發(fā)了“創(chuàng)造力模式崩潰”的猜測,認為LLM的創(chuàng)意空間遠不如人類廣闊,甚至擔心未來人機協(xié)作會讓觀點變得千篇一律、雷同無趣。

然而,大多數(shù)關于語義多樣性的評測都停留在單一指標的不同變體上,缺乏足夠的實證支持,難以揭示真實的創(chuàng)作多樣性。

因此,此研究提出了一套新的評估指標和數(shù)據(jù)集,用以對語言模型的語料庫級多樣性進行基準測試。

數(shù)據(jù)抓取

本研究主要分析短篇小說散文,文本來源于Reddit網(wǎng)站的兩個子版塊:r/shortstories和r/WritingPrompts,帖子按照Top排序順序獲取。

在r/WritingPrompts板塊,研究人員提取了100個寫作提示帖子及其最多10條一級回復,將這些回復視為人類寫作的續(xù)寫內(nèi)容,用于分析每個提示對應的多個人類續(xù)寫。

在r/shortstories板塊,他們收集了100篇獨立的敘事文本,用來評估人類與模型生成故事在整體風格和結(jié)構(gòu)上的相似性。

創(chuàng)建語料庫

數(shù)據(jù)清

對兩個數(shù)據(jù)集中的人類寫作文本,他們篩選了長度介于500字至2000字之間的故事。

對于寫作提示數(shù)據(jù)集,若某個提示對應的人類續(xù)寫超過10篇,他們只保留投票數(shù)最高的前10篇,以避免每個提示下故事數(shù)量差異過大,同時保證人類寫作質(zhì)量。

模型續(xù)寫生成

除非另有說明,模型續(xù)寫均采用固定溫度0.8、top-p為1,并使用基礎系統(tǒng)提示。詳細的實驗設置和提示內(nèi)容見附錄B。

同質(zhì)化指標

文本同質(zhì)化是通過不同的維度來衡量的,主要分為以下三類。



文體風格同質(zhì)化

文體學通過分析作者獨特的語言習慣(如詞匯和語法特點)來識別寫作風格。

為了衡量整個文本集合的多樣性,研究者采用了Unique-N指標(衡量重復短語的比例)并計算了文體特征的方差,以評估語料庫的風格多樣性。

語義同質(zhì)化

研究通過計算文本嵌入向量的平均相似度,利用多層級、多種嵌入方法分析語料庫中的語義多樣性,并通過比較不同層級的嵌入離散度變化,有效區(qū)分了風格差異和語義差異。

情感同質(zhì)化

研究還利用VADER工具對人類和模型生成的故事進行情感分析,比較了二者情感表達的分布差異,以此作為評估文本多樣性的重要維度。

AI寫作情感更偏向正面

首先分析文體風格同質(zhì)化指標,在Writing Prompts數(shù)據(jù)集中,人類的多樣性得分明顯高于其他模型。

但有趣的是,這個模式在Short Stories數(shù)據(jù)集中并不成立:這里人類文本仍然擁有較高的Unique-N得分,卻在所有模型中表現(xiàn)出最低的文體特征方差。作者分析可能是因為前者擁有更為多樣化或更高水平的寫作群體。

另外需要注意的是,在Writing Prompts數(shù)據(jù)集中,模型獲得了更多關于人類作者的上下文信息,它會接收作者50%的故事內(nèi)容作為提示,而在Short Stories數(shù)據(jù)集中,提示僅有幾句話。



其次是關于語義同質(zhì)化,研究通過比較人類與語言模型在相同寫作提示下的文本嵌入相似度,發(fā)現(xiàn)人類作品語義多樣性更高,而模型生成文本更趨同,反映出模型存在同質(zhì)化傾向。



但需要注意的是,用于生成嵌入的MiniLM模型最大輸入長度為256個token,超過該長度的文本會被截斷,這可能導致較長續(xù)寫中的重要信息被遺漏,從而影響相似度的測量。

為評估這一限制的影響,研究者還使用了最大輸入長度為512個token的BGE和E5嵌入模型進行分析。

可以看出,盡管各模型中模型內(nèi)部相似度普遍高于人類的趨勢依舊明顯,但絕對相似度數(shù)值顯著升高。



這一現(xiàn)象表明,更高維度的嵌入可能帶來更高的余弦相似度。不過它們之間的具體關系仍不清晰,尚需進一步研究以區(qū)分嵌入維度和真實語義相似度之間的影響。

最后是情感同質(zhì)化,情感得分s取值范圍為[-1, 1],其中s>0.05表示正面情感,s<-0.05表示負面情感,s∈[-0.05, 0.05]表示中性情感。

可以觀察到,盡管大多數(shù)人類創(chuàng)作的故事呈現(xiàn)正面情感,但約有30%的故事帶有負面情感,顯示出較為豐富且多樣的情感表現(xiàn)。

相比之下,LLM生成的故事情感更偏向正面。



為進一步研究多少上下文信息能促使模型產(chǎn)生更多樣化的輸出,研究者在提示中提供不同長度的人類創(chuàng)作內(nèi)容。

下表分別展示了采用30%和70%截取長度時的文體多樣性指標結(jié)果。



結(jié)果表明,這兩個截取長度對文體多樣性都影響不大,語義多樣性也沒有顯著變化。

因此,研究者探索的另一種方法是在系統(tǒng)提示中加入隨機單詞。

他們使用google-10000-english-no-swears詞表,對其中的單詞進行詞性標注,只保留名詞、形容詞、副詞和動詞這幾類詞匯。

每次生成時,隨機抽取5個單詞,附加在提示語“here is a list of random words to take inspiration from”后面。



結(jié)果表明,盡管模型生成文本的多樣性仍低于人類,但所有模型在各項指標上的多樣性得分均有所提升,說明向系統(tǒng)提示中注入隨機詞匯確實有助于提升模型輸出的文體多樣性。

未來,研究團隊將進一步探究提示中包含多少以及哪種類型的上下文,才能使模型輸出達到與人類短篇故事同等的多樣性。

論文鏈接:https://kiaghods.com/assets/pdfs/LLMHomogenization.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
十大元帥逝世順序排名,林彪第三,彭德懷第五,首尾都是林彪搭檔

十大元帥逝世順序排名,林彪第三,彭德懷第五,首尾都是林彪搭檔

大運河時空
2025-08-28 16:45:03
上海警方披露:徐某身亡,認定全責!高發(fā)路段正加大治理!不少人被“抓”,特別提醒

上海警方披露:徐某身亡,認定全責!高發(fā)路段正加大治理!不少人被“抓”,特別提醒

新民晚報
2025-08-29 21:02:43
9月3日中國閱兵,歐美發(fā)達國家的領導人,為何選擇集體缺席?

9月3日中國閱兵,歐美發(fā)達國家的領導人,為何選擇集體缺席?

文史道
2025-08-30 06:45:03
中共中央組織部通知:李宗禮職務調(diào)整

中共中央組織部通知:李宗禮職務調(diào)整

新京報政事兒
2025-08-30 09:22:54
霍英東家族相聚北京,霍震霆霍震寰都在,合照霍啟山帥氣站在后排

霍英東家族相聚北京,霍震霆霍震寰都在,合照霍啟山帥氣站在后排

小撇說事
2025-08-30 10:42:44
90年代,朝鮮1個軍團共5萬人叛變,韓國主動派兵接應,結(jié)局怎樣?

90年代,朝鮮1個軍團共5萬人叛變,韓國主動派兵接應,結(jié)局怎樣?

南書房
2025-08-23 20:35:04
俄羅斯宣布9月暫停汽油出口,國內(nèi)汽油價格暴漲近50%,什么情況?

俄羅斯宣布9月暫停汽油出口,國內(nèi)汽油價格暴漲近50%,什么情況?

碳基生物關懷組織
2025-08-28 17:57:32
臺灣省多地慶??箲?zhàn)勝利80周年

臺灣省多地慶??箲?zhàn)勝利80周年

微微熱評
2025-08-29 19:10:47
我爸是市委書記,我對女友說我爸是工人,結(jié)果她和副鎮(zhèn)長好上了

我爸是市委書記,我對女友說我爸是工人,結(jié)果她和副鎮(zhèn)長好上了

喬生桂
2025-08-17 08:15:03
美歐韓日泰萬萬沒想到,中前腳公布閱兵名單,后腳關稅清單就來了

美歐韓日泰萬萬沒想到,中前腳公布閱兵名單,后腳關稅清單就來了

阿芒娛樂說
2025-08-30 00:13:08
央媽突發(fā)降息的牛市!8月30日,股市即將迎來新一輪行情?

央媽突發(fā)降息的牛市!8月30日,股市即將迎來新一輪行情?

風口招財豬
2025-08-30 09:42:49
澳門賭場公關爆猛料:明星導演常來,某天王玩半年,專走秘密通道

澳門賭場公關爆猛料:明星導演常來,某天王玩半年,專走秘密通道

深析古今
2025-08-25 10:41:34
普京態(tài)度大變,朝鮮最高領導人親自出馬,萬斯:我們已聯(lián)系中國

普京態(tài)度大變,朝鮮最高領導人親自出馬,萬斯:我們已聯(lián)系中國

前沿迅息
2025-08-30 20:20:02
南海拖船進場,菲律賓突然高喊“一個中國”,低姿態(tài)請求給條生路

南海拖船進場,菲律賓突然高喊“一個中國”,低姿態(tài)請求給條生路

妙知
2025-08-30 03:44:54
印尼雅加達等多個城市發(fā)生大規(guī)模示威游行活動,中國駐印尼大使館發(fā)布提醒

印尼雅加達等多個城市發(fā)生大規(guī)模示威游行活動,中國駐印尼大使館發(fā)布提醒

環(huán)球網(wǎng)資訊
2025-08-30 14:55:18
紅杉資本:AI正在引領一場價值10萬億美元的革命,比工業(yè)革命更宏大

紅杉資本:AI正在引領一場價值10萬億美元的革命,比工業(yè)革命更宏大

華爾街見聞官方
2025-08-29 11:52:26
80后同學群竟成了訃告群!班里60個同學,已走了5人,全是心?!?>
    </a>
        <h3>
      <a href=火山詩話
2025-08-28 10:12:59
閱兵還剩5天,美軍終于坐不?。盒卵b備是重大挑戰(zhàn),航母危險了!

閱兵還剩5天,美軍終于坐不?。盒卵b備是重大挑戰(zhàn),航母危險了!

墨蘭史書
2025-08-30 04:05:03
教育局回應上海斥資 1.4 億元給學生配運動手環(huán):免費發(fā)

教育局回應上海斥資 1.4 億元給學生配運動手環(huán):免費發(fā)

IT之家
2025-08-30 19:16:37
熱議成都vs海港半場:王燊超這一邊被打爆,楊世元太魯莽

熱議成都vs海港半場:王燊超這一邊被打爆,楊世元太魯莽

懂球帝
2025-08-30 20:39:57
2025-08-30 21:00:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11215文章數(shù) 176256關注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

沙利文麻了:4年白干 當初拉的盟友現(xiàn)在罵美國是"馬桶"

頭條要聞

沙利文麻了:4年白干 當初拉的盟友現(xiàn)在罵美國是"馬桶"

體育要聞

淘汰曼聯(lián)的英乙隊,仍然沒有忘記張恩華

娛樂要聞

吳京風波拉出多位明星

財經(jīng)要聞

美上訴法院裁定特朗普關稅非法!

汽車要聞

輔助駕駛新賽道 理想VLA司機大模型即將全量推送

態(tài)度原創(chuàng)

手機
親子
時尚
教育
藝術(shù)

手機要聞

消息稱 vivo X300 系列手機 10 月發(fā)布,搭載蔡司 2 億像素鏡頭

親子要聞

爸爸的食堂營業(yè)了,看看都給孩子們做了什么好吃的

人到中年穿衣不跟風!試試經(jīng)典款+莫蘭迪色,輕松穿出高級感

教育要聞

2025上海海事大學 生源前5都來自哪些高中?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版