成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華團隊揭示ChatGPT中文語料中的污言穢語治理新技術(shù)

0
分享至



本文第一作者是清華大學(xué)博士生張清杰,研究方向是大語言模型異常行為和可解釋性;本文通訊作者是清華大學(xué)邱寒副教授;其他作者來自清華大學(xué)、南洋理工大學(xué)和螞蟻集團。

如果我們的教科書里包含大量的污言穢語,那么我們能學(xué)好語言嗎?這種荒唐的問題卻出現(xiàn)在最先進 ChatGPT 系列模型的學(xué)習(xí)過程中。

來自清華大學(xué)、南洋理工大學(xué)和螞蟻集團的研究人員發(fā)現(xiàn),GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文詞表污染高達 46.6%,甚至同時包含「波*野結(jié)衣」、「*野結(jié)衣」、「*野結(jié)」、「*野」、「大發(fā)時時彩」、「大發(fā)快三」、「大發(fā)」等色情、賭博相關(guān)詞元(如下圖所示)。

研究團隊對 OpenAI 近期發(fā)布的 GPT-5 和 GPT-oss 的詞表也進行了分析,它們詞表的中文 token 沒有變化。



圖 1:GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文詞表污染高達 46.6%,主要涉及色情、賭博。

研究團隊認為,這種現(xiàn)象是由于來自互聯(lián)網(wǎng)數(shù)據(jù)的大模型預(yù)訓(xùn)練語料庫不可避免地包含污染內(nèi)容,導(dǎo)致在此之上構(gòu)建的大語言模型(LLM)詞表包含污染詞。那么,這些污染詞會如何影響 LLM 的性能?與污染數(shù)據(jù)的關(guān)系如何呢?

為了系統(tǒng)性研究 LLM 的中文詞表和數(shù)據(jù)污染問題,研究團隊首先定義和分類了中文污染詞(Polluted Chinese tokens, PoC tokens),分析了它們對 LLM 性能的影響;其次,為了高效識別不同 LLM 詞表里的 PoC tokens,研究團隊設(shè)計了一個中文污染詞檢測模型;最后,通過中文詞表污染有效估計數(shù)據(jù)污染,為污染數(shù)據(jù)治理提供輕量化解決方案。



  • 論文標題:Speculating LLMs’ Chinese Training Data Pollution from Their Tokens
  • 錄用會議:EMNLP 2025 Main
  • 項目網(wǎng)站:https://pollutedtokens.site/

值得注意的是,本項研究工作于 2025 年 5 月 29 日在清華大學(xué)基礎(chǔ)模型學(xué)術(shù)年會上由邱寒老師首次分享,并提出針對 10T 級的大語言模型訓(xùn)練語料庫的污染數(shù)據(jù)治理技術(shù)。

央視于 2025 年 8 月 17 日的新聞中也指出,AI 數(shù)據(jù)被污染存在風(fēng)險。



中文污染詞的定義、分類和危害

該研究首先組建了包含 6 名跨學(xué)科領(lǐng)域?qū)<业臉俗F隊(擁有哲學(xué)、社會學(xué)、中文語言學(xué)、計算機科學(xué)博士學(xué)位),對先進 ChatGPT 模型的中文詞表進行污染詞標注,總結(jié)出中文污染詞的定義和分類,為后續(xù)研究打下基礎(chǔ)。

定義:中文污染詞(Polluted Chinese tokens, PoC tokens)是存在于 LLM 詞表中,從主流中文語言學(xué)的角度編譯了不合法、不常見、不常用內(nèi)容的中文詞(多于 2 個字)。

分類:中文污染詞主要包括如下 5 個類別:

  • 成人內(nèi)容,例如「波*野結(jié)衣」。
  • 在線賭博,例如「大發(fā)彩票網(wǎng)」。
  • 在線游戲,例如「傳奇私服」。
  • 在線視頻,例如「在線觀看」。
  • 奇怪內(nèi)容,例如「給主人留下些什么吧」。

參照這種定義和分類,專家標注團隊對先進 ChatGPT 模型的中文長詞(共計 1659 個)進行標注,發(fā)現(xiàn)污染詞有 773 個(46.6%),其中成人內(nèi)容的污染詞最多,足足有 219 個(13.2%)。

進一步,研究團隊分析了中文污染詞的危害,發(fā)現(xiàn)即使是最先進的 ChatGPT 模型(GPT-4o/o1/o3/4.5/4.1/o4-mini)在輸入中文污染詞后也會胡言亂語。如下圖所示,ChatGPT 不能理解甚至不能重復(fù)中文污染詞,輸入一個中文污染詞甚至?xí)敵隽硪粋€中文污染詞。

如下表所示,與輸入正常中文詞相比,輸入中文污染詞會顯著降低 ChatGPT 的回答質(zhì)量,在解釋和重復(fù)任務(wù)上有約 50% 的性能損失。



表 1:輸入中文污染詞會造成 ChatGPT 在解釋和重復(fù)任務(wù)上約 50% 的性能損失。

為了初步解釋這一現(xiàn)象,研究團隊分析了開源預(yù)訓(xùn)練語料庫(例如 mC4)中的中文網(wǎng)頁,發(fā)現(xiàn)多種中文污染詞聚集于一些網(wǎng)頁的頭部和尾部(如下圖所示)。這些低質(zhì)量語料使得 LLM 錯誤理解了不同中文污染詞之間的相關(guān)性,且沒有在后訓(xùn)練階段被矯正回來,導(dǎo)致模型在推理時無法理解也無法重復(fù)中文污染詞。



圖 3:開源預(yù)訓(xùn)練語料庫 mC4 的中文網(wǎng)頁:中文污染詞聚集于一些網(wǎng)頁的頭部和尾部。

污染檢測:自動化識別中文污染詞

為了將中文污染詞的識別和分類擴展到更多的 LLM,研究團隊微調(diào)中文能力強且污染較少的 GLM-4-32B,構(gòu)建自動化中文污染詞識別模型。

由于中文污染詞通常是晦澀難懂的(例如「青青草」看似正常,但 Google 搜索結(jié)果與互聯(lián)網(wǎng)色情平臺有關(guān)),即使是中文語言學(xué)專家也無法判斷中文詞是否污染、屬于哪一種污染類別。

因此,研究團隊為識別模型設(shè)計網(wǎng)絡(luò)檢索機制,對每一個待檢測中文詞返回 10 條 Google 檢索信息,作為判斷是否為污染詞的背景信息。并且,微調(diào)以專家標注結(jié)果作為真值標簽,最終使模型達到 97.3% 的識別正確率。

如下圖所示,研究團隊用識別模型對 23 個主流 LLM 的 9 個詞表進行了中文污染詞檢測。不只有先進的 ChatGPT 系列模型,中文污染詞在其他 LLM 詞表中也存在。其中成人內(nèi)容、在線賭博、奇怪內(nèi)容占了大多數(shù)。

然而,上一代 ChatGPT 模型(GPT-4/4-turbo/3.5)包含很少量的表征多個中文字的 token,其中卻不包括中文污染詞。



圖 4:Qwen2/2.5/3 和 GLM4 的部分中文污染詞。

污染追蹤:由詞表污染估計數(shù)據(jù)污染

由于詞表污染是訓(xùn)練數(shù)據(jù)污染的反映,研究團隊進一步設(shè)計污染追蹤方案,通過 LLM 的詞表反向估計訓(xùn)練數(shù)據(jù)的污染情況,為海量數(shù)據(jù)治理提供輕量化方案。

LLM 的詞表構(gòu)建大多基于 BPE 算法。簡單來說,BPE 算法對語料庫里的詞頻進行統(tǒng)計,并將出現(xiàn)頻率越大的詞放在詞表越靠前的位置,即詞 ID 越小。由詞表污染估計數(shù)據(jù)污染即為對 BPE 算法做逆向,然而,逆向 BPE 的結(jié)果不唯一,因為一個詞 ID 并不對應(yīng)于一個確定的詞頻,只能給出詞頻范圍的估計。

因此,研究團隊結(jié)合經(jīng)典語言學(xué)的 Zipf 分布和上下確界理論,在開源語料庫上用分位數(shù)回歸擬合出詞 ID-詞頻的經(jīng)驗估計。

如下圖所示,該經(jīng)驗估計有效擬合了詞 ID-詞頻分布的上下界,并且落于理論上下確界之間,因此是一種有效的污染追蹤方案。



圖 5:詞 ID-詞頻的經(jīng)驗估計有效擬合了分布的上下界,并且落于理論上下確界之間。

基于這種經(jīng)驗估計,研究團隊估計了開源語料庫 mC4 的數(shù)據(jù)污染,并與真值做比較。如下圖所示,該估計方案對整體數(shù)據(jù)污染的估計是比較接近的,而對于具體污染類別的估計存在優(yōu)化空間,這是因為具體污染類別的組分更少,其分布特征在海量語料庫的統(tǒng)計中被削弱了。



圖 6:開源語料庫 mC4 的數(shù)據(jù)污染估計及與真值的比較。

進一步,研究團隊估計了 GPT-4o 詞表里出現(xiàn)的中文污染詞「波*野結(jié)衣」在訓(xùn)練語料里的污染情況。結(jié)果顯示,「波*野結(jié)衣」相關(guān)頁面在 GPT-4o 中文訓(xùn)練語料的占比高達 0.5%,甚至是中文常用詞「您好」的 2.6 倍。

由于 GPT-4o 的中文訓(xùn)練語料沒有開源,為了驗證這種估計,研究團隊在無污染的開源數(shù)據(jù)集上按照 0.5% 的比例混合「波*野結(jié)衣」相關(guān)頁面,并用 BPE 算法構(gòu)建詞表以模擬 GPT-4o 構(gòu)建詞表的過程。如下圖所示,該比例幾乎準確復(fù)現(xiàn)了 4 個相關(guān)詞「*野」、「*野結(jié)」、「*野結(jié)衣」、「波*野結(jié)衣」在 GPT-4o 詞表里的詞 ID。



圖 7:按照 0.5% 的比例混合「波*野結(jié)衣」相關(guān)頁面可以在開源語料庫上復(fù)現(xiàn)出 4 個相關(guān)詞「*野」、「*野結(jié)」、「*野結(jié)衣」、「波*野結(jié)衣」在 GPT-4o 詞表里的詞 ID。

未來展望:污染數(shù)據(jù)是否百弊而無一利?

盡管污染語料會導(dǎo)致大語言模型的詞表里混入「污言穢語」,那么污染數(shù)據(jù)是否百弊而無一利呢?哈佛大學(xué)于 ICML 2025 發(fā)表的文章《When Bad Data Leads to Good Models》指出,預(yù)訓(xùn)練中適量的污染數(shù)據(jù)可作為對齊模型的催化劑。

該研究基于如下圖所示的理論假設(shè):當(dāng)預(yù)訓(xùn)練中有害數(shù)據(jù)過少時,有害表征會與其他表征混雜在一起,不易區(qū)分;反之,當(dāng)有害數(shù)據(jù)適量時,有害表征更容易被區(qū)分。



圖 8:預(yù)訓(xùn)練包含適量有害數(shù)據(jù) vs 極少有害數(shù)據(jù):前者更易區(qū)分有害表征向量。

進一步,研究團隊按照 0-25% 不同有害數(shù)據(jù)比例預(yù)訓(xùn)練 Olmo-1B 模型,并在 inference 階段識別并偏轉(zhuǎn)有害表征,從而抑制有害內(nèi)容輸出。實驗結(jié)果顯示適量(10%)有害數(shù)據(jù)預(yù)訓(xùn)練的模型在應(yīng)用抑制方法后的有害性最低,甚至低于不包含有害數(shù)據(jù)的預(yù)訓(xùn)練模型。

水至清則無魚,適量的污染數(shù)據(jù)有助于模型的安全對齊。在促進安全對齊和預(yù)防過度污染間保持平衡,是未來的污染數(shù)據(jù)研究值得探索的方向。

總結(jié)

最新 ChatGPT 系列模型的《新華詞典》里有 46.6% 都是「污言穢語」,并且輸入這些「污言穢語」會讓模型胡言亂語?;谶@一現(xiàn)象,研究團隊系統(tǒng)性給出了此類中文污染詞的定義和分類,構(gòu)建了中文污染詞自動識別模型,并基于詞表污染估計訓(xùn)練語料污染。綜上所述,該研究期待為 LLM 海量訓(xùn)練語料的治理提供輕量化的方案。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
閱兵將至,香港霍家三父子現(xiàn)身北京,閱兵僅冰山一角,目的很明確

閱兵將至,香港霍家三父子現(xiàn)身北京,閱兵僅冰山一角,目的很明確

芳芳歷史燴
2025-09-02 16:06:32
已獲批復(fù)!湖北一所大學(xué)正式更名

已獲批復(fù)!湖北一所大學(xué)正式更名

極目新聞
2025-09-02 15:30:08
古人為何規(guī)定筷子7寸6分,且一頭圓一頭方?身為炎黃子孫不得不知

古人為何規(guī)定筷子7寸6分,且一頭圓一頭方?身為炎黃子孫不得不知

大千世界觀
2025-09-01 20:44:30
出國我才知道:中國人人在用的手機支付,為什么在發(fā)達國家無人問津

出國我才知道:中國人人在用的手機支付,為什么在發(fā)達國家無人問津

蕭竹輕語
2025-09-02 18:11:49
莫迪的演技,已到頂級

莫迪的演技,已到頂級

虛聲
2025-09-01 21:09:47
全網(wǎng)等著看笑話,楊采鈺男友一招四兩撥千斤,保全她最后的體面!

全網(wǎng)等著看笑話,楊采鈺男友一招四兩撥千斤,保全她最后的體面!

火之文
2025-09-01 17:20:19
93閱兵,比日本更加賣命抵制的是誰?為什么越阻攔,越想來?

93閱兵,比日本更加賣命抵制的是誰?為什么越阻攔,越想來?

天氣觀察站
2025-09-02 14:57:55
最新民調(diào)出爐,鄭麗文意外落榜,藍營黑馬出現(xiàn),郝龍斌算盤或落空

最新民調(diào)出爐,鄭麗文意外落榜,藍營黑馬出現(xiàn),郝龍斌算盤或落空

正經(jīng)的燒杯1
2025-09-02 14:58:04
孫穎莎王楚欽同機回京引熱議!黑色豪車接機,粉絲福爾摩斯上線

孫穎莎王楚欽同機回京引熱議!黑色豪車接機,粉絲福爾摩斯上線

情感大頭說說
2025-09-02 17:08:03
重慶今天高溫發(fā)展增多 明起三天高溫不斷中心城區(qū)或達39℃

重慶今天高溫發(fā)展增多 明起三天高溫不斷中心城區(qū)或達39℃

極目新聞
2025-09-02 17:06:00
27歲上海女子被富豪包養(yǎng),自愿簽下保密協(xié)議,入住山頂別墅

27歲上海女子被富豪包養(yǎng),自愿簽下保密協(xié)議,入住山頂別墅

第四思維
2025-09-01 09:02:30
人民日報痛批特權(quán)!武大逼停事件:辛某道歉,取消車輛3個月特權(quán)

人民日報痛批特權(quán)!武大逼停事件:辛某道歉,取消車輛3個月特權(quán)

史行途
2025-09-02 08:27:57
外交部回應(yīng)烏克蘭涉普京訪華言論

外交部回應(yīng)烏克蘭涉普京訪華言論

新京報
2025-09-02 15:57:52
51年最差,龔翔宇退出女排?央視發(fā)聲,龔翔宇表態(tài),官宣決定

51年最差,龔翔宇退出女排?央視發(fā)聲,龔翔宇表態(tài),官宣決定

東球弟
2025-09-02 10:54:07
36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

釋凡電影
2025-08-14 09:33:19
朋友去世了,微信要刪除嗎?網(wǎng)友:痛苦的永遠是活著記得的哪一個

朋友去世了,微信要刪除嗎?網(wǎng)友:痛苦的永遠是活著記得的哪一個

帶你感受人間冷暖
2025-08-07 00:15:07
兩岸再突發(fā)重大事情,蔣萬安還沒坐飛機來陸,國臺辦發(fā)出一個警告

兩岸再突發(fā)重大事情,蔣萬安還沒坐飛機來陸,國臺辦發(fā)出一個警告

boss外傳
2025-09-02 15:45:03
不敢想象!山東菏澤一中學(xué)初一新生近100個班級!放學(xué)人都找不到

不敢想象!山東菏澤一中學(xué)初一新生近100個班級!放學(xué)人都找不到

觀察鑒娛
2025-09-02 09:11:20
1.2億頂薪,恭喜勇士!交易大獲成功,“三巨頭”豪陣劍指總冠軍

1.2億頂薪,恭喜勇士!交易大獲成功,“三巨頭”豪陣劍指總冠軍

老侃侃球
2025-09-02 09:44:12
A股:做好心理準備,突發(fā)兩條消息,明天要開啟大級別行情了?

A股:做好心理準備,突發(fā)兩條消息,明天要開啟大級別行情了?

財經(jīng)大拿
2025-09-02 15:01:03
2025-09-02 19:47:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11215文章數(shù) 142437關(guān)注度
往期回顧 全部

科技要聞

宇樹科技稱將在四季度提交IPO申請

頭條要聞

美國又對芯片下黑手 專家:中企可能已經(jīng)有了備選方案

頭條要聞

美國又對芯片下黑手 專家:中企可能已經(jīng)有了備選方案

體育要聞

等了十年,石宇奇終于說出這句話

娛樂要聞

“廚神對決!”誰做的菜好吃?

財經(jīng)要聞

一級市場不靈,LP勸我去炒股

汽車要聞

12分鐘大訂破3000 "配齊"的全新嵐圖知音滿血華為

態(tài)度原創(chuàng)

數(shù)碼
親子
房產(chǎn)
公開課
軍事航空

數(shù)碼要聞

價格倒掛DDR4比DDR5還貴!兩大巨頭變卦延長生產(chǎn)

親子要聞

為什么老一輩都說帶孩子輕松?代際差異中有著顯著區(qū)別

房產(chǎn)要聞

海南樓市,最新榜單發(fā)布!有盤單月狂賣11.7億!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

九三閱兵 具體安排來了

無障礙瀏覽 進入關(guān)懷版