本文第一作者是清華大學(xué)博士生張清杰,研究方向是大語言模型異常行為和可解釋性;本文通訊作者是清華大學(xué)邱寒副教授;其他作者來自清華大學(xué)、南洋理工大學(xué)和螞蟻集團。
如果我們的教科書里包含大量的污言穢語,那么我們能學(xué)好語言嗎?這種荒唐的問題卻出現(xiàn)在最先進 ChatGPT 系列模型的學(xué)習(xí)過程中。
來自清華大學(xué)、南洋理工大學(xué)和螞蟻集團的研究人員發(fā)現(xiàn),GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文詞表污染高達 46.6%,甚至同時包含「波*野結(jié)衣」、「*野結(jié)衣」、「*野結(jié)」、「*野」、「大發(fā)時時彩」、「大發(fā)快三」、「大發(fā)」等色情、賭博相關(guān)詞元(如下圖所示)。
研究團隊對 OpenAI 近期發(fā)布的 GPT-5 和 GPT-oss 的詞表也進行了分析,它們詞表的中文 token 沒有變化。
圖 1:GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文詞表污染高達 46.6%,主要涉及色情、賭博。
研究團隊認為,這種現(xiàn)象是由于來自互聯(lián)網(wǎng)數(shù)據(jù)的大模型預(yù)訓(xùn)練語料庫不可避免地包含污染內(nèi)容,導(dǎo)致在此之上構(gòu)建的大語言模型(LLM)詞表包含污染詞。那么,這些污染詞會如何影響 LLM 的性能?與污染數(shù)據(jù)的關(guān)系如何呢?
為了系統(tǒng)性研究 LLM 的中文詞表和數(shù)據(jù)污染問題,研究團隊首先定義和分類了中文污染詞(Polluted Chinese tokens, PoC tokens),分析了它們對 LLM 性能的影響;其次,為了高效識別不同 LLM 詞表里的 PoC tokens,研究團隊設(shè)計了一個中文污染詞檢測模型;最后,通過中文詞表污染有效估計數(shù)據(jù)污染,為污染數(shù)據(jù)治理提供輕量化解決方案。
- 論文標題:Speculating LLMs’ Chinese Training Data Pollution from Their Tokens
- 錄用會議:EMNLP 2025 Main
- 項目網(wǎng)站:https://pollutedtokens.site/
值得注意的是,本項研究工作于 2025 年 5 月 29 日在清華大學(xué)基礎(chǔ)模型學(xué)術(shù)年會上由邱寒老師首次分享,并提出針對 10T 級的大語言模型訓(xùn)練語料庫的污染數(shù)據(jù)治理技術(shù)。
央視于 2025 年 8 月 17 日的新聞中也指出,AI 數(shù)據(jù)被污染存在風(fēng)險。
中文污染詞的定義、分類和危害
該研究首先組建了包含 6 名跨學(xué)科領(lǐng)域?qū)<业臉俗F隊(擁有哲學(xué)、社會學(xué)、中文語言學(xué)、計算機科學(xué)博士學(xué)位),對先進 ChatGPT 模型的中文詞表進行污染詞標注,總結(jié)出中文污染詞的定義和分類,為后續(xù)研究打下基礎(chǔ)。
定義:中文污染詞(Polluted Chinese tokens, PoC tokens)是存在于 LLM 詞表中,從主流中文語言學(xué)的角度編譯了不合法、不常見、不常用內(nèi)容的中文詞(多于 2 個字)。
分類:中文污染詞主要包括如下 5 個類別:
- 成人內(nèi)容,例如「波*野結(jié)衣」。
- 在線賭博,例如「大發(fā)彩票網(wǎng)」。
- 在線游戲,例如「傳奇私服」。
- 在線視頻,例如「在線觀看」。
- 奇怪內(nèi)容,例如「給主人留下些什么吧」。
參照這種定義和分類,專家標注團隊對先進 ChatGPT 模型的中文長詞(共計 1659 個)進行標注,發(fā)現(xiàn)污染詞有 773 個(46.6%),其中成人內(nèi)容的污染詞最多,足足有 219 個(13.2%)。
進一步,研究團隊分析了中文污染詞的危害,發(fā)現(xiàn)即使是最先進的 ChatGPT 模型(GPT-4o/o1/o3/4.5/4.1/o4-mini)在輸入中文污染詞后也會胡言亂語。如下圖所示,ChatGPT 不能理解甚至不能重復(fù)中文污染詞,輸入一個中文污染詞甚至?xí)敵隽硪粋€中文污染詞。
如下表所示,與輸入正常中文詞相比,輸入中文污染詞會顯著降低 ChatGPT 的回答質(zhì)量,在解釋和重復(fù)任務(wù)上有約 50% 的性能損失。
表 1:輸入中文污染詞會造成 ChatGPT 在解釋和重復(fù)任務(wù)上約 50% 的性能損失。
為了初步解釋這一現(xiàn)象,研究團隊分析了開源預(yù)訓(xùn)練語料庫(例如 mC4)中的中文網(wǎng)頁,發(fā)現(xiàn)多種中文污染詞聚集于一些網(wǎng)頁的頭部和尾部(如下圖所示)。這些低質(zhì)量語料使得 LLM 錯誤理解了不同中文污染詞之間的相關(guān)性,且沒有在后訓(xùn)練階段被矯正回來,導(dǎo)致模型在推理時無法理解也無法重復(fù)中文污染詞。
圖 3:開源預(yù)訓(xùn)練語料庫 mC4 的中文網(wǎng)頁:中文污染詞聚集于一些網(wǎng)頁的頭部和尾部。
污染檢測:自動化識別中文污染詞
為了將中文污染詞的識別和分類擴展到更多的 LLM,研究團隊微調(diào)中文能力強且污染較少的 GLM-4-32B,構(gòu)建自動化中文污染詞識別模型。
由于中文污染詞通常是晦澀難懂的(例如「青青草」看似正常,但 Google 搜索結(jié)果與互聯(lián)網(wǎng)色情平臺有關(guān)),即使是中文語言學(xué)專家也無法判斷中文詞是否污染、屬于哪一種污染類別。
因此,研究團隊為識別模型設(shè)計網(wǎng)絡(luò)檢索機制,對每一個待檢測中文詞返回 10 條 Google 檢索信息,作為判斷是否為污染詞的背景信息。并且,微調(diào)以專家標注結(jié)果作為真值標簽,最終使模型達到 97.3% 的識別正確率。
如下圖所示,研究團隊用識別模型對 23 個主流 LLM 的 9 個詞表進行了中文污染詞檢測。不只有先進的 ChatGPT 系列模型,中文污染詞在其他 LLM 詞表中也存在。其中成人內(nèi)容、在線賭博、奇怪內(nèi)容占了大多數(shù)。
然而,上一代 ChatGPT 模型(GPT-4/4-turbo/3.5)包含很少量的表征多個中文字的 token,其中卻不包括中文污染詞。
圖 4:Qwen2/2.5/3 和 GLM4 的部分中文污染詞。
污染追蹤:由詞表污染估計數(shù)據(jù)污染
由于詞表污染是訓(xùn)練數(shù)據(jù)污染的反映,研究團隊進一步設(shè)計污染追蹤方案,通過 LLM 的詞表反向估計訓(xùn)練數(shù)據(jù)的污染情況,為海量數(shù)據(jù)治理提供輕量化方案。
LLM 的詞表構(gòu)建大多基于 BPE 算法。簡單來說,BPE 算法對語料庫里的詞頻進行統(tǒng)計,并將出現(xiàn)頻率越大的詞放在詞表越靠前的位置,即詞 ID 越小。由詞表污染估計數(shù)據(jù)污染即為對 BPE 算法做逆向,然而,逆向 BPE 的結(jié)果不唯一,因為一個詞 ID 并不對應(yīng)于一個確定的詞頻,只能給出詞頻范圍的估計。
因此,研究團隊結(jié)合經(jīng)典語言學(xué)的 Zipf 分布和上下確界理論,在開源語料庫上用分位數(shù)回歸擬合出詞 ID-詞頻的經(jīng)驗估計。
如下圖所示,該經(jīng)驗估計有效擬合了詞 ID-詞頻分布的上下界,并且落于理論上下確界之間,因此是一種有效的污染追蹤方案。
圖 5:詞 ID-詞頻的經(jīng)驗估計有效擬合了分布的上下界,并且落于理論上下確界之間。
基于這種經(jīng)驗估計,研究團隊估計了開源語料庫 mC4 的數(shù)據(jù)污染,并與真值做比較。如下圖所示,該估計方案對整體數(shù)據(jù)污染的估計是比較接近的,而對于具體污染類別的估計存在優(yōu)化空間,這是因為具體污染類別的組分更少,其分布特征在海量語料庫的統(tǒng)計中被削弱了。
圖 6:開源語料庫 mC4 的數(shù)據(jù)污染估計及與真值的比較。
進一步,研究團隊估計了 GPT-4o 詞表里出現(xiàn)的中文污染詞「波*野結(jié)衣」在訓(xùn)練語料里的污染情況。結(jié)果顯示,「波*野結(jié)衣」相關(guān)頁面在 GPT-4o 中文訓(xùn)練語料的占比高達 0.5%,甚至是中文常用詞「您好」的 2.6 倍。
由于 GPT-4o 的中文訓(xùn)練語料沒有開源,為了驗證這種估計,研究團隊在無污染的開源數(shù)據(jù)集上按照 0.5% 的比例混合「波*野結(jié)衣」相關(guān)頁面,并用 BPE 算法構(gòu)建詞表以模擬 GPT-4o 構(gòu)建詞表的過程。如下圖所示,該比例幾乎準確復(fù)現(xiàn)了 4 個相關(guān)詞「*野」、「*野結(jié)」、「*野結(jié)衣」、「波*野結(jié)衣」在 GPT-4o 詞表里的詞 ID。
圖 7:按照 0.5% 的比例混合「波*野結(jié)衣」相關(guān)頁面可以在開源語料庫上復(fù)現(xiàn)出 4 個相關(guān)詞「*野」、「*野結(jié)」、「*野結(jié)衣」、「波*野結(jié)衣」在 GPT-4o 詞表里的詞 ID。
未來展望:污染數(shù)據(jù)是否百弊而無一利?
盡管污染語料會導(dǎo)致大語言模型的詞表里混入「污言穢語」,那么污染數(shù)據(jù)是否百弊而無一利呢?哈佛大學(xué)于 ICML 2025 發(fā)表的文章《When Bad Data Leads to Good Models》指出,預(yù)訓(xùn)練中適量的污染數(shù)據(jù)可作為對齊模型的催化劑。
該研究基于如下圖所示的理論假設(shè):當(dāng)預(yù)訓(xùn)練中有害數(shù)據(jù)過少時,有害表征會與其他表征混雜在一起,不易區(qū)分;反之,當(dāng)有害數(shù)據(jù)適量時,有害表征更容易被區(qū)分。
圖 8:預(yù)訓(xùn)練包含適量有害數(shù)據(jù) vs 極少有害數(shù)據(jù):前者更易區(qū)分有害表征向量。
進一步,研究團隊按照 0-25% 不同有害數(shù)據(jù)比例預(yù)訓(xùn)練 Olmo-1B 模型,并在 inference 階段識別并偏轉(zhuǎn)有害表征,從而抑制有害內(nèi)容輸出。實驗結(jié)果顯示適量(10%)有害數(shù)據(jù)預(yù)訓(xùn)練的模型在應(yīng)用抑制方法后的有害性最低,甚至低于不包含有害數(shù)據(jù)的預(yù)訓(xùn)練模型。
水至清則無魚,適量的污染數(shù)據(jù)有助于模型的安全對齊。在促進安全對齊和預(yù)防過度污染間保持平衡,是未來的污染數(shù)據(jù)研究值得探索的方向。
總結(jié)
最新 ChatGPT 系列模型的《新華詞典》里有 46.6% 都是「污言穢語」,并且輸入這些「污言穢語」會讓模型胡言亂語?;谶@一現(xiàn)象,研究團隊系統(tǒng)性給出了此類中文污染詞的定義和分類,構(gòu)建了中文污染詞自動識別模型,并基于詞表污染估計訓(xùn)練語料污染。綜上所述,該研究期待為 LLM 海量訓(xùn)練語料的治理提供輕量化的方案。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.