清華團隊揭示ChatGPT中文語料中的污言穢語治理新技術(shù)

2025-08-26 15:44:49　來源: 機器之心Pro

河北舉報

分享至

本文第一作者是清華大學(xué)博士生張清杰，研究方向是大語言模型異常行為和可解釋性；本文通訊作者是清華大學(xué)邱寒副教授；其他作者來自清華大學(xué)、南洋理工大學(xué)和螞蟻集團。

如果我們的教科書里包含大量的污言穢語，那么我們能學(xué)好語言嗎？這種荒唐的問題卻出現(xiàn)在最先進 ChatGPT 系列模型的學(xué)習(xí)過程中。

來自清華大學(xué)、南洋理工大學(xué)和螞蟻集團的研究人員發(fā)現(xiàn)，GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文詞表污染高達 46.6%，甚至同時包含「波*野結(jié)衣」、「*野結(jié)衣」、「*野結(jié)」、「*野」、「大發(fā)時時彩」、「大發(fā)快三」、「大發(fā)」等色情、賭博相關(guān)詞元（如下圖所示）。

研究團隊對 OpenAI 近期發(fā)布的 GPT-5 和 GPT-oss 的詞表也進行了分析，它們詞表的中文 token 沒有變化。

圖 1：GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文詞表污染高達 46.6%，主要涉及色情、賭博。

研究團隊認為，這種現(xiàn)象是由于來自互聯(lián)網(wǎng)數(shù)據(jù)的大模型預(yù)訓(xùn)練語料庫不可避免地包含污染內(nèi)容，導(dǎo)致在此之上構(gòu)建的大語言模型（LLM）詞表包含污染詞。那么，這些污染詞會如何影響 LLM 的性能？與污染數(shù)據(jù)的關(guān)系如何呢？

為了系統(tǒng)性研究 LLM 的中文詞表和數(shù)據(jù)污染問題，研究團隊首先定義和分類了中文污染詞（Polluted Chinese tokens, PoC tokens），分析了它們對 LLM 性能的影響；其次，為了高效識別不同 LLM 詞表里的 PoC tokens，研究團隊設(shè)計了一個中文污染詞檢測模型；最后，通過中文詞表污染有效估計數(shù)據(jù)污染，為污染數(shù)據(jù)治理提供輕量化解決方案。

論文標題：Speculating LLMs’ Chinese Training Data Pollution from Their Tokens
錄用會議：EMNLP 2025 Main
項目網(wǎng)站：https://pollutedtokens.site/

值得注意的是，本項研究工作于 2025 年 5 月 29 日在清華大學(xué)基礎(chǔ)模型學(xué)術(shù)年會上由邱寒老師首次分享，并提出針對 10T 級的大語言模型訓(xùn)練語料庫的污染數(shù)據(jù)治理技術(shù)。

央視于 2025 年 8 月 17 日的新聞中也指出，AI 數(shù)據(jù)被污染存在風(fēng)險。

中文污染詞的定義、分類和危害

該研究首先組建了包含 6 名跨學(xué)科領(lǐng)域?qū)＜业臉俗F隊（擁有哲學(xué)、社會學(xué)、中文語言學(xué)、計算機科學(xué)博士學(xué)位），對先進 ChatGPT 模型的中文詞表進行污染詞標注，總結(jié)出中文污染詞的定義和分類，為后續(xù)研究打下基礎(chǔ)。

定義：中文污染詞（Polluted Chinese tokens, PoC tokens）是存在于 LLM 詞表中，從主流中文語言學(xué)的角度編譯了不合法、不常見、不常用內(nèi)容的中文詞（多于 2 個字）。

分類：中文污染詞主要包括如下 5 個類別：

成人內(nèi)容，例如「波*野結(jié)衣」。
在線賭博，例如「大發(fā)彩票網(wǎng)」。
在線游戲，例如「傳奇私服」。
在線視頻，例如「在線觀看」。
奇怪內(nèi)容，例如「給主人留下些什么吧」。

參照這種定義和分類，專家標注團隊對先進 ChatGPT 模型的中文長詞（共計 1659 個）進行標注，發(fā)現(xiàn)污染詞有 773 個（46.6%），其中成人內(nèi)容的污染詞最多，足足有 219 個（13.2%）。

進一步，研究團隊分析了中文污染詞的危害，發(fā)現(xiàn)即使是最先進的 ChatGPT 模型（GPT-4o/o1/o3/4.5/4.1/o4-mini）在輸入中文污染詞后也會胡言亂語。如下圖所示，ChatGPT 不能理解甚至不能重復(fù)中文污染詞，輸入一個中文污染詞甚至?xí)敵隽硪粋€中文污染詞。

如下表所示，與輸入正常中文詞相比，輸入中文污染詞會顯著降低 ChatGPT 的回答質(zhì)量，在解釋和重復(fù)任務(wù)上有約 50% 的性能損失。

表 1：輸入中文污染詞會造成 ChatGPT 在解釋和重復(fù)任務(wù)上約 50% 的性能損失。

為了初步解釋這一現(xiàn)象，研究團隊分析了開源預(yù)訓(xùn)練語料庫（例如 mC4）中的中文網(wǎng)頁，發(fā)現(xiàn)多種中文污染詞聚集于一些網(wǎng)頁的頭部和尾部（如下圖所示）。這些低質(zhì)量語料使得 LLM 錯誤理解了不同中文污染詞之間的相關(guān)性，且沒有在后訓(xùn)練階段被矯正回來，導(dǎo)致模型在推理時無法理解也無法重復(fù)中文污染詞。

圖 3：開源預(yù)訓(xùn)練語料庫 mC4 的中文網(wǎng)頁：中文污染詞聚集于一些網(wǎng)頁的頭部和尾部。

污染檢測：自動化識別中文污染詞

為了將中文污染詞的識別和分類擴展到更多的 LLM，研究團隊微調(diào)中文能力強且污染較少的 GLM-4-32B，構(gòu)建自動化中文污染詞識別模型。

由于中文污染詞通常是晦澀難懂的（例如「青青草」看似正常，但 Google 搜索結(jié)果與互聯(lián)網(wǎng)色情平臺有關(guān)），即使是中文語言學(xué)專家也無法判斷中文詞是否污染、屬于哪一種污染類別。

因此，研究團隊為識別模型設(shè)計網(wǎng)絡(luò)檢索機制，對每一個待檢測中文詞返回 10 條 Google 檢索信息，作為判斷是否為污染詞的背景信息。并且，微調(diào)以專家標注結(jié)果作為真值標簽，最終使模型達到 97.3% 的識別正確率。

如下圖所示，研究團隊用識別模型對 23 個主流 LLM 的 9 個詞表進行了中文污染詞檢測。不只有先進的 ChatGPT 系列模型，中文污染詞在其他 LLM 詞表中也存在。其中成人內(nèi)容、在線賭博、奇怪內(nèi)容占了大多數(shù)。

然而，上一代 ChatGPT 模型（GPT-4/4-turbo/3.5）包含很少量的表征多個中文字的 token，其中卻不包括中文污染詞。

圖 4：Qwen2/2.5/3 和 GLM4 的部分中文污染詞。

污染追蹤：由詞表污染估計數(shù)據(jù)污染

由于詞表污染是訓(xùn)練數(shù)據(jù)污染的反映，研究團隊進一步設(shè)計污染追蹤方案，通過 LLM 的詞表反向估計訓(xùn)練數(shù)據(jù)的污染情況，為海量數(shù)據(jù)治理提供輕量化方案。

LLM 的詞表構(gòu)建大多基于 BPE 算法。簡單來說，BPE 算法對語料庫里的詞頻進行統(tǒng)計，并將出現(xiàn)頻率越大的詞放在詞表越靠前的位置，即詞 ID 越小。由詞表污染估計數(shù)據(jù)污染即為對 BPE 算法做逆向，然而，逆向 BPE 的結(jié)果不唯一，因為一個詞 ID 并不對應(yīng)于一個確定的詞頻，只能給出詞頻范圍的估計。

因此，研究團隊結(jié)合經(jīng)典語言學(xué)的 Zipf 分布和上下確界理論，在開源語料庫上用分位數(shù)回歸擬合出詞 ID-詞頻的經(jīng)驗估計。

如下圖所示，該經(jīng)驗估計有效擬合了詞 ID-詞頻分布的上下界，并且落于理論上下確界之間，因此是一種有效的污染追蹤方案。

圖 5：詞 ID-詞頻的經(jīng)驗估計有效擬合了分布的上下界，并且落于理論上下確界之間。

基于這種經(jīng)驗估計，研究團隊估計了開源語料庫 mC4 的數(shù)據(jù)污染，并與真值做比較。如下圖所示，該估計方案對整體數(shù)據(jù)污染的估計是比較接近的，而對于具體污染類別的估計存在優(yōu)化空間，這是因為具體污染類別的組分更少，其分布特征在海量語料庫的統(tǒng)計中被削弱了。

圖 6：開源語料庫 mC4 的數(shù)據(jù)污染估計及與真值的比較。

進一步，研究團隊估計了 GPT-4o 詞表里出現(xiàn)的中文污染詞「波*野結(jié)衣」在訓(xùn)練語料里的污染情況。結(jié)果顯示，「波*野結(jié)衣」相關(guān)頁面在 GPT-4o 中文訓(xùn)練語料的占比高達 0.5%，甚至是中文常用詞「您好」的 2.6 倍。

由于 GPT-4o 的中文訓(xùn)練語料沒有開源，為了驗證這種估計，研究團隊在無污染的開源數(shù)據(jù)集上按照 0.5% 的比例混合「波*野結(jié)衣」相關(guān)頁面，并用 BPE 算法構(gòu)建詞表以模擬 GPT-4o 構(gòu)建詞表的過程。如下圖所示，該比例幾乎準確復(fù)現(xiàn)了 4 個相關(guān)詞「*野」、「*野結(jié)」、「*野結(jié)衣」、「波*野結(jié)衣」在 GPT-4o 詞表里的詞 ID。

圖 7：按照 0.5% 的比例混合「波*野結(jié)衣」相關(guān)頁面可以在開源語料庫上復(fù)現(xiàn)出 4 個相關(guān)詞「*野」、「*野結(jié)」、「*野結(jié)衣」、「波*野結(jié)衣」在 GPT-4o 詞表里的詞 ID。

未來展望：污染數(shù)據(jù)是否百弊而無一利？

盡管污染語料會導(dǎo)致大語言模型的詞表里混入「污言穢語」，那么污染數(shù)據(jù)是否百弊而無一利呢？哈佛大學(xué)于 ICML 2025 發(fā)表的文章《When Bad Data Leads to Good Models》指出，預(yù)訓(xùn)練中適量的污染數(shù)據(jù)可作為對齊模型的催化劑。

該研究基于如下圖所示的理論假設(shè)：當(dāng)預(yù)訓(xùn)練中有害數(shù)據(jù)過少時，有害表征會與其他表征混雜在一起，不易區(qū)分；反之，當(dāng)有害數(shù)據(jù)適量時，有害表征更容易被區(qū)分。

圖 8：預(yù)訓(xùn)練包含適量有害數(shù)據(jù) vs 極少有害數(shù)據(jù)：前者更易區(qū)分有害表征向量。

進一步，研究團隊按照 0-25% 不同有害數(shù)據(jù)比例預(yù)訓(xùn)練 Olmo-1B 模型，并在 inference 階段識別并偏轉(zhuǎn)有害表征，從而抑制有害內(nèi)容輸出。實驗結(jié)果顯示適量（10%）有害數(shù)據(jù)預(yù)訓(xùn)練的模型在應(yīng)用抑制方法后的有害性最低，甚至低于不包含有害數(shù)據(jù)的預(yù)訓(xùn)練模型。

水至清則無魚，適量的污染數(shù)據(jù)有助于模型的安全對齊。在促進安全對齊和預(yù)防過度污染間保持平衡，是未來的污染數(shù)據(jù)研究值得探索的方向。

總結(jié)

最新 ChatGPT 系列模型的《新華詞典》里有 46.6% 都是「污言穢語」，并且輸入這些「污言穢語」會讓模型胡言亂語?；谶@一現(xiàn)象，研究團隊系統(tǒng)性給出了此類中文污染詞的定義和分類，構(gòu)建了中文污染詞自動識別模型，并基于詞表污染估計訓(xùn)練語料污染。綜上所述，該研究期待為 LLM 海量訓(xùn)練語料的治理提供輕量化的方案。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.