華為盤古大模型涉嫌套殼阿里云Qwen大模型的風(fēng)波,再次將模型“原研”與“套殼”的討論擺上了臺(tái)面。
回溯三年前,在ChatGPT剛剛開啟大模型航海時(shí)代時(shí),那時(shí)候的套殼還停留在小作坊山寨ChatGPT的階段。調(diào)用ChatGPT的API,接口再包上一層“中文UI”,就能在微信群里按調(diào)用次數(shù)賣會(huì)員。那一年,套殼成了很多人通往AI財(cái)富故事的第一張船票。
同時(shí),開始自主研發(fā)大模型的公司里,也不乏對(duì)ChatGPT的借力。這些企業(yè)雖然有著自研的模型架構(gòu),但在微調(diào)階段或多或少利用了ChatGPT或GPT-4等對(duì)話模型生成的數(shù)據(jù)來做微調(diào)。這些合成語料,既保證了數(shù)據(jù)的多樣性,又是經(jīng)過OpenAI對(duì)齊后的高質(zhì)量數(shù)據(jù)。借力ChatGPT可以說是行業(yè)內(nèi)公開的秘密。
從2023年開始,大模型賽道進(jìn)入開源時(shí)代,借助開源框架進(jìn)行模型訓(xùn)練,成為了很多創(chuàng)業(yè)團(tuán)隊(duì)的選擇。越來越多的團(tuán)隊(duì)公開自己的研究成果,推動(dòng)技術(shù)的交流與迭代,也讓套殼開發(fā)成為了更普遍的行為。隨意之而的,爭議性的套殼事件也逐漸增多,各種涉嫌套殼的事件屢次沖上熱搜,隨后又被相關(guān)方解釋澄清。
國內(nèi)大模型行業(yè)也在“套”與“被套”中,輪番向前發(fā)展著。
01
GPT火爆的那一年:山寨API和造數(shù)據(jù)
回顧AI的進(jìn)化史,今天我們看到各類大模型都源自同一個(gè)鼻祖——2017年Google Brain團(tuán)隊(duì)發(fā)布的Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)。Transformer的原始架構(gòu)和核心包括編碼器(Encoder)與解碼器(Decoder),其中,編碼器負(fù)責(zé)理解輸入文本,解碼器負(fù)責(zé)生成輸出文本。
如今,在大型語言模型領(lǐng)域依然采用三大主流Transformer架構(gòu):Decoderonly(如GPT系列)、EncoderDecoder(如T5)和Encoderonly(如BERT)。不過,最受關(guān)注和應(yīng)用最廣泛的,是以Decoderonly為核心的GPT式架構(gòu),并不斷衍生出各種變體。
2022年11月,基于GPT3.5,OpenAI推出ChatGPT,發(fā)布后短時(shí)間內(nèi)獲取數(shù)千萬用戶,讓LLM正式登上公眾舞臺(tái),也將GPT架構(gòu)推為主流AI架構(gòu)。隨著ChatGPT打響大模型時(shí)代第一槍,各大廠商紛紛涌入大模型研發(fā)賽道。由于ChatGPT無法直接接入國內(nèi)用戶,一些小作坊也看到了套殼的牟利前景。
2022年底開始,許多山寨ChatGPT在互聯(lián)網(wǎng)上涌現(xiàn),此時(shí)的套殼基本不涉及任何二次開發(fā),很多開發(fā)者直接包裝一下API就拿出來賣錢。
2022年底至2023年,國內(nèi)涌現(xiàn)數(shù)百個(gè)ChatGPT鏡像站,包括名噪一時(shí)的“ChatGPT在線”公眾號(hào),運(yùn)營者拿到OpenAI API,再在前端加價(jià)售賣。這種低劣的套殼手段很快就被監(jiān)管部門發(fā)現(xiàn),“ChatGPT在線”背后的上海熵云網(wǎng)絡(luò)科技有限公司,就因涉嫌仿冒ChatGPT被罰6萬元,成為首例“ChatGPT套殼”行政處罰。
另一方面,在同期發(fā)布的其他模型中,時(shí)常出現(xiàn)一些“GPT味”的回復(fù),這些模型背后的企業(yè)也遭受了套殼質(zhì)疑。
2023年5月,曾有網(wǎng)友發(fā)現(xiàn),訊飛星火大模型在有些問答中會(huì)出現(xiàn)“我是由OpenAI開發(fā)的”等內(nèi)容,由此一則關(guān)于“訊飛星火大模型被質(zhì)疑‘套殼ChatGPT’”的消息傳播開來。
這種情況并非個(gè)例,甚至2024年發(fā)布的DeepSeek V3也曾暴雷,有用戶反映其在測試中出現(xiàn)異常,模型自稱是OpenAI的ChatGPT。相關(guān)企業(yè)對(duì)這類情況的解釋為,這可能是由于訓(xùn)練數(shù)據(jù)中混入了大量ChatGPT生成的內(nèi)容,導(dǎo)致模型“身份混淆”。
互聯(lián)網(wǎng)公開信息中AI內(nèi)容日漸增多造成的數(shù)據(jù)污染,確實(shí)是可能造成這些“GPT味”對(duì)話的原因。但另一種可能是,模型研發(fā)團(tuán)隊(duì)在微調(diào)訓(xùn)練過程中,主動(dòng)使用了通過ChatGPT等OpenAI旗下模型構(gòu)造的數(shù)據(jù)集,也就是所謂的“數(shù)據(jù)蒸餾”。
數(shù)據(jù)蒸餾是大模型訓(xùn)練中一種高效低成本的知識(shí)遷移方式,這里的邏輯就像是用一個(gè)強(qiáng)大的“老師模型”(如GPT-4)生成大量高質(zhì)量問答數(shù)據(jù),而后將這些數(shù)據(jù)喂給一個(gè)“學(xué)生模型”去學(xué)習(xí)。
事實(shí)上,在GPT -3之后,OpenAI就徹底轉(zhuǎn)向了閉源,所以對(duì)于想要自研大模型的競爭對(duì)手而言,并無法在基礎(chǔ)架構(gòu)層面套殼OpenAI的產(chǎn)品。這些企業(yè)或多或少也在模型技術(shù)上有一定積累,在架構(gòu)層面紛紛推出自家的研究成果,但如果想要保證訓(xùn)練質(zhì)量,從更強(qiáng)的模型產(chǎn)品那里以借力的方式獲取數(shù)據(jù)無疑是一種捷徑。
雖然借力ChatGPT/GPT-4生成訓(xùn)練數(shù)據(jù)是業(yè)內(nèi)公開的秘密,但一直以來鮮有被披露的案例,直到那起著名的“字節(jié)抄作業(yè)”事件。2023年12月,外媒The Verge報(bào)道稱,字節(jié)跳動(dòng)利用微軟的OpenAI API賬戶生成數(shù)據(jù)來訓(xùn)練自己的人工智能模型,這種行為實(shí)際上已經(jīng)違反了微軟和OpenAI的使用條款。在此消息被披露不久,據(jù)傳OpenAI暫停了字節(jié)跳動(dòng)的賬戶。
字節(jié)跳動(dòng)方面隨后表示,這一事件是技術(shù)團(tuán)隊(duì)在進(jìn)行早期模型探索時(shí),有部分工程師將GPT的API服務(wù)應(yīng)用于實(shí)驗(yàn)性項(xiàng)目研究中。該模型僅為測試,沒有計(jì)劃上線,也從未對(duì)外使用。按照字節(jié)跳動(dòng)的說法,其對(duì)于OpenAI模型的使用是在使用條例發(fā)布之前。
對(duì)此,來自國內(nèi)某頭部AI企業(yè)算法部門的葉知秋向直面AI(ID:faceaibangg)表示,業(yè)內(nèi)的普遍認(rèn)知是,數(shù)據(jù)蒸餾不應(yīng)該被認(rèn)為是套殼?!皵?shù)據(jù)蒸餾只是一個(gè)手段,通過一個(gè)能力足夠強(qiáng)的模型產(chǎn)出數(shù)據(jù),對(duì)于垂直領(lǐng)域(的另一個(gè)模型)去做加訓(xùn)。”
加訓(xùn)(Continual Training)是一種常見的提升模型性能的方法。通過在新數(shù)據(jù)上繼續(xù)訓(xùn)練模型,可以使其更好地適應(yīng)新的任務(wù)和領(lǐng)域。“如果利用數(shù)據(jù)蒸餾做加訓(xùn)算套殼,那這個(gè)技術(shù)就不該被允許。”葉知秋解釋道。
2025年的今天,大模型開發(fā)市場日漸成熟,直接調(diào)用API“山寨套殼”的模型產(chǎn)品已逐漸消失。在應(yīng)用層面,隨著AI Agent領(lǐng)域的快速迭代,調(diào)用API落地的AI工具已經(jīng)成為常態(tài),如Manus這類通用AI Agent逐步進(jìn)入市場,AI應(yīng)用層面的套殼已經(jīng)成為了一種常見的技術(shù)手段。
而在大模型開發(fā)領(lǐng)域,隨著開源時(shí)代的到來,模型開發(fā)領(lǐng)域的套殼,又陷入了新一輪的爭論。
02
開源大模型時(shí)代:你用我用大家用
進(jìn)入2023年,許多廠商選擇開源方式公布模型方案,用以刺激開發(fā)者群體對(duì)模型/模型應(yīng)用的迭代。隨著Meta在2023年7月開源LLaMA 2,標(biāo)志著AI行業(yè)也進(jìn)入開源時(shí)代。在這之后,先后有十余款國產(chǎn)模型通過微調(diào)LLaMA 2完成上線。同時(shí),利用開源模型架構(gòu)進(jìn)行二次開發(fā),也成為了新的套殼爭議點(diǎn)。
2023年7月,百川智能CEO王小川回應(yīng)了外界對(duì)旗下開源模型Baichuan-7B套殼LLaMA的質(zhì)疑。他提到,LLaMA 2技術(shù)報(bào)告里大概有9個(gè)技術(shù)創(chuàng)新點(diǎn),其中有6個(gè)在百川智能正在研發(fā)的模型里已經(jīng)做到。“在跟LLaMA 2對(duì)比的時(shí)候,我們?cè)诩夹g(shù)的思考里不是簡單的抄襲借鑒,我們是有自己的思考的。”
就在幾個(gè)月后,國內(nèi)AI圈迎來了另一場更洶涌的套殼風(fēng)波。2023年11月,原阿里技術(shù)副總裁、深度學(xué)習(xí)框架Caffe發(fā)明者賈揚(yáng)清在朋友圈中稱,某家套殼模型的做法是“把代碼里面的名字從LLaMA改成了他們的名字,然后換了幾個(gè)變量名?!笔潞笞C實(shí),該信息直指零一萬物旗下的Yi-34B模型,開源時(shí)代的套殼爭議被搬到臺(tái)面上。
一時(shí)間,關(guān)于零一萬物是否違反了LLaMA的開源協(xié)議,在各大技術(shù)社區(qū)引發(fā)了激烈的爭論。隨后,Hugging Face工程師Arthur Zucker下場對(duì)這一事件發(fā)表了看法。他認(rèn)為,LLaMA的開源協(xié)議主要限制了模型權(quán)重,而不是模型架構(gòu),所以零一萬物的Yi-34B并未違反開源協(xié)議。
事實(shí)上,利用開源模型架構(gòu)只是打造新模型的第一步,零一萬物在對(duì)Yi-34B訓(xùn)練過程的說明中也作出了解釋:模型訓(xùn)練過程好比做菜,架構(gòu)只是決定了做菜的原材料和大致步驟……其投注了大部分精力在訓(xùn)練方法、數(shù)據(jù)配比、數(shù)據(jù)工程、細(xì)節(jié)參數(shù)、baby sitting(訓(xùn)練過程監(jiān)測)技巧等方面的調(diào)整。
對(duì)于AI行業(yè)而言,推動(dòng)技術(shù)開源化的意義之一是停止“重復(fù)造輪子”。從零研發(fā)一款全新的模型架構(gòu),并跑通預(yù)訓(xùn)練流程需要耗費(fèi)大量成本,頭部企業(yè)開源可以減少資源浪費(fèi),新入局的團(tuán)隊(duì)通過套殼得以快速投入到模型技術(shù)迭代和應(yīng)用場景中。百度CEO李彥宏就曾表示:“重新做一個(gè)ChatGPT沒有多大意義?;谡Z言大模型開發(fā)應(yīng)用機(jī)會(huì)很大,但沒有必要再重新發(fā)明一遍輪子?!?/p>
2023–2024年,AI行業(yè)掀起一場“百模大戰(zhàn)”,其中的國產(chǎn)大模型大約10%的模型是基座模型,90%的模型是在開源模型基礎(chǔ)上加入特定數(shù)據(jù)集做微調(diào)的行業(yè)模型、垂直模型。套殼幫助大量中小團(tuán)隊(duì)站在巨人的肩膀上,專注于特定領(lǐng)域的工程化和應(yīng)用探索。
如今,在Hugging Face上按“熱度”排序檢索,以文本模型為例,DeepSeek R1/V3、LLaMA3.2/3.3、Qwen2.5以及來自法國的Mistral系列模型均位居前列,這些開源模型的下載量在幾十萬到上百萬不等。這表明開源極大地促進(jìn)了行業(yè)的進(jìn)化。目前,Hugging Face平臺(tái)上共有超過150萬個(gè)模型,其中絕大多數(shù)是用戶基于開源架構(gòu)的衍生產(chǎn)物——sft微調(diào)版本、LoRA微調(diào)版本等。
另一方面,隨著LoRA與QLoRA等輕量化微調(diào)方案面世,定向微調(diào)模型的成本也在不斷下降,為中小型團(tuán)隊(duì)進(jìn)行模型開發(fā)提供了有利基礎(chǔ)。麥肯錫在今年5月的一份調(diào)查顯示,92%的企業(yè)借助對(duì)開源大模型的微調(diào)提高了24%–37%的業(yè)務(wù)效率。
2023年以來,模型開發(fā)門檻因開源不斷降低,在迎來百模齊放的良好生態(tài)之余,也浮現(xiàn)出一些渾水摸魚的惡劣套殼行為。
2024年5月,斯坦福大學(xué)的一個(gè)研究團(tuán)隊(duì)發(fā)布了一個(gè)名為LLaMA3V的模型,號(hào)稱只要500美元(約人民幣3650元)就能訓(xùn)練出一個(gè)SOTA多模態(tài)模型,效果比肩GPT-4V。
但隨后有網(wǎng)友發(fā)現(xiàn),LLaMA3V與中國企業(yè)面壁智能在當(dāng)月發(fā)布的8B多模態(tài)開源小模型MiniCPM-LLaMA3-V 2.59(面壁小鋼炮)高度重合。在實(shí)錘套殼抄襲后,該團(tuán)隊(duì)隨后刪庫跑路。該事件一方面反映出,國產(chǎn)模型憑借其優(yōu)異性能也成為了被套殼的對(duì)象;同時(shí),也再一次引發(fā)了業(yè)界對(duì)開源時(shí)代套殼合規(guī)邊界的思考。
對(duì)于AI行業(yè)而言,廠商通過開源以協(xié)作的方式可以對(duì)模型進(jìn)行完善與優(yōu)化,加速推動(dòng)問題解決與技術(shù)創(chuàng)新。由于協(xié)作的工作模式和開放的源代碼,開源大模型的代碼具有更高的透明度,并且在社區(qū)的監(jiān)督下,公開透明的代碼能更容易進(jìn)行勘誤。
“透明度”是促進(jìn)開源社區(qū)交流進(jìn)步的關(guān)鍵,而這需要二次開發(fā)的團(tuán)隊(duì)和所有從業(yè)者共同維系。在LLaMA3V的案例中,斯坦福方面的研究團(tuán)隊(duì)只是對(duì)MiniCPM-LLaMA3-V 2.59進(jìn)行了一些重新格式化,并把圖像切片、分詞器、重采樣器等變量重命名。
原封不動(dòng)地拿過來,并且作為自己的學(xué)術(shù)成果發(fā)布,相比起套殼,這更像是徹頭徹尾的抄襲。
所以,套殼的道德邊界,究竟是什么呢?
03
“套殼”和“自研”的矛盾體
“如果一個(gè)團(tuán)隊(duì)沒有以原生模型的名義發(fā)表,就不能叫套殼,應(yīng)該叫模型的再應(yīng)用?!闭劶疤讱さ亩x,葉知秋這樣說道。在加入大廠項(xiàng)目之前,葉知秋曾參與過一些創(chuàng)業(yè)公司的開源項(xiàng)目。他判斷,業(yè)內(nèi)有實(shí)力造基礎(chǔ)模型的企業(yè)只會(huì)越來越少,加速利用開源技術(shù)是行業(yè)發(fā)展的必然,“畢竟核心技術(shù)上,只有那幾家公司有。”
葉知秋口中的“核心技術(shù)”,指的是從零研發(fā)模型基礎(chǔ)架構(gòu),并落實(shí)預(yù)訓(xùn)練流程的能力。相關(guān)報(bào)道顯示,國內(nèi)目前有完整自研預(yù)訓(xùn)練框架的大模型公司數(shù)量較少,僅有 5家左右。能“造輪”的企業(yè)屈指可數(shù),對(duì)此葉知秋的解釋是:“一些企業(yè)也有實(shí)力投入基礎(chǔ)模型研究,但他們要考慮做這件事的收益。”
“演化和加訓(xùn),嚴(yán)格來說和套殼是兩碼事?!比~知秋表示,像LLaMA這樣開源架構(gòu)已經(jīng)為業(yè)內(nèi)熟知且熟用,很多成果都是在這一架構(gòu)的基礎(chǔ)上演化而來的。但同時(shí)他也強(qiáng)調(diào),套殼合規(guī)與否在于冠名問題,利用開源技術(shù)就需要在技術(shù)文檔中做出明確說明,“如果你是在一個(gè)已經(jīng)開源的模型上進(jìn)行加訓(xùn),那就要在冠名和文檔中體現(xiàn)這一點(diǎn)?!?/strong>
對(duì)于如何理解大模型非法套殼,知識(shí)產(chǎn)權(quán)法領(lǐng)域的法律界人士秦朝向直面AI分享了他的看法。他表示,一些惡劣的“套殼”行為雖然在社會(huì)輿論上引發(fā)很多反響,在法律視角上卻是另一回事。如何區(qū)分套殼和抄襲的界限、如何證明因?yàn)樘讱ば袨閷?dǎo)致了不當(dāng)獲利、如何證明具體的獲利額度,這些問題都存在著一定的舉證難度。“目前來說,這一類事情還處于一個(gè)灰色地帶。”
秦朝進(jìn)一步解釋,所謂“借鑒”就是很難區(qū)分性質(zhì)的套殼,一些開發(fā)者可能“借鑒”了不止一家企業(yè),然后宣稱是自研產(chǎn)品。除非是簡單粗暴的純套殼,不然很難去界定這一行為的惡劣程度。“而且大模型賽道發(fā)展速度極快,走法律流程下來可能要兩三年,到那時(shí)技術(shù)都更新?lián)Q代了?!?/p>
在技術(shù)圈語境下,自研是套殼的反義詞。在葉知秋看來,如果一個(gè)模型團(tuán)隊(duì)宣稱自己是全程端到端自研,勢必會(huì)吸引業(yè)內(nèi)同行審視的目光,未公開的套殼行為很難真正被掩蓋。“一個(gè)開源的模型,其實(shí)一切信息都有跡可循,就是看業(yè)內(nèi)人去不去挖掘而已?!?/strong>
葉知秋進(jìn)一步解釋道,模型原研廠商都會(huì)在大模型組件中留下一些“標(biāo)簽”,當(dāng)研發(fā)團(tuán)隊(duì)在發(fā)布論文時(shí),這些“標(biāo)簽”就會(huì)被用以證明其采用了創(chuàng)新技術(shù)。因?yàn)橐坏﹫F(tuán)隊(duì)宣稱這款模型是自研,那就需要說明,這款新的模型基于傳統(tǒng)模型有什么不一樣的地方?!叭绻麤]有,那大家必然會(huì)問,你的模型的架構(gòu)是從哪來的?”
對(duì)于一些企業(yè)而言,套殼和自研的取舍,也往往伴隨著成果產(chǎn)出的壓力。另一位資深算法從業(yè)者向直面AI表示,借鑒架構(gòu)/方案在業(yè)內(nèi)并不稀奇,因?yàn)楹芏鄨F(tuán)隊(duì)需要盡快解決0到1的問題?!霸诒A艏夹g(shù)底線基礎(chǔ)上,能有成果產(chǎn)出是最重要的?!?/p>
針對(duì)這一現(xiàn)象,葉知秋表示,一些頭部企業(yè)雖然在其他領(lǐng)域?qū)嵙π酆瘢谀P皖I(lǐng)域,可能在底層的訓(xùn)練邏輯上缺少經(jīng)驗(yàn)和積累。對(duì)這些企業(yè)而言,充分利用開源技術(shù)套殼,可以更快完成從數(shù)據(jù)層面到模型層面的積淀。“像一些企業(yè)在某一領(lǐng)域的‘垂類’大模型,其實(shí)都有‘套殼’的成分在?!?/p>
“通過‘套殼’去做自己的開發(fā),還是非常低成本高價(jià)值的?!弊鳛閺臉I(yè)者,葉知秋十分肯定開源為行業(yè)帶來的積極影響。他認(rèn)為,長期來看,單一企業(yè)很難在模型能力上建立壁壘,開源有助于整個(gè)行業(yè)的進(jìn)步,實(shí)現(xiàn)更高的效率、更低的成本,去打造更多的模型能力。
關(guān)于開源時(shí)代的套殼爭議,葉知秋表示,這些爭議本質(zhì)上還是跟企業(yè)的宣傳口徑有關(guān),“用開源技術(shù)不丟人,前提是企業(yè)不要宣傳是自研?!?/strong>
(文中葉知秋、秦朝為化名)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.