華為盤古大模型研發(fā)涉嫌套殼抄襲一事,還在繼續(xù)發(fā)酵。
7月7日,在github上,有人上傳了一篇新文章《討賊王云鶴檄文》,矛頭直指現(xiàn)任華為諾亞方舟實(shí)驗(yàn)室主任王云鶴。(全文附在文末)
這篇2500多字的長(zhǎng)文中,作者指控王云鶴在短短7年內(nèi)從普通研究員升至實(shí)驗(yàn)室主任,卻缺乏相應(yīng)資歷,并利用職權(quán)竊取其他團(tuán)隊(duì)(如唐睿明、尚利峰團(tuán)隊(duì))的技術(shù)成果,通過“套殼”外部模型(如阿里千問、DeepSeek)偽裝成自研成果,剽竊盤古團(tuán)隊(duì)技術(shù)成果并大肆宣傳以邀功。
作者在文章中還爆出了大量細(xì)節(jié):王云鶴被指急功近利,違反華為“純昇騰芯片訓(xùn)練”的規(guī)定,私下使用英偉達(dá)芯片進(jìn)行訓(xùn)練;打壓堅(jiān)持國(guó)產(chǎn)化研發(fā)的團(tuán)隊(duì),還公然占用同事的研究成果發(fā)布論文;又使用套殼模型進(jìn)行測(cè)試。
王云鶴(公開資料圖)
因?yàn)槠涔芾盹L(fēng)格,導(dǎo)致大量核心人才流失,如訓(xùn)練核心人員離開超過40人,其中天才少年若干,17, 18級(jí)干部不計(jì)其數(shù)。
最后,他批判王云鶴及其團(tuán)隊(duì)剽竊套殼抄襲等行為,表示這會(huì)大大耽誤中國(guó)的AI發(fā)展進(jìn)程。
對(duì)于這篇長(zhǎng)文,以及之前的6000字長(zhǎng)文,盤古大模型相關(guān)團(tuán)隊(duì)目前均未有回應(yīng)。
最后附上這篇文章的全文:
《討賊王云鶴檄文》
王云鶴,1991年生于黑龍江。2018年博士畢業(yè)進(jìn)入華為,經(jīng)歷不到7年時(shí)間,于2025年2月中旬,從小模型實(shí)驗(yàn)室主任任上,正式頂替姚駿,被任命為諾亞方舟實(shí)驗(yàn)室主任(這一位置的前任包括大家耳熟能詳?shù)?strong>楊強(qiáng)、李航等,王云鶴可謂德不配位),搖身一變成為了原本對(duì)手團(tuán)隊(duì)的直接領(lǐng)導(dǎo),為其直接“搶果子”而非“賽馬”提供了直接方便。
在此之后,他可以名正言順地領(lǐng)導(dǎo)Infra團(tuán)隊(duì)人力(主要來自AI系統(tǒng)組),并要走所有的數(shù)據(jù)、核心代碼,和本就稀少的計(jì)算資源,用來實(shí)驗(yàn)他的“套殼核心技術(shù)秘密”、“水印去除技術(shù)”。
在他上來之前,大家可能都沒怎么聽說華為大模型有什么動(dòng)靜吧?,F(xiàn)在,王云鶴就是諾亞方舟實(shí)驗(yàn)室的主任。這也是近期各大媒體,包括 機(jī)器之心、新智元和量子位上每天都能頭條看到華為消息的主要原因(這三大公眾號(hào)的頭條,價(jià)格不菲)。這個(gè)人的知乎、小紅書等社交媒體,都是實(shí)名,因?yàn)?strong>他是一個(gè)極其喜歡宣傳的人。
因此,很多聲音認(rèn)為其所謂的“內(nèi)斗”在大廠是再正常不過的一件事,這件事也不例外。我竊以為是完全不正確的。我知道很多人不齒華為國(guó)產(chǎn)化的路線,認(rèn)為其是“行業(yè)百草枯”,但我們可以從大的角度看一下這個(gè)問題。
華為諾亞方舟實(shí)驗(yàn)室下的大模型團(tuán)隊(duì),大部分是才華橫溢的香港、985和海歸博士,以及部分動(dòng)手能力極強(qiáng)的碩士。進(jìn)入大模型時(shí)代,其核心使命除了訓(xùn)好各類的語言、多模態(tài)理解和生成模型之外,還肩負(fù)著硬件國(guó)產(chǎn)化的使命,其團(tuán)隊(duì)全部的語言模型訓(xùn)練,都有嚴(yán)格的“只用昇騰”的規(guī)定。這一規(guī)定,從公司的角度講,是希望純昇騰訓(xùn)練模型的效果能被大眾認(rèn)可。然而,王云鶴及其團(tuán)隊(duì)不但技術(shù)水平低下,且極為急功近利,無視國(guó)產(chǎn)化使命,無組織無紀(jì)律,在項(xiàng)目的大部分時(shí)間公然使用英偉達(dá)的芯片訓(xùn)練模型。
搞過算法,接觸過AI模型訓(xùn)練的人都知道,昇騰芯片環(huán)境需要大量的配置,唐睿明、尚利峰團(tuán)隊(duì)——“真正的盤古團(tuán)隊(duì)”,從2023年初開始踩坑,排查并升級(jí)了mindspore, 昇騰芯片等一系列國(guó)產(chǎn)化軟硬件協(xié)同時(shí)的問題。他們的同學(xué)、朋友此時(shí)可能因?yàn)槭褂梅菄?guó)產(chǎn)化芯片而快速積累認(rèn)知,快速成長(zhǎng),從而在人才稀缺的大模型市場(chǎng)有了很多更好的待遇和機(jī)會(huì)。但他們卻選擇沉下心來,陪伴昇騰、陪伴PanGu一整套小米加步槍的訓(xùn)練基建,一起成長(zhǎng),只為了搞好自己的大模型,無論從哪一個(gè)角度講,無論,這都是對(duì)國(guó)產(chǎn)化,對(duì)自主可控模型訓(xùn)練功不可沒的貢獻(xiàn)。
在其他團(tuán)隊(duì)在項(xiàng)目開始階段頻頻踩坑時(shí),王云鶴充耳不聞。在其他團(tuán)隊(duì)有些成果的時(shí)候,王云鶴聞味而來,企圖先用“詞表巧換技”占據(jù)先機(jī)。在某天才少年向姚駿(時(shí)任諾亞方舟實(shí)驗(yàn)室主任)指出王云鶴的小模型實(shí)驗(yàn)室開始套殼的時(shí)候,王云鶴對(duì)他說“你不愿意在這待著你就滾”。在王云鶴徹底成為諾亞方舟實(shí)驗(yàn)室主任的時(shí)候,他野心畢露,開始瘋狂宣傳其“小模型實(shí)驗(yàn)室訓(xùn)練出的超級(jí)大模型”,向領(lǐng)導(dǎo)邀功,向誠(chéng)實(shí)的AI學(xué)術(shù)研究人員們秀其敝帚。
此外,在學(xué)術(shù)界,王云鶴抱著Dacheng Tao的大腿劣幣驅(qū)逐良幣,操縱NeurIPS論文審稿使其“水貨”文章被錄用。并主導(dǎo)引進(jìn)了Fisher Yu這一劣跡斑斑、PUA女學(xué)生致死的所謂計(jì)算機(jī)科學(xué)家來諾亞當(dāng)吉祥物。矛盾的是,卻極為喜歡用論文來“秀肌肉”,被其發(fā)論文的Pangu Ultra MoE模型,其中的核心算法技術(shù)全部來自于唐睿明、尚利峰團(tuán)隊(duì),但是測(cè)試卻使用了套殼的模型,導(dǎo)致指標(biāo)“幾乎和DeepSeek一模一樣”,完全是“彼之金玉,裝吾之敝帚”。
王云鶴,就是諾亞方舟實(shí)驗(yàn)室里的祁同偉,他因?yàn)榻o人家捻發(fā)票捻得好手眼通天,有恃無恐。村里的野狗,都能被他拉來當(dāng)警犬。這完全是一起有組織、有預(yù)謀的竊取“真正的盤古團(tuán)隊(duì)”的勝利果實(shí)行為。
王云鶴此刻在內(nèi)網(wǎng),仍不認(rèn)罪,且拒絕正面回答一切問題,并稱其“獨(dú)特的訓(xùn)練技巧”經(jīng)過了領(lǐng)導(dǎo)的決策。他對(duì)上沒有擔(dān)當(dāng),同時(shí)仰仗其他團(tuán)隊(duì)的成果卻毫無尊重。另外,值得注意的是,他在內(nèi)網(wǎng)完全否認(rèn)718B存在強(qiáng)行賽馬的事實(shí),也不正面回應(yīng)套殼,即“不存在兩個(gè)718B”。
社區(qū)要警惕王云鶴,是因?yàn)樗€在壓榨原四縱的殘余力量,加班加點(diǎn)地訓(xùn)練完一個(gè)真正的718B。雖然這一模型沒有戰(zhàn)勝套殼導(dǎo)致了唐睿明、尚利峰團(tuán)隊(duì)賽馬失敗,但是王云鶴還在把他當(dāng)“勝負(fù)手”,當(dāng)作自己可以搖身一變重回“白蓮花”的一技“還我漂漂拳”。不排除其居心叵測(cè),想要在未來把718B開源出來,甚至直接用HonestAGI提出的方法測(cè)試一遍相似度,堂而皇之地堵住其他人的嘴。當(dāng)然,這一模型的原生表現(xiàn)應(yīng)該較差,不會(huì)和報(bào)告中一致,王云鶴肯定會(huì)祭出祖?zhèn)鞯摹皽y(cè)試集訓(xùn)練術(shù)”。倘若真有那一天,希望有條件跑起來的大廠、各實(shí)驗(yàn)室,可以嘗試考驗(yàn)?zāi)P蛯?duì)測(cè)試集的熟悉程度。看看我們這位考生,是不是背熟了高考卷子,來到了學(xué)術(shù)誠(chéng)信這一嚴(yán)肅無比的考場(chǎng)!
據(jù)不完全統(tǒng)計(jì),經(jīng)王云鶴此舉,受影響而離開華為的大模型預(yù)訓(xùn)練、后訓(xùn)練核心人員超過40人,其中天才少年若干,17, 18級(jí)干部不計(jì)其數(shù)。另外,AI圈的其他研究者們看到華為的內(nèi)部亂象,是否還愿意把青春獻(xiàn)給中國(guó)芯片上的大模型,我要打一個(gè)問號(hào)。如今很多國(guó)企都有昇騰的訂單,如果他們的前方只剩王云鶴這樣的人替他們積累訓(xùn)練經(jīng)驗(yàn),中國(guó)的AI發(fā)展又會(huì)倒退多少年?
身在華為,王云鶴今天造假的是718B,明天就可能是大國(guó)重器上的通信計(jì)算設(shè)備,無人機(jī)的控制系統(tǒng),作戰(zhàn)通信終端的核心元件。。。
因此,王云鶴及其小模型實(shí)驗(yàn)室團(tuán)隊(duì),其剽竊套殼行為必須受到審判。其小模型實(shí)驗(yàn)室中所有不學(xué)無術(shù)、只想摘果子的成員,勢(shì)必要被釘在中國(guó)大模型發(fā)展的恥辱柱上,遺臭萬年。
回應(yīng)
- 關(guān)于135B dense模型指標(biāo)的質(zhì)疑(注:作者附上相關(guān)鏈接,但目前已暫時(shí)失效)
- 此報(bào)告撰寫過程中,王云鶴已然上任(理智的人可以分析arxiv報(bào)告上載時(shí)間)。與Pangu Ultra MoE完全一致,在文章攥寫過程中,可笑的是,大部分被掛名的、實(shí)際做事的被列為Contributor的研究者,在論文撰寫過程中對(duì)其存在、進(jìn)度全然不知。其只挑選了唐睿明、尚利峰團(tuán)隊(duì)的一小部分成員對(duì)其傾囊相授,將所有問題、技術(shù)點(diǎn)等凝練成文中方法及之前的部分。而對(duì)于模型的實(shí)際效果和測(cè)試集表現(xiàn),小模型團(tuán)隊(duì)大包大攬,唐睿明、尚利峰成員幾乎全然不知,或者是被剝奪了抗議的權(quán)利,最終導(dǎo)致報(bào)告中列出了假到極致的訓(xùn)練測(cè)試集后的結(jié)果。
- 與尊重學(xué)術(shù)道德的DeepSeek團(tuán)隊(duì)不同,理智的人可以仔細(xì)搜索作者名單每個(gè)人,這篇文章的Core Contributor幾乎全是領(lǐng)導(dǎo),而不是實(shí)際的技術(shù)人員,文章作者共有52位,源于王云鶴和某領(lǐng)導(dǎo)沆瀣一氣,得出的**“幸運(yùn)52”**這一決策,可謂恬不知恥,毫無學(xué)術(shù)道德。
- 陸續(xù)也有他人回答,此處可以參閱issue區(qū)
從匿名、AI生成等角度,無腦噴之前論文和這個(gè)倉庫的所有人。我建議你們?cè)囋嚕绻慵依镉兄覍俸秃⒆右揽恐銖氖碌倪@份工作,你能不能和《讓子彈飛》的六子一樣,切開肚子給人看看你里面有幾碗粉?
事件回顧:
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.