出品 | 虎嗅科技組
作者 | 丸都山
編輯 | 苗正卿
頭圖 | 清微智能提供
在2025年的AI芯片賽道上,隨便扔一板磚,能砸倒一片“英偉達(dá)學(xué)徒”。
但與此同時(shí),也有一群人認(rèn)為,英偉達(dá)構(gòu)建的敘事乃至GPU這個(gè)品類本身,都到了該被顛覆重構(gòu)的節(jié)點(diǎn)。
創(chuàng)辦清微智能的王博,算是其中頗具代表性的一位。
“行業(yè)現(xiàn)在有一個(gè)絕對(duì)占據(jù)市場(chǎng)份額的競(jìng)品,比如英偉達(dá)或者英特爾,你是絕對(duì)不能按照它的路徑走的,那會(huì)被碾壓得渣都不剩?!?/p>
而王博的做法是,選擇了一條與英偉達(dá)截然不同的路徑——可重構(gòu)芯片,一種能夠動(dòng)態(tài)配置計(jì)算資源的芯片。
關(guān)于這個(gè)概念,王博用一組形象的比喻解釋了它和GPU的區(qū)別:后者更像是一條筆直的鐵軌,火車沿著既定線路高速運(yùn)行;而在可重構(gòu)芯片上,重構(gòu)后的計(jì)算單元讓這條鐵路延伸出了多個(gè)“道岔”,切換這些計(jì)算單元,即可完成多種任務(wù)的轉(zhuǎn)換。
更進(jìn)一步講,可重構(gòu)芯片與傳統(tǒng)的GPU芯片是兩種完全截然不同的計(jì)算范式,后者屬于指令驅(qū)動(dòng)+共享存儲(chǔ),前者屬于無(wú)指令配置+數(shù)據(jù)流驅(qū)動(dòng)。
以一個(gè)典型的工作場(chǎng)景為例,現(xiàn)在有兩枚正在做大模型訓(xùn)練的GPU,其中一枚計(jì)算完數(shù)據(jù)后,需要執(zhí)行指令將結(jié)果寫到HBM中,隨后再執(zhí)行指令通過(guò)“PCIe——網(wǎng)卡——交換機(jī)”這條鏈路傳到另外一枚GPU的HBM中,以此實(shí)現(xiàn)相互協(xié)作。
在同樣的場(chǎng)景中,可重構(gòu)芯片無(wú)需取指譯碼,通過(guò)無(wú)指令配置即可完成計(jì)算,并直接將數(shù)據(jù)通過(guò)自帶的通信接口傳給下一枚芯片,在多枚芯片計(jì)算完成后,再統(tǒng)一寫回到外部存儲(chǔ)器上。
圖片備注:可重構(gòu)芯片架構(gòu)示意圖
如果對(duì)芯片架構(gòu)有所了解,就會(huì)發(fā)現(xiàn)這已經(jīng)脫離了典型的“馮諾依曼架構(gòu)”。
當(dāng)然,選擇這個(gè)特殊的芯片架構(gòu),并非是王博刻意地回避英偉達(dá)的技術(shù)路線。因?yàn)樵谒麑⒖芍貥?gòu)芯片技術(shù)搬出實(shí)驗(yàn)室的2017年,人們?cè)谡劦接ミ_(dá)或是GPU時(shí),對(duì)他們的唯二印象就是“打游戲”和“挖礦”。
而在那個(gè)Transformer架構(gòu)尚處于論文階段的時(shí)候,王博也從未想過(guò)將可重構(gòu)芯片同大模型聯(lián)系到一起。
彼時(shí),王博選擇做可重構(gòu)芯片創(chuàng)業(yè)的原因非常簡(jiǎn)單——此前他曾在一家云廠商擔(dān)任CTO,在拓展機(jī)器視覺(jué)業(yè)務(wù)的過(guò)程中,他發(fā)現(xiàn)市面上幾乎沒(méi)有能匹配端側(cè),且符合強(qiáng)算力、性能優(yōu)的芯片。
一次偶然的機(jī)會(huì),他了解到相識(shí)多年的清華大學(xué)尹首一教授團(tuán)隊(duì)的可重構(gòu)芯片技術(shù)已逐漸成熟。幾番交談下,兩人都認(rèn)為隨著人工智能興起和摩爾定律放緩,現(xiàn)有架構(gòu)的演進(jìn)無(wú)法滿足算力增長(zhǎng)需求,未來(lái)會(huì)有與AI計(jì)算更適配的架構(gòu)出現(xiàn)。而清華團(tuán)隊(duì)自2006年開(kāi)始一直專注可重構(gòu)計(jì)算方向研究,積累的端側(cè)、云端的技術(shù)成果已達(dá)到可以產(chǎn)業(yè)化的階段。于是,兩人一拍即合,在2018年共同創(chuàng)辦了清微智能。
不過(guò),此時(shí)的可重構(gòu)芯片距離一款商業(yè)化產(chǎn)品,中間還隔著一條巨大的鴻溝。
“商品化的東西,需要考慮可靠性、可升級(jí)、可兼容等等,最重要的是考慮客戶的需求和性價(jià)比?!蓖醪┍硎?。
這個(gè)過(guò)程,王博和創(chuàng)業(yè)團(tuán)隊(duì)耗費(fèi)了一年半的時(shí)間。
公司成立的第二年,清微智能推出了第一枚量產(chǎn)的可重構(gòu)芯片,那是一枚用在智能手機(jī)上的語(yǔ)音喚醒芯片,可好景不長(zhǎng),高通在下代SoC上也集成了這項(xiàng)功能。后續(xù)王博又帶領(lǐng)團(tuán)隊(duì)轉(zhuǎn)做藍(lán)牙耳機(jī)芯片,還較具前瞻性地在這個(gè)芯片上加入了AI算力。
但王博很快意識(shí)到,藍(lán)牙耳機(jī)芯片的需求與團(tuán)隊(duì)核心能力并不完全匹配。“做藍(lán)牙耳機(jī)的SoC芯片,我們需要花大量時(shí)間去做模擬、傳輸、充電,這些我們并不擅長(zhǎng),我們最擅長(zhǎng)的AI技術(shù)在這類芯片中只占10%,這就導(dǎo)致團(tuán)隊(duì)又遇到了技術(shù)問(wèn)題”,王博解釋道。
在消費(fèi)電子領(lǐng)域兩次遇阻后,王博進(jìn)行了深刻復(fù)盤,最終凝練出一條感悟:
“創(chuàng)業(yè),應(yīng)該在擅長(zhǎng)的領(lǐng)域做有挑戰(zhàn)的事”,而在王博看來(lái),AI正是那個(gè)能發(fā)揮可重構(gòu)技術(shù)的領(lǐng)域。
深思熟慮下,王博決定帶領(lǐng)團(tuán)隊(duì)全力攻克那些“AI占比較高”的芯片領(lǐng)域,先從部署在邊緣端的芯片做起,之后一步步迭代至AI算力芯片。
2022年初,基于邊緣端芯片的多年積累,用于云端部署的TX8系列芯片正式立項(xiàng)。彼時(shí),盡管ChatGPT尚未開(kāi)啟公測(cè),但王博認(rèn)為,清微端側(cè)芯片產(chǎn)品的成功足以證明可重構(gòu)芯片的核及編譯器已經(jīng)趨于成熟,應(yīng)該去嘗試下那些“AI占比更高”的行業(yè)。
去年年底,清微AI算力芯片首枚產(chǎn)品“TX81”開(kāi)始批量出貨。短短半年,即實(shí)現(xiàn)了在全國(guó)多地落地千卡智算中心,累計(jì)訂單超過(guò)20000枚。
在性能上,基于TX81芯片打造的REX1032訓(xùn)推一體服務(wù)器單機(jī)算力達(dá)4 PFLOPS,支持萬(wàn)億以上大模型部署,可實(shí)現(xiàn)千卡直接互聯(lián),且無(wú)需交換機(jī)成本,成為了AI算力芯片領(lǐng)域兼具性能和性價(jià)比優(yōu)勢(shì)的一款產(chǎn)品。
面對(duì)當(dāng)前市場(chǎng)環(huán)境,王博認(rèn)為,在與英偉達(dá)等頭部企業(yè)的競(jìng)爭(zhēng)中,生態(tài)上的劣勢(shì)短期內(nèi)不可能逆轉(zhuǎn),因此未來(lái)至少要有“5倍性價(jià)比”優(yōu)勢(shì),才能在市場(chǎng)中站穩(wěn)腳跟。
“產(chǎn)品‘5倍性價(jià)比’包括性能更優(yōu)、成本更低,如果做不到,很難說(shuō)服客戶將模型遷移到我們的產(chǎn)品上。”王博補(bǔ)充道。
據(jù)王博描述,在下一代TX8系列芯片上,清微智能還會(huì)大面積使用“3D存儲(chǔ)”技術(shù),以實(shí)現(xiàn)更高的性能,“5倍性價(jià)比”將很快得到兌現(xiàn)。
不過(guò),還是要說(shuō)的是,可重構(gòu)芯片這項(xiàng)技術(shù)還算不上是清微智能的獨(dú)家秘笈。
包括谷歌的TPU芯片、美國(guó)AI芯片新貴Groq、斯坦福系獨(dú)角獸公司SambaNova,他們的技術(shù)路線均屬于可重構(gòu)數(shù)據(jù)流新架構(gòu)陣營(yíng)。實(shí)際上,在以英偉達(dá)主導(dǎo)的GPU陣營(yíng)之外,新架構(gòu)芯片已大有開(kāi)辟第二陣營(yíng)的趨勢(shì)。
而對(duì)于未來(lái)可能存在的“同派之爭(zhēng)”,王博的態(tài)度十分豁達(dá):
“近兩年那些新興的美國(guó)創(chuàng)業(yè)公司,他們做3D堆疊、做晶圓級(jí)芯片、做數(shù)據(jù)流,幾乎沒(méi)有做GPU的,至少證明這個(gè)技術(shù)路線是沒(méi)有問(wèn)題的?!?/p>
以下為虎嗅與清微智能創(chuàng)始人王博的對(duì)話實(shí)錄,略有刪減:
Q:站在2017年,你為什么會(huì)看好可重構(gòu)芯片?
王博:在之前的公司做機(jī)器視覺(jué)產(chǎn)品的時(shí)候,我們發(fā)現(xiàn)業(yè)內(nèi)沒(méi)有專用的AI芯片,都是用高通、MTK這些CPU芯片去硬跑,效率普遍都很低。正好當(dāng)時(shí)看到尹老師(清華大學(xué)集成電路學(xué)院副院長(zhǎng)尹首一)在做AI芯片,還是一個(gè)特殊的新架構(gòu),也滿足我們當(dāng)時(shí)做這種產(chǎn)品的需求。包括之前所在的公司也上市了,就跟尹老師出來(lái)一起成立了清微智能。
之所以看好可重構(gòu)技術(shù),一方面,2016年國(guó)內(nèi)“AI四小龍”出現(xiàn),國(guó)外特斯拉推出自動(dòng)駕駛,人工智能應(yīng)用到了新的高度,對(duì)人工智能的商業(yè)落地需求更明確,對(duì)芯片的需求也更確定。另一方面,2017年左右,清華兩顆thinker系列芯片順利回片,也驗(yàn)證了可重構(gòu)的技術(shù)優(yōu)勢(shì)。
Q:那你做出這個(gè)判斷的核心依據(jù)是什么?
王博:初衷特別簡(jiǎn)單,就是我們經(jīng)過(guò)研究,還是覺(jué)得人工智能處于比較早期,所以它不僅需要低功耗,還要非常強(qiáng)調(diào)靈活性,這一點(diǎn)可重構(gòu)芯片能很好地滿足。那時(shí)候也有人用ASIC做加速器,但我們都覺(jué)得那個(gè)方案太短期,長(zhǎng)期來(lái)看還是需要一個(gè)既靈活又高效的架構(gòu),所以我們就覺(jué)得可重構(gòu)架構(gòu)前景比較好。
Q:從定義上看,可重構(gòu)芯片和FPGA有些類似,二者有什么本質(zhì)區(qū)別嗎?
王博:FPGA重構(gòu)的是“門電路”,而我們重構(gòu)的是“計(jì)算單元”。
計(jì)算單元有點(diǎn)類似于CPU里邊的ALU(邏輯單元),你也可以把它理解成一個(gè)小的計(jì)算器,這里有成千上萬(wàn)個(gè)這樣的計(jì)算器,要把這些計(jì)算器之間的通路連起來(lái),它就變成了一個(gè)針對(duì)某種特殊計(jì)算的ASIC。然后這些計(jì)算機(jī)之間的連接,它就像鐵路的“道岔”一樣,它變了一種連接之后,就又變成一個(gè)新的ASIC了。
而且我們這個(gè)叫動(dòng)態(tài)可重構(gòu),就相當(dāng)于在程序運(yùn)行過(guò)程中不斷地重構(gòu)。每執(zhí)行一段程序或者神經(jīng)網(wǎng)絡(luò)的幾層,就把它擦掉了,重新再配一次。然后每次配置就是十幾納秒,十幾個(gè)時(shí)鐘周期這樣的時(shí)間。所以他是在不斷地在配置重構(gòu)運(yùn)行這么一個(gè)過(guò)程。
Q:從實(shí)驗(yàn)室技術(shù)到商業(yè)化產(chǎn)品,你遇到的最大挑戰(zhàn)是什么?
王博:公司要的是一個(gè)產(chǎn)品化的東西,它就必須要解決幾個(gè)問(wèn)題:
第一就是基于可重構(gòu)核心外,還要做SoC的整體設(shè)計(jì);第二要考慮產(chǎn)品的性價(jià)比;第三要考慮是否符合客戶需求;第四還要考慮穩(wěn)定可靠,可升級(jí)、可兼容等等。
這項(xiàng)技術(shù)從學(xué)校走出來(lái)后,2019年才把第一顆小芯片做出來(lái),到去年才把第一顆大芯片做出來(lái),這么長(zhǎng)的周期,都是在不斷修正和迭代這些問(wèn)題。
盡管AI才是可重構(gòu)技術(shù)最擅長(zhǎng)的領(lǐng)域,但作為一項(xiàng)從實(shí)驗(yàn)室走向產(chǎn)業(yè)化的新興技術(shù),還是需要一步一個(gè)腳印,先從部署要求明確、驗(yàn)證周期較短的邊緣端芯片切入,逐步積累經(jīng)驗(yàn),再向更高性能的AI算力芯片拓展。
Q:作為國(guó)內(nèi)最早開(kāi)啟可重構(gòu)芯片研究的公司,相信清微智能可參考的先例較少,你是如何看待這個(gè)問(wèn)題的?
王博:首先,國(guó)外像谷歌這些公司,其實(shí)他們都做了七代TPU了。還有好幾個(gè)創(chuàng)業(yè)公司已經(jīng)接近上市了,說(shuō)明他們已經(jīng)拿到了較好的市場(chǎng)反饋。比如,美國(guó)AI芯片新貴Groq、斯坦福系獨(dú)角獸公司SambaNova、硅谷AI芯片設(shè)計(jì)公司Cerebras Systems,他們的技術(shù)路線都屬于可重構(gòu)數(shù)據(jù)流新架構(gòu)陣營(yíng)。
另外,這個(gè)東西我覺(jué)得它是有契機(jī)的,一開(kāi)始我們就相信這條路,做的過(guò)程中發(fā)現(xiàn)它的優(yōu)勢(shì)越來(lái)越明顯。而且我們始終認(rèn)為,在一個(gè)行業(yè)中如果你想超越那個(gè)占據(jù)絕對(duì)市場(chǎng)份額的競(jìng)品,比如說(shuō)英偉達(dá)、英特爾,你是絕對(duì)不能跟它走同樣道路的,這個(gè)就叫創(chuàng)新者窘境。
大公司做技術(shù)創(chuàng)新,可以沿著原來(lái)路徑走,小公司如果也在它的路徑里,那會(huì)被它碾壓得渣都不剩。因?yàn)椋S便拿出一點(diǎn)資源,對(duì)產(chǎn)品的升級(jí)可能比你投入十年都大得多。所以你沿著它路徑走,差距只會(huì)越來(lái)越大。
Q:但是市場(chǎng)上諸如博通或者M(jìn)arwell這種公司,沒(méi)有按照英偉達(dá)的路線走,但市場(chǎng)份額也沒(méi)有明顯提升。
王博:這個(gè)悖論就是因?yàn)槎ㄖ苹酒邪l(fā)成本較高,而且博通還要盈利。所以作為客戶,找博通定這個(gè)芯片,那得賣出多少的量才能把這個(gè)成本攤平?我們始終認(rèn)為在芯片行業(yè),特別是算力芯片行業(yè),定制芯片這條路是走不通的,或者說(shuō)性價(jià)比是不劃算的,遠(yuǎn)不如買英偉達(dá)或者其他的通用芯片。
Q:那同樣都是做通用芯片,你們要如何與英偉達(dá)這類巨頭競(jìng)爭(zhēng)呢?
王博:我認(rèn)為需要在產(chǎn)品上具備5倍性價(jià)比優(yōu)勢(shì),就是從客戶的角度來(lái)看,它的采購(gòu)成本、運(yùn)維成本要降低,最重要的是性能的提升和優(yōu)化,要在同類產(chǎn)品中有優(yōu)勢(shì),這些加起來(lái),我們需要比競(jìng)品有5倍優(yōu)勢(shì),才能在市場(chǎng)上分得更多的蛋糕。
Q:5倍性價(jià)比,這要如何實(shí)現(xiàn)?
王博:首先在可重構(gòu)架構(gòu)下,4000卡以內(nèi)的智算中心是不需要交換機(jī)的,而且我們也不需要昂貴的HBM存儲(chǔ),我們可以用DDR存儲(chǔ)代替;再有就是在下一代產(chǎn)品上我們會(huì)使用“3D存儲(chǔ)”技術(shù),這會(huì)進(jìn)一步提升能效比。
Q:可是像英偉達(dá)做的GPGPU,也可以在封測(cè)端使用3D存儲(chǔ)呀。
王博:在我們看來(lái),3D存儲(chǔ)這條路不太適合GPU。從芯片設(shè)計(jì)維度來(lái)說(shuō),傳統(tǒng)GPU的計(jì)算存儲(chǔ)布局受限于二維平面思維,而可重構(gòu)數(shù)據(jù)流架構(gòu)從底層就具備三維擴(kuò)展的天然優(yōu)勢(shì),每個(gè)計(jì)算單元上方都有對(duì)應(yīng)的存儲(chǔ),這種空間自由度讓它和晶圓級(jí)集成、3.5D堆疊等立體封裝技術(shù)產(chǎn)生天然適配。未來(lái),可重構(gòu)芯片還是有較強(qiáng)的性能突破潛力。
Q:那這個(gè)搭載3D存儲(chǔ)的下一代產(chǎn)品更新,我們有明確的時(shí)間線嗎?
王博:預(yù)計(jì)明年下半年,我們就能交付到用戶手中了。
Q:行業(yè)內(nèi)經(jīng)常會(huì)說(shuō)英偉達(dá)在生態(tài)上的絕對(duì)領(lǐng)先優(yōu)勢(shì),有許多國(guó)內(nèi)GPU廠商也是選擇主動(dòng)兼容CUDA,但可重構(gòu)路線從根本上就與GPU不同,在生態(tài)搭建上是否意味著需要“從零做起”?在這一過(guò)程中,清微智能做了哪些工作?
王博:我們其實(shí)是做了三層的兼容。
第一層兼容是英偉達(dá)CUDA的API兼容,像cuDNN(專為深度學(xué)習(xí)設(shè)計(jì)的庫(kù))、cuBLAS(用于線性代數(shù)運(yùn)算的庫(kù))用戶都可以使用,同時(shí),我們和英偉達(dá)CUDA生態(tài)的兼容也在持續(xù)完善。
第二層就是“Triton兼容”,這也是OpenAI主推的開(kāi)源編譯器,行業(yè)內(nèi)主流大模型廠商都在向Triton做遷移,我們也在聯(lián)合智源研究院,積極參與國(guó)內(nèi)Triton生態(tài)的建設(shè)工作。
第三層就是在芯片最底層,類似英偉達(dá)PTX那一層,我們做了一個(gè)比較特殊的RISC-V兼容,用戶可以用RISC-V的指令集去做整個(gè)芯片的編程,目前RISC-V開(kāi)源生態(tài)也比較繁榮,對(duì)于用戶來(lái)說(shuō)更容易進(jìn)行性能極致調(diào)優(yōu)。
此外,像一些主流的神經(jīng)網(wǎng)絡(luò)框架,比如PyTorch,TensorFlow等,我們也都做了完整兼容適配,保證框架上編程的用戶做到無(wú)感遷移。
總的來(lái)說(shuō),我們不需要完全“從零做起”,通過(guò)擁抱開(kāi)源的Triton + RISC-V生態(tài),同時(shí)也盡量兼容CUDA,可以為不同類型的客戶提供適配的使用方式。
Q:國(guó)外的一些公司,像Groq,包括剛才提到的谷歌TPU,他們都在做數(shù)據(jù)流新架構(gòu)的芯片,你覺(jué)得這個(gè)技術(shù)路線未來(lái)會(huì)是算力芯片的第二陣營(yíng)嗎?
王博:我覺(jué)得現(xiàn)在就算是第二陣營(yíng)了。你看近兩年那些新興的美國(guó)創(chuàng)業(yè)公司,他們做3D堆疊、做晶圓級(jí)芯片、做數(shù)據(jù)流,但幾乎沒(méi)有做GPU的,至少證明這個(gè)技術(shù)路線是沒(méi)有問(wèn)題的。
本文來(lái)自虎嗅,原文鏈接:https://www.huxiu.com/article/4697234.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.