成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中國團(tuán)隊提出SRDA,一種專為AI大模型訓(xùn)推設(shè)計的下一代計算架構(gòu)

0
分享至

算力成本是大模型應(yīng)用起飛的前提,是下一代AI計算架構(gòu)需要解決的最核心問題。

當(dāng)大模型訓(xùn)推需求份額已占據(jù)過半的算力需求時,硬件層上針對大模型的創(chuàng)新卻屈指可數(shù),芯片設(shè)計幾乎成為制程工藝的附庸。



應(yīng)用需求 vs 基礎(chǔ)設(shè)施供給

類GPGPU架構(gòu)支持了AI大模型快速崛起,但其難以兼顧通用性和對大模型的針對性,在面對模型規(guī)模和復(fù)雜性的急劇膨脹時,其效率與成本的黑洞被詬病已久,甚至已經(jīng)影響市場對大模型未來發(fā)展的預(yù)期。

玉盤MoonQuest團(tuán)隊充分拆解不同角度的算力問題(內(nèi)存墻、存儲墻、功耗墻等),認(rèn)為核心都是I/O問題(數(shù)據(jù)的讀寫與搬運(yùn)效率太低),制約了硬件理論算力的充分發(fā)揮,算力成本問題有進(jìn)一步制約了整個行業(yè)的發(fā)展。

本文旨在提出一種從I/O出發(fā)、專為AI大模型訓(xùn)推設(shè)計的創(chuàng)新計算架構(gòu)——SRDA(系統(tǒng)級極簡可重構(gòu)數(shù)據(jù)流架構(gòu) System-level Simplified Reconfigurable Dataflow Architecture ),輔以一份更為詳細(xì)的架構(gòu)白皮書,完整開源SRDA的架構(gòu)理念、技術(shù)優(yōu)勢以及初代的核心組件,探討從I/O優(yōu)化角度出發(fā)克服現(xiàn)有算力成本瓶頸的新思路。

AI計算需求的演進(jìn)與挑戰(zhàn)

人工智能,尤其是深度學(xué)習(xí),在過去十年中取得了顯著進(jìn)展。AI模型,特別是Transformer、Diffusion等架構(gòu)的出現(xiàn),使得模型參數(shù)量從數(shù)百萬激增至數(shù)千萬億級別,直接導(dǎo)致了對計算資源,尤其是并行處理能力和內(nèi)存帶寬的極致需求,傳統(tǒng)計算架構(gòu)逐漸暴露多重制約:

  • 性能提升依賴制程工藝:過去3年,工藝提升帶來的單位面積算力優(yōu)化只有15%,而主流觀點認(rèn)為當(dāng)前芯片工藝極限約1nm,先進(jìn)制程難以跟著大模型一起scale.
  • 內(nèi)存帶寬限制:現(xiàn)有主流類GPGPU架構(gòu)采用的多級共享式內(nèi)存(如HBM)在多線程并發(fā)訪問時,讀寫沖突以及數(shù)據(jù)過度隨機(jī)化極易產(chǎn)生顯存訪問擁塞,導(dǎo)致內(nèi)存帶寬往往成為實際應(yīng)用中的瓶頸,尤其在處理巨型AI模型時問題更加嚴(yán)重。
  • 算力利用率低:由于架構(gòu)設(shè)計、通信開銷以及內(nèi)存訪問瓶頸等多重因素制約,芯片的理論峰值算力在實際AI負(fù)載中無法充分發(fā)揮。
  • 功耗屢創(chuàng)新高:頂級AI加速器芯片的功耗指標(biāo)屢創(chuàng)新高,已成為制約其更廣泛應(yīng)用和可持續(xù)發(fā)展的核心瓶頸。以英偉達(dá)H100 GPU為例,其典型板卡功耗高達(dá)700瓦,基于光模塊的超節(jié)點集群方案更是功耗驚人。這是類GPGPU架構(gòu)依靠增加計算核來拉高算力導(dǎo)致的,算力增幅與功耗增幅幾乎成正比。
  • 大規(guī)模集群擴(kuò)展難題:傳統(tǒng)兩層網(wǎng)絡(luò)(節(jié)點內(nèi)高速互聯(lián)如NVLink,節(jié)點間網(wǎng)絡(luò)如InfiniBand/以太網(wǎng))的設(shè)計,帶來了帶寬層級差異、協(xié)議轉(zhuǎn)換開銷、通信管理復(fù)雜等諸多問題,不得不占用大量計算資源來執(zhí)行通信任務(wù)。
  • 軟件復(fù)雜:現(xiàn)有AI加速方案的主流軟件棧非常復(fù)雜,實際算力利用率低,而優(yōu)化成本非常高,進(jìn)一步限制了其在大模型領(lǐng)域的應(yīng)用。

面對這些挑戰(zhàn),業(yè)界亟需創(chuàng)新的計算架構(gòu)來突破現(xiàn)有瓶頸,滿足AI大模型發(fā)展的技術(shù)需求。

SRDA:為AI大模型極致算力性價比設(shè)計的新計算范式

SRDA 系統(tǒng)級精簡可重構(gòu)數(shù)據(jù)流架構(gòu)是一種以數(shù)據(jù)流為中心、軟硬件協(xié)同設(shè)計的AI計算架構(gòu),強(qiáng)調(diào)在成熟工藝下通過架構(gòu)創(chuàng)新實現(xiàn)性能突破的潛力。其核心設(shè)計理念是通過數(shù)據(jù)流驅(qū)動計算,結(jié)合極簡和可重構(gòu)思路,最大限度地提升AI計算的效率、靈活性和可擴(kuò)展性。

設(shè)計哲學(xué)

SRDA的設(shè)計哲學(xué)根植于對AI計算負(fù)載特性的深刻理解:

  • 數(shù)據(jù)流驅(qū)動
  • AI計算,尤其是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理,本質(zhì)上是大規(guī)模、結(jié)構(gòu)化的「數(shù)據(jù)流」處理過程(數(shù)據(jù)在計算節(jié)點間依照特定計算圖(Compute Graph)進(jìn)行流動和轉(zhuǎn)換)。傳統(tǒng)GPGPU類的「控制流」架構(gòu)(Control-Flow Architecture)下,SIMT架構(gòu)疊加復(fù)雜的多級共享內(nèi)存架構(gòu)導(dǎo)致內(nèi)存訪問常常成為性能瓶頸,致使計算單元長時間空閑和高額的數(shù)據(jù)搬運(yùn)功耗。
  • SRDA 將「數(shù)據(jù)流」的優(yōu)化置于架構(gòu)設(shè)計的核心(Data-Flow Architecture)。SRDA通過編譯器解析計算圖,定制優(yōu)化路徑,將計算圖拆解后直接靜態(tài)映射到硬件,實現(xiàn)數(shù)據(jù)在計算單元之間點到點直接傳輸,大幅減少了對中央內(nèi)存的依賴和訪問次數(shù)。這種設(shè)計理念從根本上減少了數(shù)據(jù)移動的距離和頻率——這也是當(dāng)前大模型計算系統(tǒng)中主要的性能和能耗瓶頸之一。通過讓數(shù)據(jù)“流動”起來,讓計算“追隨”數(shù)據(jù),SRDA最大化有效計算的占比,最小化等待和搬運(yùn)的開銷。
  • 軟硬件超融合
  • 為充分發(fā)揮硬件潛力,SRDA從設(shè)計之初就強(qiáng)調(diào)硬件架構(gòu)與軟件系統(tǒng)的超融合設(shè)計。這并非簡單地為已有的硬件開發(fā)軟件,而是在架構(gòu)定義階段就將軟件精簡性和易用性作為核心指標(biāo)。(這也是玉盤僅20余人投入的核心起點,我們認(rèn)為高效是AI時代的必然要求)
  • SRDA的編譯器對硬件的可重構(gòu)特性、內(nèi)存系統(tǒng)的架構(gòu)與訪問特性、以及互聯(lián)網(wǎng)絡(luò)的拓?fù)渑c通信特性擁有精確的認(rèn)知。這使得編譯器能夠在編譯階段進(jìn)行全局的靜態(tài)優(yōu)化,例如:將計算圖高效地映射到物理計算單元,精確規(guī)劃數(shù)據(jù)在片上和片間的傳輸路徑,優(yōu)化內(nèi)存訪問模式,以及預(yù)先配置數(shù)據(jù)流通路以消除運(yùn)行時調(diào)度開銷。這種深度的超融合設(shè)計,使得SRDA能夠?qū)崿F(xiàn)傳統(tǒng)通用架構(gòu)配合通用編譯器難以企及的優(yōu)化水平,從而將硬件的理論性能更充分地轉(zhuǎn)化為實際應(yīng)用性能。
  • 同時,SRDA軟件棧也致力于對上層AI框架(如PyTorch、JAX及更上層的訓(xùn)推框架)提供簡潔的接入層接口,使開發(fā)者不用感知底層硬件就能夠高效利用SRDA的強(qiáng)大能力。
  • 精簡與高效
  • SRDA追求用最直接、最高效的方式滿足AI計算的核心需求。面對AI計算負(fù)載的專用性,SRDA選擇剝離傳統(tǒng)通用處理器中為支持多樣化任務(wù)而引入的復(fù)雜控制邏輯、冗余指令集以及多級緩存一致性等機(jī)制。作為一種AI領(lǐng)域的專用架構(gòu),SRDA將硬件資源更聚焦于AI計算本身的核心操作,如張量運(yùn)算、向量處理等。 這種架構(gòu)上的精簡帶來了多重效益:
  • 更高的面積效率:在相同的芯片面積下,可以集成更多的有效計算單元和片上內(nèi)存,直接提升原始計算能力。
  • 更高的能源效率:減少了非計算相關(guān)的晶體管活動和復(fù)雜控制邏輯的能耗,使得每一瓦特電力都能更有效地轉(zhuǎn)化為有效算力。
  • 更低的復(fù)雜度:底層基于開源RISC-V指令集生態(tài),大幅簡化了指令系統(tǒng)和算子開發(fā)難度。同時,精簡的架構(gòu)也意味著芯片和系統(tǒng)的開發(fā)復(fù)雜度更可控,能更好的助力芯片設(shè)計團(tuán)隊及未來的用戶大幅降低開發(fā)成本。
  • 可重構(gòu)性與適應(yīng)性
  • SRDA是為AI領(lǐng)域設(shè)計的專用架構(gòu),但并非僵化的固定模型的硬件加速器。AI算法和模型本身在快速演進(jìn),從經(jīng)典的CNN、RNN到主流的Transformer,再到新興的MoE(混合專家模型)、Mamba(狀態(tài)空間模型)、DiT(Diffusion Transformer)、ViT(Vision Transformer)等,其計算特性和數(shù)據(jù)流模式各不相同。 SRDA的關(guān)鍵特性之一是其可重構(gòu)性,硬件的數(shù)據(jù)路徑、部分計算單元的功能組合以及內(nèi)存訪問模式,可以在一定程度上由軟件根據(jù)具體的AI模型或計算任務(wù)進(jìn)行配置和優(yōu)化,實現(xiàn):
  • 適應(yīng)多樣化的模型結(jié)構(gòu):針對不同模型的獨(dú)特計算需求(如不同類型的注意力機(jī)制、循環(huán)結(jié)構(gòu)或稀疏計算模式),配置最優(yōu)的硬件執(zhí)行方案。
  • 優(yōu)化特定運(yùn)算層:專業(yè)用戶可以針對模型中的不同計算層或關(guān)鍵算子,進(jìn)行細(xì)粒度的硬件資源匹配和數(shù)據(jù)流定制。
  • 面向未來模型架構(gòu)的擴(kuò)展性:為未來可能出現(xiàn)的新型AI算法和模型架構(gòu)預(yù)留了適應(yīng)空間,避免了因架構(gòu)固化而過早被淘汰的風(fēng)險。 通過這種受控的可重構(gòu)性,SRDA?力求在專用加速器的高效率與通用處理器的高靈活性之間取得理想的平衡,以持續(xù)高效地支持AI技術(shù)的快速發(fā)展。
關(guān)鍵技術(shù)模塊與解決方案

源于深厚I/O技術(shù)積累和市場需求洞察,玉盤SRDA憑借系統(tǒng)級數(shù)據(jù)流、分布式3D堆疊內(nèi)存系統(tǒng)、I/O融合互連技術(shù)、極簡可重構(gòu)等多項關(guān)鍵技術(shù)模塊,實現(xiàn)極簡且高效的軟硬件超融合SRDA架構(gòu),系統(tǒng)性解決當(dāng)前算力面臨的核心挑戰(zhàn)。



  • QDDM?:分布式片上3D堆疊內(nèi)存管理技術(shù)

為了突破“內(nèi)存墻”的限制,SRDA采用了QDDM?(Distributed 3D DRAM Management)技術(shù) 。該技術(shù)利用先進(jìn)的3D堆疊工藝,在計算芯片上直接集成了高帶寬、大容量的分布式內(nèi)存網(wǎng)絡(luò)。QDDM?的關(guān)鍵特性包括:

  • 計算單元內(nèi)存私有化:每個計算核心或計算簇?fù)碛衅渌接械?、緊耦合的內(nèi)存區(qū)域,天然支持帶寬隔離,消除了多核心共享內(nèi)存帶來的帶寬競爭和訪問沖突。
  • 3D-DRAM專用控制技術(shù):集成定制的3D-DRAM控制器,在提供高帶寬利用率的同時,可有效縮短數(shù)據(jù)傳輸路徑和訪問延遲,并定制了專用的數(shù)據(jù)加速功能。
  • 良率提升方案:針對3D堆疊技術(shù)可能帶來的良率挑戰(zhàn),SRDA?采用了的專用良率方案,確保了大規(guī)模生產(chǎn)的可行性和成本效益。
  • QLink?:融合高速互連通信技術(shù)

在大規(guī)模AI計算集群中,節(jié)點間的通信效率是決定整體性能的關(guān)鍵因素。SRDA為此引入了QLink?融合高速互連技術(shù) 。QLink?旨在構(gòu)建一個單層的統(tǒng)一、高效、低成本的互連網(wǎng)絡(luò),支持原生all-to-all的從芯片內(nèi)部核間、芯片間(chip-to-chip)到服務(wù)器節(jié)點間(node-to-node)的無縫互連

  • 融合網(wǎng)絡(luò)架構(gòu):將傳統(tǒng)數(shù)據(jù)中心中可能并存的多種網(wǎng)絡(luò)(如scale-up與scale-out網(wǎng)絡(luò))融合成統(tǒng)一的QLink?網(wǎng)絡(luò),簡化網(wǎng)絡(luò)拓?fù)?,降低管理?fù)雜度和部署成本,且無需昂貴的專用網(wǎng)卡。
  • 獨(dú)立通信引擎:QLink?集成了自研的獨(dú)立通信調(diào)度引擎,實現(xiàn)了計算任務(wù)與通信任務(wù)的完全解耦。通信操作由專門的硬件處理,不占用寶貴的核心計算資源,釋放更多有效算力。
  • 高帶寬與低延遲:QLink?提供高速互聯(lián)帶寬和低延遲特性,為大規(guī)模并行訓(xùn)練和分布式推理提供強(qiáng)大的通信支撐。
  • 線性擴(kuò)展與高可靠性:集成了自研的增強(qiáng)型網(wǎng)絡(luò)模塊,有效降低數(shù)據(jù)擁塞,支持大規(guī)模AI集群(如十萬卡級別)的近乎線性擴(kuò)展,并增強(qiáng)了系統(tǒng)可靠性。
  • 極簡AI編譯器與協(xié)同設(shè)計的軟件棧

SRDA架構(gòu)的強(qiáng)大能力需要高效的軟件棧來釋放。為此,玉盤開發(fā)與硬件架構(gòu)緊密協(xié)同的極簡AI編譯器和軟件工具鏈 :

  • 基于開源RISC-V生態(tài):底層基于開源的RISC-V指令集生態(tài),簡化了底層算子的開發(fā)和優(yōu)化難度,同時也為架構(gòu)的開放性和社區(qū)合作提供了基礎(chǔ)。
  • 聚焦核心與靜態(tài)編譯:編譯器聚焦AI計算的核心功能,降低了系統(tǒng)復(fù)雜度。通過支持靜態(tài)計算圖優(yōu)化和靜態(tài)編譯,能夠在編譯期間完成大部分的優(yōu)化工作,為可重構(gòu)數(shù)據(jù)流路徑的配置和資源調(diào)度提供精確指導(dǎo)。
  • 兼容主流AI框架:前端接口設(shè)計注重與主流AI開發(fā)框架(如PyTorch、JAX以及上層的vLLM)的兼容性,使得用戶可以平滑遷移現(xiàn)有的模型和開發(fā)流程。
  • 訓(xùn)推一體與資源優(yōu)化:軟件棧對推理、預(yù)訓(xùn)練和后訓(xùn)練等不同AI應(yīng)用場景進(jìn)行了重新設(shè)計和優(yōu)化,以充分利用SRDA架構(gòu)在算力、內(nèi)存和通信方面的硬件優(yōu)勢,最大化資源利用率。在集群層面,實現(xiàn)對網(wǎng)絡(luò)、計算、存儲的統(tǒng)一管理和高效利用。
  • 高性能融合計算引擎與可重構(gòu)數(shù)據(jù)流

與傳統(tǒng)固定功能的計算單元不同,SRDA的計算單元支持根據(jù)AI模型的具體算子和數(shù)據(jù)依賴關(guān)系,動態(tài)構(gòu)建和優(yōu)化計算路徑。這種可重構(gòu)的數(shù)據(jù)流使得中間計算結(jié)果可以在計算單元之間直接點到點傳輸,無需頻繁訪問片外主存,從而極大減少了數(shù)據(jù)搬運(yùn)開銷,消除了數(shù)據(jù)擁塞,顯著提高了實際算力利用率 。

該計算引擎特別針對AI工作負(fù)載進(jìn)行了優(yōu)化,定制了專用的計算單元以大幅提升峰值算力。此外,玉盤首顆SRDA芯片將原生支持FP8等主流趨勢的低精度數(shù)據(jù)類型,對于降低內(nèi)存占用、提升計算吞吐量至關(guān)重要,并能與采用FP8原生模型精度的前沿模型高效配合。計算單元還支持靈活的計算組合,保證了較強(qiáng)的通用性。

“當(dāng)下是推動AI專用計算架構(gòu)的最合適時機(jī)”



SRDA架構(gòu)將:
  • 大幅提升算力利用率:通過可重構(gòu)數(shù)據(jù)流、存算聯(lián)一體化設(shè)計以及計算通信解耦,大幅減少數(shù)據(jù)搬運(yùn)和通信等待,提升有效計算時間占比。
  • 大幅優(yōu)化內(nèi)存帶寬與效率:大幅優(yōu)化超高內(nèi)存帶寬和低延遲訪問,有效緩解大模型應(yīng)用中的內(nèi)存瓶頸。
  • 高效費(fèi)比的大規(guī)模集群擴(kuò)展:IO融合技術(shù)簡化了網(wǎng)絡(luò)部署,降低了互聯(lián)成本,并支持構(gòu)建高效率的超大規(guī)模AI計算集群。
  • 不依賴先進(jìn)制程拉高算力:基于成熟的工藝制程即可實現(xiàn)高有效算力。
  • 大模型場景最優(yōu)總擁有成本(TCO):通過提升單芯片/單節(jié)點性能、大幅降低功耗、降低集群構(gòu)建和運(yùn)維復(fù)雜度、以及采用合適的成熟制程工藝,旨在提供更優(yōu)的整體TCO。
  • 靈活的模型與算法適應(yīng)性:可重構(gòu)數(shù)據(jù)流和對多種數(shù)據(jù)精度的支持,使得SRDA有能力靈活適應(yīng)不斷演進(jìn)的AI模型和算法。
  • 極簡的軟件開發(fā)與遷移:兼容主流框架并簡化底層軟件棧,降低用戶的使用門檻。
下一步

SRDA不僅關(guān)注芯片單點性能的提升,更著眼于整體數(shù)據(jù)中心系統(tǒng)。我們希望SRDA在推動AI技術(shù)普惠化、賦能下一代AI應(yīng)用、探索計算架構(gòu)發(fā)展以及構(gòu)建自主可控的AI算力基礎(chǔ)設(shè)施等方面發(fā)揮作用,為智能時代的加速到來貢獻(xiàn)力量:

  • 重塑數(shù)據(jù)中心與智能算力網(wǎng)絡(luò):QLink?等互聯(lián)技術(shù)的創(chuàng)新,不僅優(yōu)化了單服務(wù)器內(nèi)部的通信,更為構(gòu)建高效、低成本、易擴(kuò)展的超大規(guī)模AI數(shù)據(jù)中心(“AI token工廠”)提供了新的解決方案。未來,SRDA的理念和技術(shù)也可能延伸至邊緣計算乃至端側(cè)設(shè)備,滿足不同場景下對高效AI處理能力的需求,為構(gòu)建泛在的智能算力網(wǎng)絡(luò)貢獻(xiàn)力量。
  • 賦能下一代AI大模型與復(fù)雜應(yīng)用:當(dāng)前AI模型正朝著更大參數(shù)規(guī)模、更復(fù)雜結(jié)構(gòu)(如多模態(tài)融合、長程依賴處理)的方向發(fā)展。SRDA?提供的超高實際算力、超大內(nèi)存帶寬和容量、各類精度覆蓋,將為這些當(dāng)前受限于硬件能力的下一代AI模型的訓(xùn)練和部署提供堅實基礎(chǔ),催生出更加智能和強(qiáng)大的AI應(yīng)用。
  • 探索AI計算架構(gòu)的范式演進(jìn):作為一種專為AI設(shè)計的領(lǐng)域?qū)S眉軜?gòu),SRDA以數(shù)據(jù)流為中心的設(shè)計理念,以及其在分布式內(nèi)存系統(tǒng)和融合網(wǎng)絡(luò)上的創(chuàng)新,對傳統(tǒng)以控制流為主、依賴共享內(nèi)存和分層網(wǎng)絡(luò)的通用計算架構(gòu)構(gòu)成了重要補(bǔ)充和發(fā)展?;诖?,我們有望進(jìn)一步推動AI芯片設(shè)計向更深層次的軟硬件協(xié)同優(yōu)化和專用化方向發(fā)展,加速形成針對不同AI負(fù)載特征的異構(gòu)計算生態(tài)。SRDA所強(qiáng)調(diào)的可重構(gòu)性,也為應(yīng)對在transformer之上進(jìn)一步快速迭代的AI算法提供了靈活性,我們希望和各方模型伙伴探索演進(jìn)。
  • 構(gòu)建開放與協(xié)作的生態(tài)系統(tǒng):我們期待圍繞SRDA架構(gòu),與AI框架開發(fā)者、模型研究社區(qū)、行業(yè)應(yīng)用伙伴以及上下游供應(yīng)鏈企業(yè)展開深度合作。通過開放部分硬件細(xì)節(jié)、提供完善的SDK和開發(fā)工具、共同定義和優(yōu)化上下游關(guān)鍵組件與芯片的協(xié)同(“芯云一體”、“芯模一體”、“算電一體”等),旨在構(gòu)建一個活躍、共榮的開發(fā)者和用戶社區(qū),加速SRDA技術(shù)的普及和創(chuàng)新應(yīng)用。
結(jié)語

當(dāng)一個場景的技術(shù)需求走向收斂,市場需求從小規(guī)??蒲凶呦虼笠?guī)模應(yīng)用,底層基礎(chǔ)設(shè)施由專用架構(gòu)替代通用架構(gòu)實現(xiàn)最高性價比幾乎是市場的必然選擇,從圖像顯示市場GPU替代CPU,到礦機(jī)市場礦卡替代GPGPU。

玉盤MoonQuest團(tuán)隊從芯片、Infra、應(yīng)用等不同角度看到了當(dāng)前AI計算架構(gòu)下算力瓶頸給AI發(fā)展帶來的限制,于2025年的今天提出SRDA架構(gòu),并推出接下來的相關(guān)芯片,不僅是我們對當(dāng)前AI算力瓶頸的回應(yīng),也是嘗試對未來AI計算領(lǐng)域的發(fā)展可能性提出一次“天問”(A Moonquest)。

近期DeepSeek團(tuán)隊在其新論文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》中從芯片用戶角度對未來AI硬件提出了一些期待,其中很多點和SRDA架構(gòu)的思路不謀而合,也讓我們更有信心SRDA架構(gòu)有機(jī)會成為下一代針對AI大模型場景的更優(yōu)計算架構(gòu)。

我們期待除玉盤外,未來有更多AI大模型計算芯片考慮SRDA,繼模型層、Infra層之后,在硬件層也助力加速AGI的到來。

《SRDA計算架構(gòu)白皮書》:

https://github.com/moonquest-ai/SRDA/tree/main

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
魯媒贊韓鵬:僅用7場就晉升隊史名帥,讓泰山找回久違的強(qiáng)隊感覺

魯媒贊韓鵬:僅用7場就晉升隊史名帥,讓泰山找回久違的強(qiáng)隊感覺

直播吧
2025-09-01 12:53:13
曝滕哈赫已下課!僅執(zhí)教62天,2場不勝,勒沃庫森痛下殺手

曝滕哈赫已下課!僅執(zhí)教62天,2場不勝,勒沃庫森痛下殺手

奧拜爾
2025-09-01 17:56:22
韓國頂流網(wǎng)紅挑戰(zhàn)爬華山,揚(yáng)言中國人體質(zhì)不行,結(jié)果被嚇到喊媽媽

韓國頂流網(wǎng)紅挑戰(zhàn)爬華山,揚(yáng)言中國人體質(zhì)不行,結(jié)果被嚇到喊媽媽

娛樂看阿敞
2025-08-28 16:03:03
“如果穿軍裝的倒下,那么穿西裝的都得跪下!穿裙子的就會躺下!”

“如果穿軍裝的倒下,那么穿西裝的都得跪下!穿裙子的就會躺下!”

阿爾法34號
2025-09-01 10:18:15
90年代,朝鮮1個軍團(tuán)共5萬人叛變,韓國主動派兵接應(yīng),結(jié)局怎樣?

90年代,朝鮮1個軍團(tuán)共5萬人叛變,韓國主動派兵接應(yīng),結(jié)局怎樣?

南書房
2025-08-23 20:35:04
深圳小學(xué)3年級課本只發(fā)7本,防自學(xué)機(jī)制擺上臺面,壓力扔給家長!

深圳小學(xué)3年級課本只發(fā)7本,防自學(xué)機(jī)制擺上臺面,壓力扔給家長!

你食不食油餅
2025-09-01 11:57:49
賽琳娜?戈麥斯訂婚后續(xù)攜新香亮相,白衣造型盡顯新娘般浪漫光彩

賽琳娜?戈麥斯訂婚后續(xù)攜新香亮相,白衣造型盡顯新娘般浪漫光彩

述家娛記
2025-08-31 10:29:22
知情人士爆料王楚欽已于9月1日早上返回北京,無緣晚間對陣林詩棟

知情人士爆料王楚欽已于9月1日早上返回北京,無緣晚間對陣林詩棟

鳳幻洋
2025-09-01 16:26:05
莫迪將不出席抗戰(zhàn)勝利80周年紀(jì)念活動,中方做出回應(yīng)

莫迪將不出席抗戰(zhàn)勝利80周年紀(jì)念活動,中方做出回應(yīng)

一個有靈魂的作者
2025-08-31 20:03:45
許荔莎認(rèn)慫!承認(rèn)照片不是自己拍的,于正保住許凱但趙晴資源沒了

許荔莎認(rèn)慫!承認(rèn)照片不是自己拍的,于正保住許凱但趙晴資源沒了

巷子里的歷史
2025-09-01 17:30:56
汪小菲就是從這個時候開始不愛大S的,鄙夷不屑的眼神太明顯了!

汪小菲就是從這個時候開始不愛大S的,鄙夷不屑的眼神太明顯了!

探源歷史
2025-08-30 07:50:10
銀行存款迎來新變化!9月起,家里有50萬以上存款的注意了

銀行存款迎來新變化!9月起,家里有50萬以上存款的注意了

平說財經(jīng)
2025-09-01 13:57:50
太強(qiáng)了!成都蓉城對陣中超前5未嘗敗績,徐正源劍指中超冠軍有望

太強(qiáng)了!成都蓉城對陣中超前5未嘗敗績,徐正源劍指中超冠軍有望

零度眼看球
2025-09-01 08:55:50
穆里尼奧下課僅3天,前東家不裝了!4700萬簽3位強(qiáng)援,讓穆帥心寒

穆里尼奧下課僅3天,前東家不裝了!4700萬簽3位強(qiáng)援,讓穆帥心寒

球場沒跑道
2025-09-01 17:48:19
九三閱兵僅剩兩天,拒不參加的莫迪,當(dāng)面對華作出3點“承諾”

九三閱兵僅剩兩天,拒不參加的莫迪,當(dāng)面對華作出3點“承諾”

阿天愛旅行
2025-09-01 13:38:52
油耗再降40%,回歸理性消費(fèi)后,成都人不再上頭增程了

油耗再降40%,回歸理性消費(fèi)后,成都人不再上頭增程了

路咖汽車
2025-08-31 11:55:27
1-0!英超慘烈焦點戰(zhàn):3大核心傷退 任意球世界波 10.5億豪門登頂

1-0!英超慘烈焦點戰(zhàn):3大核心傷退 任意球世界波 10.5億豪門登頂

狍子歪解體壇
2025-09-01 01:32:07
中國公布閱兵名單,特朗普終于等到中方回復(fù),八個字讓他徹底死心

中國公布閱兵名單,特朗普終于等到中方回復(fù),八個字讓他徹底死心

混沌錄
2025-08-30 17:26:18
無恥的正史

無恥的正史

漢周讀書
2024-05-08 13:46:41
驚悚又惡心!掀開后密密麻麻,還會動!近期大量上市

驚悚又惡心!掀開后密密麻麻,還會動!近期大量上市

魯中晨報
2025-09-01 11:55:54
2025-09-01 18:27:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11221文章數(shù) 176256關(guān)注度
往期回顧 全部

科技要聞

成都車展眾生相:20個主播圍著拍華為

頭條要聞

訪華結(jié)束之際 莫迪發(fā)文感謝中方

頭條要聞

訪華結(jié)束之際 莫迪發(fā)文感謝中方

體育要聞

林書豪退役了,我們該如何評價他

娛樂要聞

蘇有朋,禍從口出?

財經(jīng)要聞

行情剛好點,創(chuàng)始人立馬漲估值

汽車要聞

激光雷達(dá)上車/配云輦-C 26款海豹07 DM-i全是硬貨

態(tài)度原創(chuàng)

手機(jī)
親子
數(shù)碼
旅游
公開課

手機(jī)要聞

周意保“六個最”預(yù)熱OPPO Find X9:史上最強(qiáng)旗艦標(biāo)準(zhǔn)版

親子要聞

白血病專挑孩子下手,中科院再三提醒:這6種食物,能不吃就不吃

數(shù)碼要聞

階躍星辰發(fā)布端到端語音大模型 Step-Audio 2 mini

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版