電廠|英偉達(dá)再推「中國特供版」AI芯片:人工智能競(jìng)爭中的貓鼠游戲
記者 肖余林編輯 高宇雷在中美人工智能的激烈競(jìng)爭中,英偉達(dá)成為了游弋在政治和商業(yè)中尋找利益最大化的「鯊魚」。美國商務(wù)部產(chǎn)業(yè)與安全局(BIS) 1017 新規(guī)已經(jīng)在 11 月 16 日生效,英偉達(dá)針對(duì)中國市場(chǎng)推出的「特供版」 A800 和 H800 芯片遭到出口合規(guī)限制,無法向中國客戶出售。然而,11 月 9 日有消息透露,英偉達(dá)將推出三款針對(duì)中國市場(chǎng)的 AI 芯片,包括 H20、L20 和 L2 三款,并列出了詳細(xì)規(guī)格。隨后,英偉達(dá)在業(yè)績會(huì)上確認(rèn),將努力爭取高性能產(chǎn)品在中國市場(chǎng)的銷售許可,也會(huì)研發(fā)更多合規(guī)的數(shù)據(jù)中心產(chǎn)品組合。「我們正在努力擴(kuò)展我們的數(shù)據(jù)中心產(chǎn)品組合,以提供不需要許可證的新法規(guī)合規(guī)解決方案,這些產(chǎn)品可能會(huì)在未來幾個(gè)月內(nèi)上市。」11月 24 日,據(jù)路透社報(bào)道,兩位消息人士透露,英偉達(dá)已告知中國客戶,H20 發(fā)布時(shí)間將推遲到明年第一季度。L20 芯片不會(huì)延期,并將按照原定計(jì)劃推出。消息人士無法分享有關(guān) L2 狀態(tài)的信息。1017新規(guī)是 BIS 推出的第二個(gè)版本的限制措施,這一版本比第一個(gè)版本更加嚴(yán)格,根據(jù)芯片的總處理性能(TPP)和性能密度劃出限制條件,符合任一條件即認(rèn)為處于管制范圍。特供版如何突破封鎖根據(jù) Semianalysis 透露的規(guī)格參數(shù),H20、L20 和 L2 三款芯片的性能被大幅壓縮。以 H20 為例,這款芯片的峰值算力最大理論值僅為 296 TFLOPs,數(shù)字上還不如消費(fèi)級(jí)的游戲顯卡。作為比較,熱門的 H100 芯片的這一數(shù)值為 1979 TFLOPs,消費(fèi)級(jí)的 RTX 4090 顯卡為 661 TFLOPs。這樣的壓縮顯然是為了限制總處理性能和性能密度,以避開精心設(shè)計(jì)的封鎖條件:- H20的總處理性能為2368,性能密度僅為 2.9,小于 3.2 的管制許可值;- L20的總處理性能為1912,但性能密度為 3.1,小于 3.2 的管制許可值;- L2的性能密度為 5.2,但總處理性能僅為1544,小于 1600 的管制許可值。大幅壓縮參數(shù)之后,三款芯片仍然有眾多耐人尋味的地方。H20有比 H100 更高的緩存和帶寬,支持英偉達(dá)第四代 NVLink 連接,連接速度保留了 900 GB/s 滿速。這保證了多卡增強(qiáng)效果的實(shí)現(xiàn),在實(shí)際多卡互聯(lián)環(huán)境中,H20 組合性能接近 H100 的 50%。不過,H20 的側(cè)重點(diǎn)在模型推理環(huán)節(jié),不需要承擔(dān) H100 那樣的預(yù)訓(xùn)練任務(wù)。由于采用了與英偉達(dá)下一代 GPU 相似的核心,Semianalysis 推算,H20 在大模型推理運(yùn)算中比 H100 還要快 20%,這將極大提高大模型產(chǎn)品在應(yīng)用端的表現(xiàn)。比如,運(yùn)行 Meta 700 億參數(shù)的 LLAMA 模型需要兩個(gè) H100,但只需要一個(gè) H20。L20和 L2 分別替代此前遭到管制的 L40 和 L4,更適合用于工作站等領(lǐng)域。L20 和 L2 采用了跟 RTX 4090 同樣的 Ada Lovelace 架構(gòu),其中,L20 使用的是 RTX 4090 同款的 AD102 GPU 核心。此前國內(nèi)有 RTX 4090 顯卡 DIY 工廠被曝出,買家大量囤積 RTX 4090,通過拆解出 GPU 核心,再外置鼓風(fēng)機(jī)風(fēng)冷的方式,讓多卡組合適配 AI 服務(wù)器工作。考慮到國內(nèi)客戶的 DIY 能力,且由于 L20 在生產(chǎn)中不涉及產(chǎn)能受限的 CoWoS 封裝環(huán)節(jié),因此能夠短時(shí)間內(nèi)推向市場(chǎng),緩解很多買家的算力慌。誰還需要「特供版」聯(lián)想集團(tuán)董事長兼 CEO 楊元慶曾表示,目前大多數(shù)大模型都在算力較強(qiáng)的公有云上訓(xùn)練。未來,大模型的計(jì)算負(fù)載將逐漸由云端向邊緣側(cè)和端側(cè)下沉。越來越多的人工智能的推理任務(wù)將會(huì)在邊緣和設(shè)備端進(jìn)行。英偉達(dá)的第一代「特供版」芯片 A800 和 H800 有 11 個(gè)月的出口窗口期,平臺(tái)公司利用這一窗口期大量采購。市場(chǎng)上有消息稱,百度、字節(jié)跳動(dòng)、騰訊和阿里已向英偉達(dá)訂購了價(jià)值 10 億美元的共約 10 萬張 A800 芯片,將于年內(nèi)交付,另外價(jià)值 40 億美元的芯片將于 2024 年交付。騰訊曾發(fā)布公開聲明稱,儲(chǔ)備了大量的 A800 和 H800 芯片,足夠支持好幾套 AI 大模型的訓(xùn)練。可以預(yù)見,第一代「特供版」將成為公有云算力的重要來源,承擔(dān)大模型的預(yù)訓(xùn)練任務(wù)。第二代「特供版」把重點(diǎn)放在了大模型推理運(yùn)算環(huán)節(jié)上,這一環(huán)節(jié)更靠近應(yīng)用端,對(duì)算力要求相對(duì)于模型預(yù)訓(xùn)練更低,更多的要求是在短時(shí)間內(nèi)處理大量的輸入數(shù)據(jù)。AI大模型訓(xùn)練涉及到眾多環(huán)節(jié),從 OpenAI 到創(chuàng)業(yè)公司,普遍面臨缺少訓(xùn)練數(shù)據(jù)的情況,特別是垂直領(lǐng)域當(dāng)中與業(yè)務(wù)有關(guān)的數(shù)據(jù)。電廠記者從業(yè)內(nèi)人士那里了解到,很多行業(yè)在上一輪數(shù)字化轉(zhuǎn)型當(dāng)中沒能做好,導(dǎo)致在 AI 落地方面缺少數(shù)據(jù)。低數(shù)據(jù)量會(huì)造成應(yīng)用端表現(xiàn)差,直接影響前端的表現(xiàn),進(jìn)而無法沉淀更多數(shù)據(jù)出來。因此,中小企業(yè)和個(gè)體創(chuàng)業(yè)者急需大模型落地,用相對(duì)不高的算力啟動(dòng),用時(shí)間把數(shù)據(jù)跑出來。這次的三款特供版芯片,也針對(duì)這一趨勢(shì),面向更多「邊緣」客戶。英偉達(dá)此前就有布局,為了幫助更多沒有拿到足夠算力的中小企業(yè)和個(gè)體創(chuàng)業(yè)者。英偉達(dá)在 10 月份針對(duì) Windows 平臺(tái)推出了 TensorRT-LLM,這個(gè)模型可以幫助運(yùn)行在 Windows 設(shè)備的大模型更好地利用 RTX 顯卡和 GPU 的性能。根據(jù)英偉達(dá)的說法,這樣的設(shè)備超過 1 億臺(tái)。「特供版」還是「煙霧彈」美國商務(wù)部 1017 新規(guī)的生效時(shí)間是 11 月 16 日,正是傳言中 H20 的發(fā)布日期。H20 「原計(jì)劃」將在 11 月 16 日發(fā)布,在 12 月量產(chǎn),但后來推遲到明年一季度。黃仁勛在業(yè)績會(huì)上也提到,「我們將確保與美國政府充分討論我們?cè)谶@些產(chǎn)品上的意圖。」很顯然,英偉達(dá)要留出時(shí)間窗口,等待監(jiān)管方的反應(yīng)。那么,H20 首先是一枚煙霧彈。從 BIS 1017 新規(guī)中表現(xiàn)出的「哪里漏了補(bǔ)哪里」的特點(diǎn)來看,英偉達(dá)在與 BIS 的這場(chǎng)貓鼠游戲中占有主動(dòng)權(quán),有更豐富的技術(shù)儲(chǔ)備和應(yīng)對(duì)思路。一旦 H20 進(jìn)入安全通道,更多「特供版」也會(huì)陸續(xù)到來。可另一方面,即便英偉達(dá)主動(dòng)推出「特供版」,也要考慮市場(chǎng)容量和產(chǎn)能。英偉達(dá) H100 還在消化訂單,H200 排隊(duì)到明年二季度,整個(gè)供應(yīng)瓶頸卡在臺(tái)積電的 CoWoS 封裝環(huán)節(jié)。H20 同樣使用臺(tái)積電的 CoWoS 封裝,這意味著 H20 即便繞過監(jiān)管,交付時(shí)間也可能比傳聞更長。由于出口限制措施,英偉達(dá)沒有在算力上實(shí)現(xiàn)突破,但 H20 在中國市場(chǎng)仍然是一款一魚多吃的產(chǎn)品。H20 買家將更依賴 NVLink 技術(shù),英偉達(dá)也能借此鞏固自己 CUDA 軟件平臺(tái)的護(hù)城河。相應(yīng)的,H20 買家在后續(xù)考慮國產(chǎn)替代時(shí),就要承擔(dān)額外的遷移成本。等待時(shí)間越久,這枚「特供版」芯片的命運(yùn)也會(huì)愈發(fā)撲朔迷離。
11-30