創業詞典網 創業知識學習分享

加入收藏

您所在的位置:首頁 > 資訊 > 最新資訊

最新資訊

英偉達新核彈,站在蘋果的肩膀上

分類: 最新資訊 創業詞典 編輯 : 創業知識 發布 : 03-28

閱讀 :150

2024GTC大會上,黃仁勛右手B200,左手H100,理所當然地有了新人忘舊人: “我們需要更大的GPU,如果不能更大,就把更多GPU組合在一起,變成更大的虛擬GPU。”英偉達公布的Blackwell架構的B200 GPU,親手把網紅顯卡H100拍在了沙灘上。按照黃仁勛的介紹,B200理論上的AI性能可達20PFLOPS,是H100的五倍。相比H100的800億晶體管規模,B200的晶體管規模高達2080億。一般來說,芯片算力提升的最常用方法是采用先進制程,用更高的密度在芯片里塞進更多晶體管。如摩爾定律所說:集成電路上可以容納的晶體管數目,大約每經過18個月到24個月便會增加一倍。比如采用7nm工藝的A100 GPU,芯片(Die)面積為826mm2,內有542億晶體管;采用5nm(臺積電N4)工藝的H100,芯片面積縮小為814mm2,晶體管數量反而暴漲至800億。然而,B200在晶體管數量提高近三倍的同時,并沒有用更先進的3nm工藝,而是采用了和H100一樣的5nm工藝。黃仁勛所說的“大”和“組合”,是字面意義上的:從技術原理看,B200其實是把兩塊芯片“拼”成了一個大芯片。在英偉達的PPT演示里,兩顆GPU從邊緣“無縫粘合”在一起,面積X2的同時,算力翻倍。1+1=2的方法看似簡單粗暴,背后卻是一場在物理學邊緣的沖鋒與冒險。1+1有時候不等于2工廠提高生產力有兩種辦法:一是擴建廠房,裝進更多的生產線;二是升級生產線,在廠房面積不變的情況下,增加生產線數量。芯片公司一直以來都在采用第二種方法:通過生產線創新(工藝制程),在有限的芯片面積里塞進更多晶體管,避免擴建廠房帶來的房租成本上漲。但這種方式的局限性在于,生產線創新(工藝制程)對應的研發成本越來越高,甚至有高過房租的趨勢。H100采用的5nm工藝,很可能就是GPU量產的極限制程,繼續下探到3nm,很可能成本上吃虧。擴建廠房的確是一個辦法,但放在芯片生產上,會遇到一個中國人很熟悉的問題:土地供應有限。每一顆芯片都是從12寸的硅晶圓(土地)上“切”下來的,那么芯片(廠房)面積越大,每塊晶圓能“切”出來的芯片就越少。再考慮到良率和大面積芯片的散熱問題(施工事故),單個芯片成本會成倍提高。由此衍生出了第三種思路:建一個一模一樣的廠房,讓兩個廠房同時生產,既避開了成本問題,又提高了生產效率。這種方法聽上去簡單,但實踐起來難于登天。芯片在執行計算任務時需要經歷兩個階段:數據傳輸和計算,數據傳輸花費時間過多,計算“空載”,就會造成算力的浪費。就像兩間廠房需要一個工頭傳達指示,工頭在A廠房發表講話時,B廠房的工人都在摸魚。這就導致在一塊主板上封裝10顆芯片,性能非但不會提高10倍,反而很可能連兩倍都不到。2011年,英偉達發布了GTX590顯卡,最大特點是在一個PCB板上裝了兩顆GPU芯片。但在具體的游戲中,想同時調用兩顆GPU的算力,不僅需要專門的軟件支持,性能也只有單顆芯片的130%左右。原因就在于,大量的算力被低效的數據傳輸浪費了。GTX590顯卡里有兩顆GPU芯片為了解決產線工人趁著工頭不在消極怠工的問題,英偉達團隊在2017年發表論文,提出了名為“可組合封裝GPU”的架構,核心在于將多顆GPU集成在同一個芯片封裝內。傳統的芯片封裝是“先封再拼”,即兩顆芯片封裝完畢,再用導線連接。英偉達的方案是“先拼再封”,先把兩顆芯片拼成一個大芯片,再封裝到一起。把芯片(廠房)之間的物理距離縮減到0,工頭傳遞指示,兩邊的工人同時學習貫徹,降低數據傳輸時間,實現1+1=2。幾個月后,老對手AMD表示論文誰不會寫,刊發論文展示了4顆GPU集成在同一封裝內的設計,宣稱其性能比當時的最強GPU還要高45.5%,并且coming soon。但無論是英偉達還是AMD,都沒能把這個方案真正“soon”出來。第一個讓1+1=2的,是蘋果。蘋果的超能力就是有錢2022年,蘋果發布了M1 Ultra芯片,其最大特點是直接將兩顆M1 Max芯片“粘合”在一起,變成一張大芯片,業內戲稱“膠水大法”。1+1=2的意義正如蘋果在新聞稿中所說:M1 Ultra 在工作時依然表現出一枚芯片的整體性,也會被所有軟件識別為一枚完整芯片,開發者無需重寫代碼就能直接運用它的強大性能。這在史上從無先例。M1 Ultra由兩顆一模一樣的M1 Max芯片拼接而成蘋果之前,幾乎所有的“縫合”方案,都無法解決芯片在連接過程中產生的損耗,使得性能往往“1+1<2”。M1 Ultra的背后,是一個名為UltraFusion的“縫合技術”。按照蘋果官方的說法,Ultra Fusion由蘋果與臺積電共同研發。但從經驗看,蘋果發揮的最大作用,是以“技術冠名費”的方式,報銷了臺積電的研發開支。兩顆芯片的縫合,核心是要解決芯片間的數據傳輸問題。為了實現“無縫粘合”,蘋果用上了臺積電最昂貴、最先進的封裝技術——第五代CoWoS-S。[2]傳統的傳輸方式是將兩顆芯片封裝在一塊基板上,芯片之間的傳輸由引線解決。CoWoS方案在基板和芯片之間加了一層硅中介層,通過在硅中介層里布線,間接將兩顆小芯片連接起來,連接密度是現有技術的兩倍。這個技術的關鍵就在于硅中介層,也是燒錢的根源。硅中階層本質上是一片硅晶圓,也就是“切”芯片的原材料。僅僅為了做連接,就要另加一層硅晶圓的費用,這手筆恐怕只有蘋果做得出來。后來,英偉達在H100上采用了更成熟的CoWoS,成本仍超過4000美元。蘋果作為最初的試錯者,成本只會更高。除了CoWoS,蘋果的錢還燒在了“縫合”技術上[2]。芯片制造的本質,是在硅晶圓上刻畫復雜電路。但在實際制造過程中,電路不是直接刻在硅晶圓上的,而是先刻在一個掩膜版上,再通過光刻和刻蝕把電路“轉移”到硅晶圓上。英偉達當年遇到的問題是,GPU芯片本身面積就大,一旦兩顆GPU拼接,就會超過正常掩膜版的大小(H100的面積已經接近臺積電5nm掩模版的極限),電路就無法被完整地刻畫。蘋果提出的解決方案是,1個掩膜版不夠,咱直接上四個吧。通過四個掩膜版“縫合”,將電路刻畫的面積增加到2500mm2,是英偉達同期GPU的3倍多(815mm2)。在芯片制造中,很大一部分成本就來自掩膜版制作。掩膜版生產需要Mask Writer(掩膜版寫入機),精密程度堪比光刻機。而且Mask Writer只在掩膜版制作時使用,每種芯片只做一次,難以攤薄成本。除此之外,由于Ultra Fusion用到了大量新技術,比如連接芯片的高縱橫比硅通孔(TSV)技術,用于散熱的新型非凝膠型熱界面材料(TIM)等[2],臺積電都是拿著發票找蘋果報銷的。M1 Ultra發布時,業界都沒有準確的成本推算。不是研究員水平不到位,實在是技術過于先進,算不出來。高科技產業最關鍵的問題不是技術如何實現,而是誰來掏錢把論文和實驗室里的數據變成可以量產的產品。不知道看著M1 Ultra的拼接示意圖,會不會有久遠的記憶攻擊黃仁勛。技術狂人的商業冒險最早試圖解決的1+1<2問題的,既不是英偉達也不是蘋果,而是臺積電元老蔣尚義。2009年,回歸臺積電的張忠謀請回已經退休的蔣尚義。 在后者帶領下,臺積電以“后閘級”技術路線成功超越三星率先量產28nm工藝。 但在研發過程中,蔣尚義發現晶體管單位制造成本不降反升,制程升級提升性能的性價比開始降低。拿著張忠謀批的1億美元預算和400多人的工程師團隊,蔣尚義帶隊開始了“超越摩爾計劃”。傳統互聯技術下,傳輸速率已經觸及天花板。蔣尚義開始嘗試一種新思路:把兩顆芯片放到一起封裝,物理距離縮短了,傳輸速度自然提高。為了區別于傳統封裝,蔣尚義將其命名為“先進封裝”。2011年,臺積電得到FPGA大廠賽靈思訂單,憑借CoWoS以及共同開發的硅通孔(TSV)等技術,成功將4個28nm FPGA芯片拼接在一起,推出了史上最大的FPGA芯片。然而,大部分客戶對CoWoS興致寥寥,賽靈思的訂單杯水車薪。不是臺積電技術不夠好,實在是先進封裝太貴了。老客戶高通的高管在與蔣尚義共進午餐時直白表示,CoWoS技術很好,但“我只愿意為它花費1美分/平方毫米”,而臺積電當時的售價是7美分/平方毫米[3]。據說英偉達也是臺積電CoWoS的第一批目標客戶之一,因為數據傳輸的瓶頸一直是困擾GPU計算的核心問題。但聽到臺積電的報價后,英偉達當場表示,老技術還能再湊合幾年[3]。另一方面,先進制程還在穩步推進,先進封裝的理念顯得過于超前,畢竟領導還在開卡羅拉,你就別急著換寶馬了。因此,先進封裝團隊在臺積電內部的一度邊緣化,甚至被當做老干部療養院。后來跳槽三星的梁孟松,就認為自己被調往先進封裝業務屬于“下放”。隨后,臺積電開始給CoWoS做減法,掏出了替代方案“InFO”,將昂貴的硅中介層換成其他材料,犧牲了連接密度,但成本大幅下降。緊接著,臺積電遇到了可以靠一己之力改變供應商命運的超級甲方:蘋果。2013年前后,由于與三星在手機市場的競爭,蘋果開始將芯片代工交由臺積電。憑借InFO方案,臺積電在16nm工藝的基礎上,制造出了比三星14nm性能更強的A10處理器,貢獻了歷代iPhone中第二輕薄的iPhone 7[5]。有了蘋果的大單的,臺積電的先進封裝業務迅速盤活,并在2022年拿出了震驚業界的M1 Ultra芯片。2024年開年,這個攻堅十多年的“膠水大法”,又被用在了英偉達的新核彈B200上。英偉達順勢拿下冠名權,將這項技術命名為“NV-HBI”。先進封裝方案依然昂貴,但對今天的英偉達來說,成本兩個字怎么寫,他們可能已經忘了。尾聲除了CoWoS,另一個被生成式AI帶火的技術HBM,其探索同樣可以追溯到十年前。CoWoS拿到賽靈思的第一筆訂單時,蔣尚義大喜過望,但賽靈思的動機卻讓他有些哭笑不得:把四個老芯片拼在一起,直接當成新產品加價賣,就不用自己開發新產品了[3]。在美國計算機歷史博物館的采訪中,蔣尚義回憶道[3]: “我開發技術的初衷是解決性能瓶頸問題,在我看來,我的創新并沒有被用在好的地方”。科技革命很難推動技術創新,反而是技術創新讓科技革命成為可能。創造歷史的人,永遠無法預見自己在歷史進程中的坐標。在我們不曾踏足的物理學的邊境,還有無數偉大的創新尚在不為人知的角落。參考文章:[1] NVIDIA Blackwell Architecture and B200/B100 Accelerators Announced: Going Bigger With Smaller Data,Anandtech[2] 蘋果UltraFusion技術,廈門云天半導體[3] 蔣尚義萬字自述,披露臺積電的登頂之路,新芽[4] 臺積電的先進封裝是這樣煉成的,天下雜志[5] 蘋果iPhone 7 A10處理器的新封裝在技術和商業上都產生了巨大的影響,Yole Development[6] 蘋果M1 Ultra解密:業內首個GPU裸片集成,如何實現,集微網[7] Apple Will Help TSMC to Be in the Leading Position in the Next Era,utmel編輯:李墨天視覺設計:疏睿責任編輯:李墨天封面圖片來自ShotDeck
03-28

下一篇:純電方盒子帶來大空間寶駿悅也Plus內飾官圖首發 下一篇 【方向鍵 ( → )下一篇】

上一篇:淘寶內容電商公布新財年KPI:GMV同比增長80%,用戶增長翻倍 上一篇 【方向鍵 ( ← )上一篇】

主站蜘蛛池模板: 无码丰满熟妇一区二区| 中文无码热在线视频| 久久av高潮av无码av喷吹| 成人无码嫩草影院| 一夲道无码人妻精品一区二区| 久久久久亚洲AV无码麻豆| 人妻少妇看A偷人无码精品| 国产AV无码专区亚洲AV男同| 亚洲精品无码久久久久秋霞| 亚洲av永久无码精品古装片| 国产激情无码一区二区三区| 影音先锋中文无码一区| 性无码免费一区二区三区在线| 一级电影在线播放无码| 在线无码午夜福利高潮视频| 日韩一区二区三区无码影院| 亚洲AV永久无码区成人网站| 东京无码熟妇人妻AV在线网址| 无码丰满熟妇一区二区| 无码中文av有码中文a| 久久精品国产亚洲AV无码娇色| 亚洲乱码无码永久不卡在线| 国产强伦姧在线观看无码| 无码精品人妻一区二区三区影院| 无码中文人妻在线一区二区三区| 亚洲av永久无码精品三区在线4 | 亚洲欧洲美洲无码精品VA| av无码精品一区二区三区四区| 成人年无码AV片在线观看| 久久久久亚洲AV无码去区首| 无码无套少妇毛多18PXXXX| 国产久热精品无码激情| 色欲AV永久无码精品无码 | 国产台湾无码AV片在线观看| 国产精品无码一本二本三本色 | 亚洲午夜无码久久久久小说| 高清无码午夜福利在线观看| 久久无码专区国产精品发布| 无码熟妇人妻AV在线影院| 成人免费a级毛片无码网站入口| 亚洲精品无码mⅴ在线观看|