GTC是英偉達一年一度的技術盛會。在今年4月13日的GTC上,英偉達CEO黃仁勛依舊在廚房、依舊穿著皮衣面向全球用戶進行著網絡直播。不過和2020年“端出來”一整盤A100相關GPU不同的是,今年的GTC 2021,黃仁勛“端”出來的是ARM架構的CPU、數據加速DPU以及面向汽車駕駛的SoC等產品。尤其是CPU的發佈,迎來業內一片討論熱潮。這一次英偉達打算做什麼?ARM架構的CPU登場,意味著英偉達計劃和英特爾正面廝殺瞭嗎?
英偉達一直是一個銳意擴張的企業。從GPU起傢,隨後進入圖形計算、視覺計算市場,在多年耕耘後,終於乘上瞭AI計算的東風。現在的英偉達已經發展成為一傢以人工智能計算為主,控制瞭大部分視覺計算市場和資源,並逐漸進入服務器、HPC市場的超大規模企業。其股票也從早期的數美元,一路暴漲至近期的600美元左右,公司市值也已經逼近4000億美元,遠遠超過市值2800億美元,擁有全產業鏈、全系列制造技術的英特爾,風頭無兩。
這些數據和成就的背後,英偉達銳意進取的態度和不斷擴張的商業手段是關鍵。就在最近的2020年,英偉達宣佈將收購ARM,希望借此進入移動GPU、移動CPU以及ARM相關處理器市場並掌控移動計算和其延伸產業的發展方向。雖然這項收購目前被包括美國、英國企業在內的多傢企業明確反對,卻也沒有影響到英偉達和ARM越來越深入的合作,並且合作的結果很快也顯現出來。
▲英偉達如果成功收購ARM,將建立起又一個巨無霸產業體系,但是現在看起來這個並購的確路阻且長。
在筆者看來,在2021年的GTC大會上,英偉達的最大新聞並不是發佈瞭DPU和全新面向汽車行業的SoC,而是帶來瞭代號為“Grace”的CPU產品(後文簡稱Grace CPU)。這款產品將用在英偉達即將推出的數據中心產品中,並搭配英偉達下一代GPU產品,實現英偉達在數據中心、HPC以及計算設備上的CPU+GPU“大一統”。
▲GTC 2021上,英偉達又發佈瞭大量的新品。
Grace CPU的發佈,在業界迅速掀起瞭巨大的波瀾。英偉達的股價從發佈會之前的550美元左右一舉沖上瞭630美元。與此對應的是英特爾的股價大跌7%,AMD的股價也受到瞭影響。部分市場分析人士也認為英偉達的Grace CPU是對英特爾的正面沖擊。那麼,事實真的是如此嗎?英特爾是否真的危險瞭呢?
▲發佈會後英偉達股票一度沖高至645美元以上,本文截稿前回落至594美元。
Grace CPU:從發佈會說起
要明確Grace CPU的影響,可以從現有的資料和情況進行分析。在GTC 2021上,英偉達提到Grace CPU將用於“計算領域的細分市場”;Grace CPU采用的是“Arm Neoverse”內核,其CPU在SPECrate2017_int_base基準測試中的分數超過瞭300分;Grace CPU和GPU的連接部分則采用瞭第四代NVLink,CPU到GPU的帶寬超過900GB/s;內存則采用的是LPDDR5。英偉達表示,Grace CPU將搭配英偉達的GPU,配合瑞士國傢計算中心建造一個算力可達20Exaflops的超算。另外,美國洛斯阿拉莫斯國傢實驗室也在考慮使用Grace CPU和GPU搭建全新的超算系統。
▲英偉達在發佈會上為不同類型的計算所需要的硬件做瞭分類
根據英偉達在本次大會後發佈的白皮書,我們可以進一步分析:Grace CPU所使用的“Arm Neoverse”應該不是現在ARM發佈的版本,而是采用下一代Armv9指令集的新Neoverse架構,這也和Grace CPU計劃在2023年初上市在時間上相吻合。結合ARM在前段時間剛剛公佈瞭全新的Armv9架構,可以確定Grace CPU肯定將引入Armv9指令集新加的大量功能。根據ARM官方內容,Armv9指令集主要是增強面向矢量、機器學習和數字信號處理器的相關內容,這和英偉達在Grace CPU上的訴求是高度相似的。
▲Grace CPU是本次發佈會輿論關註的焦點。圖中左側芯片為Grace CPU示意圖。
▲Armv9指令集不僅局限於傳統的移動設備上,包括PC、超算以及服務器集群都可以采用該指令集,其用途也獲得瞭極大拓展。
另外,英偉達在隨後的新聞稿中也提到,Grace CPU是高度專業化的、面向巨型人工智能和HPC的產品,可以訓練擁有超過一萬億個參數的NLP模型。英偉達還提到“今天最大的人工智能模型包括數十億個參數,並且每兩個半月翻一番。訓練它們需要一種新的CPU,可以與GPU緊密結合,消除系統瓶頸”。
俗話說,聽話聽音。雖然英偉達在發佈會上並沒有透露太多Grace CPU的信息,但是英偉達還是帶來瞭很多關鍵點,比如Grace CPU面向的是一個比較窄且專業的領域、對帶寬的需求是極其巨大,其本身性能表現比較2021年的產品還是可以的,已經逼近AMD EPYC 7763這種當前x86架構下最強的CPU,但考慮其2023年才發佈,這個訴求也並不誇張。顯然,Grace CPU是用來幫助英偉達解決一個棘手問題的產物,解決這個問題可能並不會針對誰,但它帶來的影響和餘波卻真的會影響到現在的行業格局。
▲早在2008年,英偉達就推出瞭基於ARM架構,適用於移動設備的NVIDIA Tegra系列芯片,圖中為Tegra 2和Tegra 3。
AI計算:核心的問題是帶寬
那麼,英偉達需要解決的問題是什麼?我們繼續來看GTC 2021上黃仁勛的演講。在演講中,黃仁勛特別提到,英偉達並不否認x86設備存在的意義,英偉達依舊認為x86設備擁有靈活的擴展性和對各類設備的支持,x86依然是目前HPC或者服務器應用場合的重點。不過問題來瞭,英偉達認為x86設備目前存在一些困難,其中比較典型的就是帶寬不足。
英偉達的例證顯示,目前x86設備的核心是x86 CPU,x86 CPU通過內存控制器連接DDR4內存,最新的英特爾至強處理器可以實現8通道DDR4內存連接,其帶寬大約為200GB/s,但是和GPU連接的帶寬隻能依靠PCIe 4.0 x16,帶寬大約隻有16GB/s(雙向32GB/s),同時GPU本地內存(顯存)的帶寬在使用HBM2的情況下大約可以達到2000GB/s。
▲英偉達認為x86系統的核心問題是帶寬
在這種情況下,當一個巨大的AI計算模型被讀入系統需要CPU交由GPU計算的時候,GPU將其從主內存拷貝至本地內存(顯存)的帶寬僅為64GB/s—英偉達在這裡的計算還是比較寬泛的,因為英偉達考慮到瞭1個CPU連接瞭4個GPU。每個GPU都可以使用16GB/s的帶寬從CPU主內存中讀取數據,因此4個加起來的帶寬就是16×4=64GB/s。
這裡的瓶頸顯然就是CPU到GPU,如果說GPU本身的帶寬是8車道高速公路的話,那麼CPU本地帶寬也許可以比作4車道的城市道路,而CPU到GPU的帶寬隻能看成一般的鄉村道路瞭。從2000GB/s到200GB/s再到16GB/s,這裡的數據帶寬跌落是以數量級的形式存在的,這顯然不符合現代計算設備對數據帶寬的強烈“渴求”。
為瞭解決這個問題,英偉達也想瞭很多辦法,比如遊說業內企業采用自傢更高速的總線NVLink,不過到目前為止隻有IBM的Power傢族處理器給予瞭支持,其餘的包括英特爾和AMD在內的企業都沒有給予回應。考慮到Power處理器昂貴的價格以及其並不可能被英偉達完全掌控,因此英偉達開始慎重地考慮自己建立CPU平臺。終於在購買瞭ARM授權並宣佈收購ARM後,英偉達推出瞭Grace CPU,並希望借此來解決前述的帶寬問題。
▲英偉達引入瞭Grace CPU,解決帶寬問題。
根據英偉達的規劃,Grace CPU和GPU的連接通道不再是傳統的PCIe,而是改用瞭第四代NVLink,其可以提供高達500GB/s的數據帶寬。Grace CPU的內存控制器改用LPDDR5X,英偉達沒有公佈其具體的位寬情況,但是給出瞭一個數據帶寬為500GB/s。
目前還不知道英偉達如何達到如此高的CPU帶寬,因為這裡存在一個很大的問題是LPDDR5X應該是32bit的顆粒,以現在LPDDR5最高6400MT/s的速率來計算的話,LPDDR5X速率可能最高在8000MT/s左右。這樣一來,Grace CPU的內存位寬需要達到512bit才能實現大約500GB/s的帶寬,也就是支持16個內存通道,這對一款CPU來說是非常不可思議的,並且Grace CPU還擁有第四代NVLink總線用於和GPU連接。這意味著CPU內部大量的面積和晶體管需要用於外部接口和高速總線。
根據英偉達公佈的Grace CPU搭配下一代Hopper GPU的示意圖來看,Grace CPU內部的CPU部分劃分為4個區域,每個區域擁有24個核心,總計有96個核心,再加上周圍大量的總線和相關接口,Grace CPU的面積應該不會太小,我猜測其尺寸應該和隔壁的Hopper GPU相差不多。考慮到類似的NVIDIA A100 GPU面積已經超過800mm²,因此Grace CPU在2022~2023年的3nm或者更先進的工藝加持下,其包含的晶體管面積應該非常大,而且成本不低。
耗費瞭如此巨大的成本之後,英偉達獲得瞭夢寐以求的針對AI計算以及氣候、材料科學、高級天氣計算等高帶寬HPC解決方案。
▲目前已經有多款超算對英偉達的Grace CPU搭配GPU產生瞭興趣,圖為即將到來的擁有20E的算力。
根據黃仁勛的介紹,除瞭HPC外,面向行業用戶的新產品,英偉達將集成8個Grace CPU,每個提供500GB/s的內存和500GB/s的NVLink帶寬,8個Grace CPU搭配GPU後將使得內存到GPU的數據讀取帶寬提升至4000GB/s,這對大型或者超級大的AI計算模型來說是非常有利的,尤其是相比PCIe總線—即使是2023年PCIe 5.0上線,讀取帶寬翻倍,屆時8個PCIe 5.0 x16通道的帶寬也應該隻有大約256GB/s,即使到時候PCIe 6.0都已經發佈並在產品中部署(可能性不大),同等條件下其帶寬也僅僅隻有512GB/s,大約隻有英偉達Grace CPU+GPU方案的1/8。
▲英偉達規劃瞭GPU、CPU和DPU三個產品線,每年都會規律的更新其中一種。
▲英特爾新任CEO基辛格此前公開回應認為,英偉達並沒有真正對其數據中心業務構成迫在眉睫的威脅。
影響巨大:重新細分計算市場
從上文的分析可以看出,英偉達推出Grace CPU和相關產品的目的是為瞭解決AI計算和類似超大規模計算中存在的帶寬問題。畢竟在現有的x86架構下,帶寬已經嚴重制約瞭這類計算的發展。因此從這一點來看,Grace CPU可能能夠重塑現有AI計算的市場,從而更加鞏固英偉達在AI計算市場中的地位。
對英偉達來說,AI計算是其股價飆升的關鍵,並且英偉達現在已經是事實上成為AI行業的風向標。Grace CPU發佈後,英偉達將在已經非常火爆的AI計算市場中再次細分出一個區域—也就是本文提到的,不依賴x86架構,以英偉達和ARM為主要計算架構供應者的全新AI計算生態圈。
▲英特爾對AI計算市場也是虎視眈眈,在CPU中就直接嵌入瞭AI加速相關指令集。
這個AI計算生態圈解決瞭之前AI計算對帶寬的“渴求”,通過Grace CPU、英偉達的GPU、NVLink、LPDDR5X等為大規模數據、超大規模數據的AI計算需求提供瞭解決窗口。對於這類全新產品,再加上附加的英偉達CUDA和相關AI的軟件產業圈,應該很快就可以打開市場,為AI計算的發展帶來全新的方向。
其次,英偉達的Grace CPU並非針對英特爾和AMD的x86產品,它們在定位上的差距還是比較大的。正如前文所說,英偉達的Grace CPU在性能方面並不是重點,根據英偉達公佈的數據,其整數算力目標是在SPECrate2017_Int_base中提供300分以上的成績,浮點算力目標值暫時未知。Grace CPU的重點依舊是解決CPU和GPU互聯中的帶寬問題,並且英偉達也提到並不排除x86計算市場,英偉達的目標是為所有計算市場都提供可匹配的產品。另外,目前x86市場已經形成瞭一個龐大且擁有長久歷史積累的生態圈,任何企業面對這個龐然大物首先想到的應該是加入,而不是直接挑戰。
▲英特爾準備瞭多款Xe GPU,準備集中火力,一舉攻入英偉達的大本營。
不僅如此,英偉達在CPU上的努力都會成為該公司在未來發展的助力。畢竟現在擁有一個完整、閉環的產業生態是所有企業發展的目的。英特爾在GPU上努力,AMD在軟件和產業圈上努力,英偉達自然應該在CPU上努力。如果英偉達借助ARM的指令集和生態圈,在企業級、服務器以及HPC領域培育出屬於自己的整個生態系統,那也是非常值得期待的。
▲英偉達的Grace CPU並非瞄準AMD或者英特爾,畢竟後者在CPU和x86產業生態方面擁有巨大的優勢。圖為AMD CPU和GPU路線圖,2022年AMD即將推出Zen 4架構。
第三,英偉達目前也存在很多競爭對手,英偉達需要持續加強技術護城河。比如英特爾一直在持續加強CPU在AI方面的計算能力,推出瞭DL Boost、AVX-512等相關指令集,並且還通過自研GPU進入瞭並行計算市場。另外,目前全球市場也湧現出很多專註於AI計算的企業,一些巨頭也開始佈局AI計算,比如亞馬遜、谷歌、百度、阿裡巴巴等,都在不斷地投產自己的AI計算芯片。
▲一些有實力的廠商也在自研AI芯片,圖為谷歌TPUv2。
在這種情況下,如何守住基本盤並開拓新市場就是英偉達需要考慮的內容。在ARM的加持下,英偉達在CPU端擁有瞭強力助力,加上自己在GPU端的先天優勢就能夠將自己的技術壁壘再次抬高,繼續成為行業中不可替代的選擇。
Grace CPU暴露英偉達的野心?
從上文的分析來看,英偉達針對Grace CPU的佈局主要有以下意義。首先是重新細分計算市場增加利潤增長點;其次則是有利於加強自己的技術壁壘,同時在CPU計算方面給出自己在未來成長的可能性;另外一點則是可以通過Grace CPU進一步加高自己的技術壁壘,抵抗競爭對手對市場的侵蝕。
因此,在現在這個階段,我認為英偉達在數據中心CPU上的所有操作都還是在為自己蓄力,並不是以正面抗衡英特爾和AMD以及整個x86產業生態圈的目的。如果說非要有一些想法的話,那也可能是英偉達在嘗試另起爐灶,想要在x86的束縛下解脫出來,給自己的未來發展帶來一個新的希望,這也算是其野心暴露的一種端倪吧!
請先 登入 以發表留言。