經過多年發展,GPU 硬件也迎來瞭多級緩存結構。通過精心的設計,其能夠有效緩和各個 PC 計算組件之間的性能掣肘。但不同 GPU 制造商之間的架構設計思路,仍有著較大的差別。以目前占獨顯市場最多的英偉達和 AMD 為例,兩傢公司旗下的競品 GPU 就具有不同大小的寄存器和 L1 / L2 緩存。

顯存延遲測試:AMD RNDA 2架構竟比英偉達Ampere GPU更優秀

英偉達 A100 GPU 開發板

比如英偉達 A100 GPU 的 L2 緩存容量為 40MB,直接增加到瞭上一代 V100 的七倍。顯然,這考慮到瞭許多新應用程序需要更大的緩存,且為後續不斷增長的使用需求而預留瞭一定的空間。

有趣的是,Chips and Cheese 於近日發佈瞭一份有趣的報告,揭示瞭 AMD 最新一代的 RNDA 2、和英偉達 Ampere GPU 之間的顯存延遲表現。

顯存延遲測試:AMD RNDA 2架構竟比英偉達Ampere GPU更優秀

顯存延遲比較(越低越好)

通過在 OpenCL 中使用簡單的指針追逐測試,其得到瞭一份有趣的結果。其中采用 RDNA 2 架構的 AMD Radeon RX 6800 XT 顯卡,其 Infinity Cache 高速緩存的表現很是亮眼。

與采用 Ampere 架構的英偉達 GeForce RTX 3090 旗艦顯卡相比,即便顯存(VRAM)方面的延遲幾乎一致,但 IF 設計還是大幅降低瞭 Radeon RX 6000 顯卡的訪問延遲。

顯存延遲測試:AMD RNDA 2架構竟比英偉達Ampere GPU更優秀

AMD Infinity Cache 資料圖

TechPowerUp 指出,英偉達 Ampere GPU 使用瞭 L1 + L2 兩級緩存系統,測試表明這套解決方案的效用相當緩慢。在從 Ampere SM(L1 緩存)向 L2 傳輸的時候,數據延遲竟高達 100ns 。

另一方面,盡管 AMD RDNA 2 GPU 具有 L0 / L1 / L2 三級緩存系統(Infinity Cache 理論上也可以視作 L3 緩存),但 A 卡的顯存延遲仍低得多。即便從 L1 到 L2,也隻需 66 ns 。

感興趣的朋友,可移步至 Chips and Cheese查看《GPU 顯存延遲測試》全文。

創作者介紹
創作者 3C王者 的頭像
3C王者宇晨

3C王者

3C王者宇晨 發表在 痞客邦 留言(0) 人氣( 3 )