NVIDIA® Ampere 架構自發佈以來,無論是新的功能還是性能的提升都吸引瞭大量業內外人士的關註。GA102的滿血性能、第二代光線追蹤硬件加速,第三代的Tensor Core加持,AV1的硬件解碼,都是這次更新中非常亮眼的特性。NVIDIA® RTX™ A6000作為企業級專業應用市場的超高端顯卡,企業級的專業用戶對其都有很大的期待。
本次我們就針對這些專業用戶測試一下RTX A6000相對於RTX 6000,都有哪些提升?性能提升瞭多少?
- 測試環境
- 測試說明
- 測試顯卡規格對比
- 實測結果
1. CUDA-Z
CUDA-Z和CPU-Z、GPU-Z相類似,是對NVIDIA GPU處理器的一些基本信息的采集。
CUDA計算能力對比
從CUDA-Z的測試數據看,RTX A6000的單精度浮點運算最高性能達到瞭40T,這是RTX 6000的2.3倍的性能。所以涉及到單精度計算能力的應用,都會有翻倍的性能提升。雙精度兩張顯卡依然都不高,需要雙精度計算能力的,還是要選擇NVIDIA A100 GPU或者NVIDIA Quadro GV100這種支持雙精度計算能力高的顯卡。
2. SPECviewperf 2020
SPECviewperf 2020主要是用來評測顯卡專業圖形性能的軟件,其中包括瞭我們常見的3ds Max、Maya、Catia、UG NX、Solidworks、Creo軟件性能測試,以及醫療和能量仿真性能測試。通過模擬對軟件場景的交互操作的速度來評分,最終得出顯卡的圖形性能的相對性能。
測試截圖
圖形處理性能對比
以上數據是RTX A6000和RTX 6000性能的對比情況。在各個軟件性能上都有不同程度的提升,性能基本上是1.1~1.2倍的提升,在Creo中提升的性能較少,在Energy仿真中會用到大量計算,所以性能提升較多達到瞭1.5倍的性能提升。
3. 離線渲染測試結果
渲染在媒體娛樂、設計制造以及建築行業得到廣泛的應用,目前很多渲染器均支持GPU渲染,渲染的速度就取決於顯卡的計算速度。
Blender CUDA Benchmark(s)
離線渲染時間對比(CUDA)
Blender使用CUDA做渲染,RTX A6000相較於RTX 6000可以取得1.3-2.7倍的性能提升。
Blender OptiX Benchmark(s)
離線渲染時間對比(OptiX)
Blender可以支持CUDA和Optix光追渲染,使用光追的新技術渲染的速度明顯比使用傳統的CUDA速度更快。比如,在場景Victor中使用RTX A6000 CUDA渲染需要408秒的時間,而使用Optix光追渲染僅需要130秒,速度提高瞭3倍。相同設置下RTX A6000對比RTX 6000則有瞭1.5~2倍的性能提升。
V-Ray Benchmark
測試界面截圖
離線渲染性能對比
V-Ray是目前比較主流的渲染器之一,從4.0開始支持GPU的離線渲染。同時支持CUDA和光線追蹤兩種加速渲染技術。從測試結果看相較RTX 6000,RTX A6000在V-Ray上取得2倍左右的渲染性能,渲染速度有瞭很大的提高。
Octane Benchmark
離線渲染性能對比
OC是傳統的GPU渲染器,目前也支持Optix光追渲染。在開啟瞭RTX渲染之後RTX A6000渲染性能是RTX 6000的1.6倍。
Autodesk VRED
離線渲染時間對比
Autodesk VRED有很多制造業的用戶,可以支持VR、實時交互渲染和離線渲染。我們對比的是4K離線渲染的性能。在開啟瞭光線追蹤和全局光照的情況下,從成績來看RTX A6000的渲染性能是RTX 6000的2倍。
對比離線渲染,Superposition是測試實時渲染的性能,攝像機在3D場景裡漫遊,顯卡實時渲染物品運動、光影和材質然後輸出到顯示設備。
Superposition Benchmark
實時渲染性能對比
Superposition支持兩種圖形API的實時渲染,在DirectX上,有1.5倍的性能提升。在OpenGL上有1.3倍的性能提升。Superposition是基於Unigine2 渲染引擎的軟件,所以基於Unigine開發的軟件都會有不錯的提升。
3DMark
實時渲染性能對比
3DMark測試的3項內容對比,全部都是基於DX12進行測試的,其中Port Royal是基於DXR的光線追蹤性能的測試:
> Time Spy Extreme 4K實時渲染 RTX A6000的性能是RTX 6000的1.3倍;
> Time Spy FHD情況下RTX A6000是RTX 6000的1.2倍;
> Port Royal使用光線追蹤渲染測試下,RTX A6000是RTX 6000的1.4倍性能。
這項測試主要測試的是遊戲性能,依靠RTX A6000的高性能,像UE4、Unity的開發工作流都會取得很好的交互體驗。
5. 解碼測試
AV1解碼是安培架構的最新一個功能,RTX A6000具有對AV1的硬解功能。本次解碼測試對象選用的是8K 60fps的視頻,編碼格式為AV1,使用Potplayer視頻播放軟件進行測試。以下為RTX 6000和RTX A6000的解碼測試對比。
CPU軟件解碼
測試截圖
RTX 6000不支持AV1格式視頻的硬解,所以隻能使用CPU解碼。原本60幀每秒的畫面,解碼程度隻能達到46幀左右,此時畫面會有卡頓。
RTX A6000硬件解碼
測試截圖
使用RTX A6000解碼,可以實現每秒60幀實時解碼,沒有絲毫卡頓的感覺。而且此時解碼芯片的裡利用率僅占瞭30%左右。
6. DL ResNet50測試
每秒可處理的圖片數對比
ResNet50訓練半精情況下RTX A6000是RTX 6000的1.3倍,單精情況下RTX A6000是RTX 6000的1.6倍。
7. Image-classification測試
每秒可處理的圖片數對比
在推理方面,RTX A6000集成瞭第三代Tensor Core核心,顯卡整體的推理能力提升瞭。FP16和INT8差不多都是1.2倍左右的性能。
總結
NVIDIA RTX A6000采用的是8nm的工藝,可以讓GPU可以集成更多的CUDA核心。RTX A6000作為滿血版的GA102,計算性能的提升,在渲染、仿真、單精度計算方面都提高瞭很多。
在渲染方面,本次測評工具多選用大傢常用的渲染軟件,在與RTX 6000的對比之下,RTX A6000在其中大部分場景中都有2倍渲染速度的提升。RTX A6000 48GB的大顯存可以加載更多的數據,承載更多的場景,讓Blender、Davinci這種全部場景都要在顯存裡的計算軟件,避免瞭因場景太大導致軟件無法渲染的尷尬局面。
在解碼方面,AV1解碼功能的增加可以解決被迫使用CPU解碼的性能問題,可以充分解放CPU,提高解碼效率。
在深度學習和推理方面,RTX A6000也有瞭很大提升,在人工智能飛速發展的今天,可以提供更好的訓練算力節省模型訓練消耗的大量時間。
請先 登入 以發表留言。