全面解析NVIDIA RTX A6000“核爆”性能

NVIDIA® Ampere 架構自發佈以來，無論是新的功能還是性能的提升都吸引瞭大量業內外人士的關註。GA102的滿血性能、第二代光線追蹤硬件加速，第三代的Tensor Core加持，AV1的硬件解碼，都是這次更新中非常亮眼的特性。NVIDIA® RTX™ A6000作為企業級專業應用市場的超高端顯卡，企業級的專業用戶對其都有很大的期待。

本次我們就針對這些專業用戶測試一下RTX A6000相對於RTX 6000，都有哪些提升？性能提升瞭多少？

測試環境

測試說明

測試顯卡規格對比

實測結果

1. CUDA-Z

CUDA-Z和CPU-Z、GPU-Z相類似，是對NVIDIA GPU處理器的一些基本信息的采集。

CUDA計算能力對比

從CUDA-Z的測試數據看，RTX A6000的單精度浮點運算最高性能達到瞭40T，這是RTX 6000的2.3倍的性能。所以涉及到單精度計算能力的應用，都會有翻倍的性能提升。雙精度兩張顯卡依然都不高，需要雙精度計算能力的，還是要選擇NVIDIA A100 GPU或者NVIDIA Quadro GV100這種支持雙精度計算能力高的顯卡。

2. SPECviewperf 2020

SPECviewperf 2020主要是用來評測顯卡專業圖形性能的軟件，其中包括瞭我們常見的3ds Max、Maya、Catia、UG NX、Solidworks、Creo軟件性能測試，以及醫療和能量仿真性能測試。通過模擬對軟件場景的交互操作的速度來評分，最終得出顯卡的圖形性能的相對性能。

測試截圖

圖形處理性能對比

以上數據是RTX A6000和RTX 6000性能的對比情況。在各個軟件性能上都有不同程度的提升，性能基本上是1.1~1.2倍的提升，在Creo中提升的性能較少，在Energy仿真中會用到大量計算，所以性能提升較多達到瞭1.5倍的性能提升。

3. 離線渲染測試結果

渲染在媒體娛樂、設計制造以及建築行業得到廣泛的應用，目前很多渲染器均支持GPU渲染，渲染的速度就取決於顯卡的計算速度。

Blender CUDA Benchmark(s)

離線渲染時間對比（CUDA）

Blender使用CUDA做渲染，RTX A6000相較於RTX 6000可以取得1.3-2.7倍的性能提升。

Blender OptiX Benchmark(s)

離線渲染時間對比（OptiX）

Blender可以支持CUDA和Optix光追渲染，使用光追的新技術渲染的速度明顯比使用傳統的CUDA速度更快。比如，在場景Victor中使用RTX A6000 CUDA渲染需要408秒的時間，而使用Optix光追渲染僅需要130秒，速度提高瞭3倍。相同設置下RTX A6000對比RTX 6000則有瞭1.5~2倍的性能提升。

V-Ray Benchmark

測試界面截圖

離線渲染性能對比

V-Ray是目前比較主流的渲染器之一，從4.0開始支持GPU的離線渲染。同時支持CUDA和光線追蹤兩種加速渲染技術。從測試結果看相較RTX 6000，RTX A6000在V-Ray上取得2倍左右的渲染性能，渲染速度有瞭很大的提高。

Octane Benchmark

離線渲染性能對比

OC是傳統的GPU渲染器，目前也支持Optix光追渲染。在開啟瞭RTX渲染之後RTX A6000渲染性能是RTX 6000的1.6倍。

Autodesk VRED

離線渲染時間對比

Autodesk VRED有很多制造業的用戶，可以支持VR、實時交互渲染和離線渲染。我們對比的是4K離線渲染的性能。在開啟瞭光線追蹤和全局光照的情況下，從成績來看RTX A6000的渲染性能是RTX 6000的2倍。

對比離線渲染，Superposition是測試實時渲染的性能，攝像機在3D場景裡漫遊，顯卡實時渲染物品運動、光影和材質然後輸出到顯示設備。

Superposition Benchmark

實時渲染性能對比

Superposition支持兩種圖形API的實時渲染，在DirectX上，有1.5倍的性能提升。在OpenGL上有1.3倍的性能提升。Superposition是基於Unigine2 渲染引擎的軟件，所以基於Unigine開發的軟件都會有不錯的提升。

3DMark

實時渲染性能對比

3DMark測試的3項內容對比，全部都是基於DX12進行測試的，其中Port Royal是基於DXR的光線追蹤性能的測試：

> Time Spy Extreme 4K實時渲染 RTX A6000的性能是RTX 6000的1.3倍；

> Time Spy FHD情況下RTX A6000是RTX 6000的1.2倍；

> Port Royal使用光線追蹤渲染測試下，RTX A6000是RTX 6000的1.4倍性能。

這項測試主要測試的是遊戲性能，依靠RTX A6000的高性能，像UE4、Unity的開發工作流都會取得很好的交互體驗。

5. 解碼測試

AV1解碼是安培架構的最新一個功能，RTX A6000具有對AV1的硬解功能。本次解碼測試對象選用的是8K 60fps的視頻，編碼格式為AV1，使用Potplayer視頻播放軟件進行測試。以下為RTX 6000和RTX A6000的解碼測試對比。

CPU軟件解碼

測試截圖

RTX 6000不支持AV1格式視頻的硬解，所以隻能使用CPU解碼。原本60幀每秒的畫面，解碼程度隻能達到46幀左右，此時畫面會有卡頓。

RTX A6000硬件解碼

測試截圖

使用RTX A6000解碼，可以實現每秒60幀實時解碼，沒有絲毫卡頓的感覺。而且此時解碼芯片的裡利用率僅占瞭30%左右。

6. DL ResNet50測試

每秒可處理的圖片數對比

ResNet50訓練半精情況下RTX A6000是RTX 6000的1.3倍，單精情況下RTX A6000是RTX 6000的1.6倍。

7. Image-classification測試

每秒可處理的圖片數對比

在推理方面，RTX A6000集成瞭第三代Tensor Core核心，顯卡整體的推理能力提升瞭。FP16和INT8差不多都是1.2倍左右的性能。

總結

NVIDIA RTX A6000采用的是8nm的工藝，可以讓GPU可以集成更多的CUDA核心。RTX A6000作為滿血版的GA102，計算性能的提升，在渲染、仿真、單精度計算方面都提高瞭很多。

在渲染方面，本次測評工具多選用大傢常用的渲染軟件，在與RTX 6000的對比之下，RTX A6000在其中大部分場景中都有2倍渲染速度的提升。RTX A6000 48GB的大顯存可以加載更多的數據，承載更多的場景，讓Blender、Davinci這種全部場景都要在顯存裡的計算軟件，避免瞭因場景太大導致軟件無法渲染的尷尬局面。

在解碼方面，AV1解碼功能的增加可以解決被迫使用CPU解碼的性能問題，可以充分解放CPU，提高解碼效率。

在深度學習和推理方面，RTX A6000也有瞭很大提升，在人工智能飛速發展的今天，可以提供更好的訓練算力節省模型訓練消耗的大量時間。

3C王者宇晨

3C王者

3C王者宇晨發表在痞客邦留言(0) 人氣( 9 )

▲top

請先登入以發表留言。

3C王者

分享最新3C訊息

參觀人氣

3C王者

分享最新3C訊息

全面解析NVIDIA RTX A6000“核爆”性能

你可能也喜歡

參觀人氣

成人內容提醒