鼎湖網站建設啥都能看的瀏覽器
NVIDIA GPU 架構
NVIDIA GPU 的 SM(Streaming Multiprocessor) 和 GPC(Graphics Processing Cluster) 是 GPU 架構中的關鍵組成部分。它們決定了 GPU 的計算能力和性能,以下是對這兩個參數的詳細介紹:
1. GPC(Graphics Processing Cluster)—— 圖形處理集群
定義:
GPC 是 GPU 中更高層次的組織單元,負責管理多個 SM 和其它子單元,協(xié)調圖形渲染、計算任務的調度與執(zhí)行。
性能意義:
- GPC 的數量直接影響 GPU 的渲染能力,更多的 GPC 允許顯卡在更復雜的場景下保持高性能。
- 在最新架構中,GPC 的設計進一步優(yōu)化以支持更高分辨率、更復雜的幾何和光追任務。
架構示意圖
一個典型 NVIDIA GPU 的架構層級可以表示為:
GPU├── GPC (Graphics Processing Cluster)│ ├── TPC (Texture/Processor Cluster)│ │ ├── SM (Streaming Multiprocessor)│ │ │ ├── CUDA 核心 (CUDA Cores)│ │ │ ├── 張量核心 (Tensor Cores)│ │ │ ├── RT 核心 (Ray Tracing Cores)│ │ │ └── 紋理單元 (Texture Units)│ │ └── PolyMorph Engine│ └── Raster Engine (光柵引擎)└── L2 Cache (共享緩存)
- TPC(Texture/Processor Cluster):每個 GPC 包含多個 TPC,每個 TPC 包括兩個 SM 單元。
- Raster Engine(光柵引擎):負責光柵化任務,將 3D 場景轉換為像素。
- PolyMorph Engine:支持幾何處理、頂點著色、投影等任務。
- L2 Cache:為 GPC 提供數據緩存,提高數據訪問效率。
總體架構關系
- GPC 是最頂層的計算集群,包含多個 TPC。
- 每個 TPC 包含多個 SM,以及負責幾何運算的 PolyMorph Engine。
- 每個 SM 包含大量的 CUDA Core 和 Tensor Core,分別執(zhí)行標量計算和矩陣運算任務。
- CUDA Core 與 Tensor Core 是具體的計算執(zhí)行單元,協(xié)作完成復雜的并行計算任務。
通過 GPC 和 SM 的協(xié)同工作,NVIDIA 顯卡實現(xiàn)了強大的圖形處理和計算性能,能夠滿足游戲、渲染、AI 和科學計算的高需求任務。
2. TPC(Texture/Processor Cluster)—— 紋理/處理集群
TPC 是 NVIDIA GPU 架構中的中間層模塊,位于 GPC 和 SM 之間。它起到整合和協(xié)同 SM 工作的作用,是 GPU 架構中關鍵的組織單元。
定義:
TPC 是由 NVIDIA 定義的硬件集群單位,包含多個 SM(流多處理器) 和紋理處理單元。TPC 作為 GPC 的子單元,為 GPU 提供高效的計算和紋理處理能力。
架構位置:
- 每個 TPC 包含 2 個 SM(部分架構中可能不同,如早期架構有單個 SM)。
- 每個 GPC(圖形處理集群)包含多個 TPC。
- 每個 GPU 包含多個 GPC,因此整個 GPU 架構分為 GPU > GPC > TPC > SM。
組成:
一個典型的 TPC 包含以下子模塊:
-
SM(Streaming Multiprocessor)
- TPC 的主要計算單元,每個 TPC 包含 2 個 SM(在 Ampere 和 Ada Lovelace 架構中)。
- SM 內部包含 CUDA 核心、張量核心、RT 核心、紋理單元等。
-
紋理單元(Texture Units)
- 專門處理紋理采樣、紋理過濾等任務。
- 與 SM 協(xié)同工作,加速紋理數據的加載和計算。
-
PolyMorph Engine(多變形引擎)
- 負責幾何處理,包括頂點變換、投影和曲面細分。
- 每個 TPC 中包含一套獨立的 PolyMorph 引擎。
-
緩存模塊
- 包括一級緩存(L1 Cache)和紋理緩存,為 SM 和紋理單元提供快速的數據訪問能力。
功能:
TPC 是連接 GPC 和 SM 的橋梁,主要功能包括:
-
并行計算能力擴展:
- 每個 TPC 通過包含多個 SM,顯著提升 GPU 的并行計算性能。
-
紋理處理:
- 集成了紋理單元和紋理緩存,用于高效處理游戲和渲染中的紋理任務,如采樣、過濾和貼圖。
-
幾何處理:
- PolyMorph 引擎負責幾何階段的計算,例如頂點著色和幾何曲面變換,支持復雜的 3D 場景。
-
模塊化擴展:
- NVIDIA 的 TPC 設計使 GPU 架構具備高度模塊化,方便擴展性能和功能,適應不同的市場需求(游戲、AI、科學計算)。
架構變化
不同架構中 TPC 的設計有所變化:
- Pascal 架構(如 GTX 10 系列):每個 TPC 包含 1 個 SM。
- Turing 架構(如 RTX 20 系列):每個 TPC 包含 2 個 SM,首次引入 RT 核心。
- Ampere 架構(如 RTX 30 系列):每個 TPC 包含 2 個 SM,改進了張量核心和 RT 核心。
- Ada Lovelace 架構(如 RTX 40 系列):延續(xù)每 TPC 2 個 SM 的設計,進一步優(yōu)化性能。
示例分析:RTX 4090 的 TPC 設計
-
RTX 4090 的架構細節(jié):
- GPC 數量:12
- TPC 數量:72
- SM 數量:128(每 TPC 包含 2 個 SM)
- CUDA 核心總數:16,384(每 SM 包含 128 個 CUDA 核心)
-
每個 TPC 的具體配置:
- SM 數量:2
- PolyMorph 引擎:1
- 紋理單元:4(每個 SM 包含 2 個紋理單元)
這種設計允許 RTX 4090 在高分辨率和復雜場景中表現(xiàn)出色。
TPC 的重要性
TPC 的模塊化設計在性能和效率上具有以下優(yōu)勢:
- 性能擴展:通過增加 TPC 的數量,GPU 可線性擴展計算能力。
- 靈活性:TPC 內部功能整合度高,可以適應計算密集型任務和圖形渲染任務的需求。
- 效率提升:將 SM 和紋理單元緊密結合,減少了數據傳輸的延遲。
TPC 是 NVIDIA GPU 架構中不可或缺的組成部分,它在 SM、紋理單元和幾何處理單元之間起到整合和調度的作用。通過 TPC 的模塊化設計,GPU 能夠在性能和效率之間找到平衡,同時支持不同的應用場景,如游戲、圖形渲染和深度學習。
3. SM(Streaming Multiprocessor)—— 流多處理器
定義:
SM 是 NVIDIA GPU 的核心計算單元,包含一組執(zhí)行通用計算和圖形任務的子模塊。每個 SM 包含多個 CUDA 核心、TMU(紋理映射單元)、張量核心和其他支持單元。
組成與功能:
- CUDA 核心:負責執(zhí)行通用計算任務(整數運算和浮點運算)。
- 張量核心:加速深度學習任務中的矩陣計算。
- RT 核心:用于處理光線追蹤計算(部分架構中)。
- 共享內存(Shared Memory):提供快速的中間數據存儲。
- 寄存器文件:為線程分配寄存器資源。
- 紋理和緩存單元:加速紋理采樣和數據讀取。
性能意義:
- SM 的數量決定了 GPU 的并行計算能力,更多的 SM 意味著可以處理更多的線程。
- 現(xiàn)代 NVIDIA GPU 使用分級架構,例如 Ampere、Ada Lovelace,每一代的 SM 內部結構都有優(yōu)化,例如更高效的緩存、更強的計算單元。
示例:
- NVIDIA RTX 4090 擁有 128 個 SM,每個 SM 包含 128 個 CUDA 核心,總計 16,384 個 CUDA 核心。
碼字不易,若覺得本文對你有用,歡迎點贊 👍、分享 🚀 ,相關技術熱點時時看🔥🔥🔥???…