2025年6月17日 星期二

[影片] How do Graphics Cards Work? Exploring GPU Architecture

How do Graphics Cards Work? Exploring GPU Architecture

https://www.youtube.com/watch?v=h9Z4oGN89MU (英文字幕)


之前就想細看這個解說顯卡晶片的影片了

總算有時間能做這件事

下面是我看這個影片時邊看邊做的筆記



用了 Nvidia 3080 / 3090 / 3080TI / 3090TI 來解釋

(實際上使用的是同一個 GA102 核心晶片)

差異出在 Testing(製造完成後的測試) 分 Bin


3090TI 是最好的 Bin (10752 cuda 核)

3080 的 Bin 只有八成的核心是好的 (8704 cuda 核)


此外 Clock 頻率也有差別, 3090TI 1395MHz, 3080 1260MHz

VRAM 也有差別, 3090TI 24GB, 3080 12GB


https://www.youtube.com/watch?v=h9Z4oGN89MU&t=528s

Cuda 核心執行 A*B+C 這種運算 (FMA, Fused Multiply and Add)

一半的 Cuda 核心執行 32bit 浮點數運算

另外一半的 Cuda 核心執行 32bit 整數運算或浮點數運算


2               * 10496 * 1.7 = 35.6 * 10^12 calculation/s

calculation/core  cores   GHz


核心晶片邊邊有 12 個 Graphic Memory Controller

NVLink Controller, 還有 PCIe interface controller

核心晶片下方有兩顆每顆 3MB L2 Cache


https://www.youtube.com/watch?v=h9Z4oGN89MU&t=669s

顯卡側邊有 3 個 DP Port, 1 個 HDMI Port

另一側則有 12V 電源插座

顯卡周邊有 regulator 將 12V 轉換成 1.1V 給核心晶片 GA102 使用

顯卡的主要重量是散熱系統

24GB VRAM 圍繞在核心晶片 GA102 周遭


核心晶片 GA102 與 VRAM 之間的介面是 384bit 寬

傳輸頻寬是 1.15 TB/s (GDDR6X)


Micron 的 GDDR7 使用的是 PAM-3 傳輸模式 (工商時間) (與 USB4 80Gbps 相同)

Micron 的 GDDR6X 使用的是 PAM-4 傳輸模式 (工商時間) (與 PCIe Gen6 相同)

https://www.youtube.com/watch?v=h9Z4oGN89MU&t=911s

Micron 的工商時間


https://www.youtube.com/watch?v=h9Z4oGN89MU&t=1011s

SIMD (Single Instruction Multiple Data) 一個指令處理多筆資料


https://www.youtube.com/watch?v=h9Z4oGN89MU&t=1069s

解說 SIMD 如何產生 3D 遊戲物件環境

例如牛仔帽以 28000 個三角形組成, 含有 14000 個節點座標(x,y,z)

以某個攝影機角度來觀看整個座標系統

牛仔帽的 14000 個節點座標都是用相同的指令來計算

以此類推像是桌子以及其他的上百個物件

所以, 所有物件的三角形與節點座標都能以相同的座標系統

並且攝影機現在可以決定哪些物件在前方, 哪些物件在後面


SIMD 以及平行處理的關鍵

讓這些上百萬的計算之間互相獨立不受其他計算影響

所以可以讓這些計算分配到 GPU 上千個 cuda 核心


3D 遊戲圖像彩現(渲染 rendering)有更多細節在這影片裡沒有提及

並且, 這個影片略過了物件旋轉以及縮放部份


https://www.youtube.com/watch?v=h9Z4oGN89MU&t=1253s

解釋執行緒(Thread)的概念, 一個 cuda 核心對應一個執行緒

SIMT (Single Instruction Multiple Threads) 比 SIMD 更有效率


https://www.youtube.com/watch?v=h9Z4oGN89MU&t=1411s

工商時間


https://www.youtube.com/watch?v=h9Z4oGN89MU&t=1469s

比特幣挖礦

用中樂透來比喻比特幣挖礦

有提到用顯卡挖礦的效率比不上用專用晶片(ASIC)來挖礦


https://www.youtube.com/watch?v=h9Z4oGN89MU&t=1610s

Tensor cores

矩陣運算也是 A*B+C


沒有留言:

張貼留言