How do Graphics Cards Work? Exploring GPU Architecture
https://www.youtube.com/watch?v=h9Z4oGN89MU (英文字幕)
之前就想細看這個解說顯卡晶片的影片了
總算有時間能做這件事
下面是我看這個影片時邊看邊做的筆記
用了 Nvidia 3080 / 3090 / 3080TI / 3090TI 來解釋
(實際上使用的是同一個 GA102 核心晶片)
差異出在 Testing(製造完成後的測試) 分 Bin
3090TI 是最好的 Bin (10752 cuda 核)
3080 的 Bin 只有八成的核心是好的 (8704 cuda 核)
此外 Clock 頻率也有差別, 3090TI 1395MHz, 3080 1260MHz
VRAM 也有差別, 3090TI 24GB, 3080 12GB
https://www.youtube.com/watch?v=h9Z4oGN89MU&t=528s
Cuda 核心執行 A*B+C 這種運算 (FMA, Fused Multiply and Add)
一半的 Cuda 核心執行 32bit 浮點數運算
另外一半的 Cuda 核心執行 32bit 整數運算或浮點數運算
2 * 10496 * 1.7 = 35.6 * 10^12 calculation/s
calculation/core cores GHz
核心晶片邊邊有 12 個 Graphic Memory Controller
NVLink Controller, 還有 PCIe interface controller
核心晶片下方有兩顆每顆 3MB L2 Cache
https://www.youtube.com/watch?v=h9Z4oGN89MU&t=669s
顯卡側邊有 3 個 DP Port, 1 個 HDMI Port
另一側則有 12V 電源插座
顯卡周邊有 regulator 將 12V 轉換成 1.1V 給核心晶片 GA102 使用
顯卡的主要重量是散熱系統
24GB VRAM 圍繞在核心晶片 GA102 周遭
核心晶片 GA102 與 VRAM 之間的介面是 384bit 寬
傳輸頻寬是 1.15 TB/s (GDDR6X)
Micron 的 GDDR7 使用的是 PAM-3 傳輸模式 (工商時間) (與 USB4 80Gbps 相同)
Micron 的 GDDR6X 使用的是 PAM-4 傳輸模式 (工商時間) (與 PCIe Gen6 相同)
https://www.youtube.com/watch?v=h9Z4oGN89MU&t=911s
Micron 的工商時間
https://www.youtube.com/watch?v=h9Z4oGN89MU&t=1011s
SIMD (Single Instruction Multiple Data) 一個指令處理多筆資料
https://www.youtube.com/watch?v=h9Z4oGN89MU&t=1069s
解說 SIMD 如何產生 3D 遊戲物件環境
例如牛仔帽以 28000 個三角形組成, 含有 14000 個節點座標(x,y,z)
以某個攝影機角度來觀看整個座標系統
牛仔帽的 14000 個節點座標都是用相同的指令來計算
以此類推像是桌子以及其他的上百個物件
所以, 所有物件的三角形與節點座標都能以相同的座標系統
並且攝影機現在可以決定哪些物件在前方, 哪些物件在後面
SIMD 以及平行處理的關鍵
讓這些上百萬的計算之間互相獨立不受其他計算影響
所以可以讓這些計算分配到 GPU 上千個 cuda 核心
3D 遊戲圖像彩現(渲染 rendering)有更多細節在這影片裡沒有提及
並且, 這個影片略過了物件旋轉以及縮放部份
https://www.youtube.com/watch?v=h9Z4oGN89MU&t=1253s
解釋執行緒(Thread)的概念, 一個 cuda 核心對應一個執行緒
SIMT (Single Instruction Multiple Threads) 比 SIMD 更有效率
https://www.youtube.com/watch?v=h9Z4oGN89MU&t=1411s
工商時間
https://www.youtube.com/watch?v=h9Z4oGN89MU&t=1469s
比特幣挖礦
用中樂透來比喻比特幣挖礦
有提到用顯卡挖礦的效率比不上用專用晶片(ASIC)來挖礦
https://www.youtube.com/watch?v=h9Z4oGN89MU&t=1610s
Tensor cores
矩陣運算也是 A*B+C
沒有留言:
張貼留言