NVIDIA_Tesla

[Wikipedia|▼Menu]

□記事を途中から表示しています
[最初から表示]

なおGK110ベースとなるK20およびK40、そしてGK210ベースとなるK80における倍精度の理論演算性能は単精度の場合の1/3となっている [13] [14] [15]。2014年に発表されたTesla K8もGK104ベース [16]だが、K8はTeslaシリーズ初の1スロット省スペース製品となる [17]。

Fermiマイクロアーキテクチャでは SM（ストリーミング・マルチプロセッサー）と呼ばれていた概念が、KeplerマイクロアーキテクチャではSMXという名称になった。GK104/GK110の各SMXが搭載する代表的なユニットは下記である [18] [19]。

192 CUDAコア。16 CUDAコアを1グループとして、12グループ搭載する。

64K個の32ビットレジスタ。合計256KB。

L1キャッシュ 64KB。このうち 16KB/32KB/48KB を共有メモリとして使用。共有メモリからは1サイクルで最大256B読み出せる。

読み取り専用キャッシュ 48KB。

特殊関数ユニット (SFU) 32個。三角関数、対数関数などを計算。

Fermi同様、各スレッド（コア）はワープ (warp) 単位で動作させる（1ワープは32スレッド）。ワープ内のスレッドは同期し、それぞれ同じ命令を実行する。16 CUDAコアを1グループとしているので、32スレッドに命令が行き渡るには2サイクル以上必要となる。その他、Kepler世代ではワープ内で共有メモリを介することなくデータ交換を可能にするシャッフル命令が実装されている。なおCompute capability (CC) に関しては、GK104はCC 3.0、GK110はCC 3.5、そしてGK210はCC 3.7 [20]となるが、CC 3.5以上ではDynamic ParallelismやHyper-Qといった機能を備えている [21]。

フルスペックGK104では512KB、またフルスペックGK110/GK210では 1536KB (1.5MB) の L2 キャッシュを全 SMX で共有し、このキャッシュを経由して DRAM にアクセスする。なおインテルの第1世代Xeon Phiは30MB前後の L2 キャッシュを搭載しており、この点が設計の違いの一つとなる[独自研究?]。

機種名GPU数CUDAメモリ性能
単精度
(TFLOPS)性能
倍精度
(TFLOPS)形状など
CUDAコア数SMX数CUDAコアクロック (MHz)最大帯域幅 (GB/s)バス規格バス幅 (bit)総容量 (GiB)クロック (GHz)
K8 7115368693
811 (Boost)160GDDR525682.52.13
2.49 (Boost)0.09
0.10 (Boost)フルハイト/1スロット型
K10 823072
(1536x2)8x2745320
(160x2)GDDR52568
(4x2)2.54.577
(2.288x2)0.191
(0.095x2)フルハイト/
パッシブ・ヒートシンク型
K201249613706208GDDR532052.63.521.17
K20X1268814732250GDDR538462.63.951.31
K401288015745
875 (Boost)288GDDR53841234.29
5 (Boost)1.43
K8024992
(2496x2)13x2562
875 (Boost)480
(240x2)GDDR5384242.55.6
8.74 (Boost)1.87

注釈

7 GK104ベース

8 GK104 (GeForce GTX 690) ベース

 Maxwellマイクロアーキテクチャ

MaxwellではKeplerよりもさらに倍精度サポートが削られている（単精度の場合の1/32）。M4/M40は主に機械学習・ディープラーニング向けのソリューションとして提供されている [22] [23] [24] [25]。

機種名GPU数CUDAメモリ性能
単精度
(TFLOPS)性能
倍精度
(TFLOPS)形状など
CUDAコア数SM数CUDAコアクロック (MHz)最大帯域幅 (GB/s)バス規格バス幅 (bit)総容量 (GiB)クロック (GHz)
M6 [26]1153612950

1051 (Boost)147.3GDDR525682.53.6 (Boost)0.11 (Boost)MXM
M60 [27]24096
(2048x2)32

(16x2)899

1178 (Boost)320

(160x2)GDDR525616
(8x2)2.59.65

(4.825x2)0.3

(0.15x2)フルハイト
M4 [28]110248517

1074 (Boost)88GDDR512842.752.2 (Boost)0.07 (Boost)ロープロファイル/
パッシブ
M40 [29]1307224948
1114 (Boost)288GDDR53841235.8
6.8 (Boost)0.18
0.21 (Boost)フルハイト/
パッシブ・ヒートシンク型

 Pascalマイクロアーキテクチャ

最初の製品であるTesla P100は2016年4月に発表された [30]。16nmプロセスルールを採用。GP100ベースのP100では、Fermi世代のようなハーフレートの倍精度対応のほか、ダブルレートの半精度対応も実現されている（半精度の理論演算性能は単精度の場合の2倍になっている）。メモリに第2世代のHigh Bandwidth Memory (HBM2) を採用する。NVIDIA独自のインターコネクト規格であるNVLinkにも対応し、これまでプロセッサ間の通信ボトルネックとなっていたPCI Expressを大幅に超える伝送帯域幅を実現できる。

GP102ベースのP40およびGP104ベースのP4では、倍精度の理論演算性能は単精度の場合の1/32になっている [31]。また、SMあたりのCUDAコア数は128、共有メモリも96KBとなっており、Maxwellアーキテクチャに近い [32]。

機種名GPU数CUDAメモリ性能
単精度
(TFLOPS)性能
倍精度
(TFLOPS)形状など
CUDAコア数SM数CUDAコアクロック (MHz)最大帯域幅 (GB/s)バス規格バス幅 (bit)総容量 (GiB)クロック (GHz)
P4 [33]1256020810
1063 (Boost)192GDDR5256834.15
5.44 (Boost)0.13
0.17 (Boost)ロープロファイル
P40 [34]13840301303
1531 (Boost)346GDDR5384247.2510.01
11.76 (Boost)0.31
0.36(Boost)フルハイト
P100 PCIe [35]13584561189
1328 (Boost)540 /

720HBM2409612 /

160.7159.5 (Boost)4.8 (Boost)フルハイト/

パッシブ
P100 SXM2 [36]13583561328
1480 (Boost)720HBM24096160.71510.6 (Boost)5.3 (Boost)NVLink/

パッシブ

 Voltaマイクロアーキテクチャ [37]

最初の製品であるTesla V100は2017年5月に発表された [38]。12nmプロセスルールを採用。行列演算を実行するための専用プロセッサ「Tensor Core」を搭載する。

機種名GPU数CUDAメモリ性能
単精度

Size:43 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef