NVIDIA_Tesla

[Wikipedia|▼Menu]

□記事を途中から表示しています
[最初から表示]

Kepler世代以降のTeslaは353.06ドライバでOpenCL 1.2に対応している [1]が、それ以前のG80からFermiまではOpenCL 1.1までの対応となる。
仕様と構成

表中の性能欄は、単精度／倍精度浮動小数点の理論演算性能（ピーク時）である。
Teslaマイクロアーキテクチャ

2007年 6月20日発表 [2]。G80ベースのx870シリーズは単精度浮動小数点演算のみの対応であり、倍精度浮動小数点演算は実行できない [3]。

構成機種名GPU数グラフィックスクロック (MHz)CUDAメモリ性能
単精度
(TFLOPS)性能
倍精度
(TFLOPS)形状など
CUDAコア数CUDAコアクロック (MHz)最大帯域幅 (GB/s)バス規格バス幅 (bit)総容量 (GiB)クロック (GHz)
GPUコンピューティングプロセッサ1C8701600128135077GDDR33841.51.60.519N/Aフルハイトビデオカード
デスクサイト・スーパーコンピュータ1D87026002561350154GDDR338431.61.037N/Aデスクサイドシステム/ラックマウント装置
GPUコンピューティングサーバ1S87046005121350307GDDR338461.62.074N/A1Uラック
C1060
コンピューティングプロセッサ2 [4]C106016022401296102GDDR351240.8000.9330.078フルハイトビデオカード
 IEEE 754r 機能
S1070 1U
GPUコンピューティングサーバ2 [5] [6]S10704602960
(240×4)1296/1440408
(102×4)GDDR351216
(4×4)?3.73/4.140.311/0.3451Uラック
 IEEE 754r 機能

注釈

1 NVIDIAが明らかにしていない仕様については、GeForce 8800 GTXからの推測。

2 NVIDIAが明らかにしていない仕様については、GeForce GTX 280からの推測。

Fermiマイクロアーキテクチャ

2009年 11月6日発表 [7]。ハーフレートの倍精度演算性能を実現している（倍精度の理論演算性能は単精度の場合の1/2になっている）。

機種名GPU数グラフィックスクロック (MHz)CUDAメモリ性能
単精度
(TFLOPS)性能
倍精度
(TFLOPS)形状など
CUDAコア数CUDAコアクロック (MHz)最大帯域幅 (GB/s)バス規格バス幅 (bit)総容量 (GiB)クロック (GHz)
C20503, 5 [8]15754481150144GDDR538431.51.030.515フルハイトビデオカード
 IEEE 754r 機能
画面出力機能付き
C20703, 515754481150144GDDR538461.51.030.515
C20753, 6 [9]15754481150144GDDR538461.51.030.515
M205015754481150148GDDR538431.5461.030.515フルハイト/
パッシブ・ヒートシンク型
M207015754481150150GDDR538461.5661.030.515
M209016505121300177GDDR538461.851.3310.665
S2050457517921150148GDDR5384121.554.132.061Uラック

注釈

3 NVIDIAが明らかにしていない仕様については、Quadro 6000からの推測。

5 @media screen{.mw-parser-output .fix-domain{border-bottom:dashed 1px}}GF100 (Quadro 6000/GeForce GTX 480) ベース[要出典]

6 GF110 (GeForce GTX 580[要出典]) ベース

 Keplerマイクロアーキテクチャ

最初の製品であるTesla K10は 2012年 5月16日に発表された [10]。GK104ベースのK10は単精度の理論演算性能は高いものの、倍精度の理論演算性能が極端に低く（単精度の場合の1/24 [11]）、科学技術計算向けではなく信号処理・画像処理向けのソリューションという位置付けになっている [12]。なおGK110ベースとなるK20およびK40、そしてGK210ベースとなるK80における倍精度の理論演算性能は単精度の場合の1/3となっている [13] [14] [15]。2014年に発表されたTesla K8もGK104ベース [16]だが、K8はTeslaシリーズ初の1スロット省スペース製品となる [17]。

Fermiマイクロアーキテクチャでは SM（ストリーミング・マルチプロセッサー）と呼ばれていた概念が、KeplerマイクロアーキテクチャではSMXという名称になった。GK104/GK110の各SMXが搭載する代表的なユニットは下記である [18] [19]。

192 CUDAコア。16 CUDAコアを1グループとして、12グループ搭載する。

64K個の32ビットレジスタ。合計256KB。

L1キャッシュ 64KB。このうち 16KB/32KB/48KB を共有メモリとして使用。共有メモリからは1サイクルで最大256B読み出せる。

読み取り専用キャッシュ 48KB。

特殊関数ユニット (SFU) 32個。三角関数、対数関数などを計算。

Fermi同様、各スレッド（コア）はワープ (warp) 単位で動作させる（1ワープは32スレッド）。ワープ内のスレッドは同期し、それぞれ同じ命令を実行する。16 CUDAコアを1グループとしているので、32スレッドに命令が行き渡るには2サイクル以上必要となる。その他、Kepler世代ではワープ内で共有メモリを介することなくデータ交換を可能にするシャッフル命令が実装されている。なおCompute capability (CC) に関しては、GK104はCC 3.0、GK110はCC 3.5、そしてGK210はCC 3.7 [20]となるが、CC 3.5以上ではDynamic ParallelismやHyper-Qといった機能を備えている [21]。

フルスペックGK104では512KB、またフルスペックGK110/GK210では 1536KB (1.5MB) の L2 キャッシュを全 SMX で共有し、このキャッシュを経由して DRAM にアクセスする。なおインテルの第1世代Xeon Phiは30MB前後の L2 キャッシュを搭載しており、この点が設計の違いの一つとなる[独自研究?]。

機種名GPU数CUDAメモリ性能
単精度
(TFLOPS)性能
倍精度
(TFLOPS)形状など
CUDAコア数SMX数CUDAコアクロック (MHz)最大帯域幅 (GB/s)バス規格バス幅 (bit)総容量 (GiB)クロック (GHz)

Size:43 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef