FLOPS
[Wikipedia|▼Menu]

換算表
接頭辞FLOPS
ヨタ(Y)1024
ゼタ(Z)1021
エクサ(E)1018
ペタ(P)1015
テラ(T)1012
ギガ(G)109
メガ(M)106

FLOPS(フロップス、Floating-point Operations Per Second)はコンピュータ性能指標の一つ。
概要

FLoating point number Operations Per Secondの名称が示す通り、1秒間に浮動小数点演算が何回できるかの指標値ひいては性能値の事を指す。

ハードウェアの仕様として用いられるのは理論値であるが、ベンチマークソフトなどの計測から導き出される計測値は、理論値からは原則的に下がる。その為、理論値だけでなく、「理論的に算出された値の何%で実際のプログラムが動作するか」ということが重要になる(実測値)。実際の値が理論値に近いほど、より効率的なコンピュータだと考えられるからである。

パーソナルコンピュータ(以下PCと表記)向けのCPUGPUメーカーは、計算ノードとしては単一のノードとなるので通常理論値で発表する(理論値がほぼそのまま実効値となる)が、一般的に並列方式スーパーコンピュータ(以下スパコンと表記)では多数の計算ノードのクラスタとして構築されるため、実際の計算能力を理論値に近づけるには高度な運用能力が必要であり、理論値ではなく LINPACK ベンチマークでの実測値がよく使われている。

2016年前後の時点において、普及している家庭用のPCのCPUはGFLOPS、スパコンの世界1位はPFLOPSの単位であるが、ムーアの法則にそって高速化が進んでおり、2018年に並列度1億でLINPACK性能値はEFLOPSの単位に到達すると予想されている[1]2000年頃からの理論値ではPCとスパコンの比例値は、おおよそ1万倍の差で推移している。

2020年4月現在、世界最高速のスパコンはFrontierで1.102EFLOPS[2]。分散コンピューティングでは、Folding@homeが一時的に2.4EFLOPSを突破した[3]
代表的なハードウェアの浮動小数点数演算能力
PC (Intel)

名称コア数クロックFLOPS(倍精度)理論値/実測値理論値の計算式参照
Pentium1コア300MHz300 MFLOPS理論値1 FLOPS/Clock × 300MHz
Pentium II1コア450MHz450 MFLOPS理論値1 FLOPS/Clock × 450MHz
Pentium III1コア1.4GHz2.1 GFLOPS理論値1.5 FLOPS/Clock × 1.4GHz
Pentium M1コア2.26GHz3.39 GFLOPS理論値1.5 FLOPS/Clock × 2.26GHz[4]
Pentium 41コア3.8GHz7.6 GFLOPS理論値2 FLOPS/Clock × 3.8GHz[4]
Pentium D2コア3.6GHz14.4 GFLOPS理論値2 FLOPS/Clock × 3.6GHz × 2コア[4]
Intel Atom
(Bonnell)2コア1.8GHz5.4 GFLOPS理論値1.5 FLOPS/Clock × 1.8GHz × 2コア
Core Solo1コア1.83GHz2.75 GFLOPS理論値1.5 FLOPS/Clock × 1.83GHz[5]
Core Duo2コア2.33GHz6.99 GFLOPS理論値1.5 FLOPS/Clock × 2.33GHz × 2コア[5]
Core 2 Duo2コア3.33GHz26.64 GFLOPS理論値4 FLOPS/Clock × 3.33GHz × 2コア[5]
Core 2 Extreme4コア3.2GHz51.2 GFLOPS理論値4 FLOPS/Clock × 3.2GHz × 4コア[5]
Core i7
(Nehalem)4コア3.33GHz53.28 GFLOPS理論値4 FLOPS/Clock × 3.33GHz × 4コア[5]
Core i7
(Westmere)6コア3.46GHz83.04 GFLOPS理論値4 FLOPS/Clock × 3.46GHz × 6コア[5]
Core i7
(Sandy Bridge)6コア3.3GHz158.4 GFLOPS理論値8 FLOPS/Clock × 3.3GHz × 6コア[5][6]
Core i7
(Haswell)8コア3.0 GHz (ベース)
3.5 GHz (ターボ)384 GFLOPS (ベース)
448 GFLOPS (ターボ)理論値16 FLOPS/Clock × 3.0 GHz × 8コア
Core i7
(Broadwell)10コア3.0 GHz (ベース)
3.5 GHz (ターボ)480 GFLOPS (ベース)
560 GFLOPS (ターボ)理論値16 FLOPS/Clock × 3.0 GHz × 10コア
Core i9(Rocket Lake)8コア5.2 GHz (ターボ)665 GFLOPS (ターボ)理論値16 FLOPS/Clock × 5.2 GHz × 8コア[7]
Core i9(Alder Lake)P8/E85.2/4.0 GHz (ターボ)1.18 TFLOPS (ターボ)理論値16 FLOPS/Clock × 5.2 GHz × 8コア

+ 16 FLOPS/Clock × 4.0 GHz × 8コア[8]

Core 2 Duoより1クロックで SSE で加算と乗算が計算できる[9]ようになり128ビット幅だと倍精度で 4 FLOPS/クロック。Sandy Bridgeより搭載した Intel AVXは256ビット幅なので8FLOPS/クロック。Intel FMA融合積和命令により1命令で積と和の2演算ができるので16FLOPS/クロック[10]。単精度だと、これらの演算回数は2倍[11]。Atomは1クロックで1つのSSE加算命令が、2クロックで1つのSSE乗算命令が実行できる[12]ため、合計すると倍精度で3FLOPS/クロックとなる。
サーバ (Intel)

名称コア数クロックFLOPS(倍精度)理論値/実測値理論値の計算式参照
Xeon
(
Nehalem)8コア2.26 GHz72.32 GFLOPS理論値4 FLOPS/Clock × 2.26 GHz × 8コア
Xeon
(Westmere)10コア2.4 GHz96 GFLOPS理論値4 FLOPS/Clock × 2.4 GHz × 10コア
Xeon
(Sandy Bridge)8コア3.1 GHz198.4 GFLOPS理論値8 FLOPS/Clock × 3.1 GHz × 8コア
Xeon
(Ivy Bridge)15コア2.8 GHz336 GFLOPS理論値8 FLOPS/Clock × 2.8 GHz × 15コア
Xeon
(Haswell)18コア2.3 GHz662.4 GFLOPS理論値16 FLOPS/Clock × 2.3 GHz × 18コア
Xeon
(Broadwell)24コア2.2 GHz(ベース)
3.4 GHz(ターボ)0.845 TFLOPS(ベース)
1.306 TFLOPS(ターボ)理論値16 FLOPS/Clock × 3.4 GHz × 24コア
Xeon Phi
(Knights Corner)61コア1.238 GHz(ベース)
1.33 GHz(ターボ)1.208 TFLOPS(ベース)
1.298 TFLOPS(ターボ)理論値16 FLOPS/Clock × 1.33 GHz × 61コア
Xeon Phi
(Knights Landing)72コア1.5 GHz(ベース)
1.7 GHz(ターボ)3.456 TFLOPS(ベース)
3.917 TFLOPS(ターボ)理論値32 FLOPS/Clock × 1.7 GHz × 72コア

PC/Server (AMD)

名称コア数クロックFLOPS(倍精度)理論値/実測値理論値の計算式参照
Phenom II
(X4 980 Black Edition)4コア3.7GHz59.2 GFLOPS理論値4 FLOPS/Clock × 3.7GHz × 4コア
Phenom II
(X6 1100T Black Edition)6コア3.3GHz79.2 GFLOPS理論値4 FLOPS/Clock × 3.3GHz × 6コア
AMD Fusion E Series
(Bobcat)2コア1.65GHz6.6 GFLOPS理論値2 FLOPS/Clock × 1.65GHz × 2コア
AMD Opteron
(Magny-Cours)12コア2.5GHz120 GFLOPS理論値4 FLOPS/Clock × 2.5GHz × 12コア[6]
AMD FX
(Bulldozer)8コア/4モジュール3.9GHz124.8 GFLOPS理論値8 FLOPS/Clock × 3.9GHz × 4モジュール
AMD Opteron
(Interlagos)16コア/8モジュール3.1GHz198.4 GFLOPS理論値8 FLOPS/Clock × 3.1GHz × 8モジュール
Ryzen 9
(Vermeer)16コア4.9GHz(ブースト)1.254 TFLOPS理論値16 FLOPS/Clock × 4.9GHz × 16コア
EPYC
(Milan)64コア3.5GHz(ブースト)2.509 TFLOPS(ベース)
3.584 TFLOPS(ブースト)理論値16 FLOPS/Clock × 3.5GHz × 64コア

Bulldozer は1モジュールにつき2つの128ビット積和演算器があり、倍精度は2つのFMA命令を同時実行することにより 8 FLOPS/Cycle。
ARM

名称コア数クロックFLOPS理論値/実測値理論値の計算式参照
ARM111コア700MHz単精度:700 MFLOPS理論値単精度:1 FLOPS/Clock × 700MHz
ARM Cortex-A81コア1GHz単精度:4 GFLOPS理論値単精度:4 FLOPS/Clock × 1GHz
ARM Cortex-A94コア1.5GHz単精度:24 GFLOPS
倍精度:9 GFLOPS理論値単精度:4 FLOPS/Clock × 1.5GHz × 4コア
倍精度:1.5 FLOPS/Clock × 1.5GHz × 4コア
ARM Cortex-A154コア2.0GHz単精度:64 GFLOPS
倍精度:16 GFLOPS理論値単精度:8 FLOPS/Clock × 2.0GHz × 4コア
倍精度:2 FLOPS/Clock × 2.0GHz × 4コア
ARM Cortex-A574コア2.8GHz単精度:89.6 GFLOPS
倍精度:44.8 GFLOPS理論値単精度:8 FLOPS/Clock × 2.8GHz × 4コア
倍精度:4 FLOPS/Clock × 2.8GHz × 4コア


NetWalker PC-Z1: CPU 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(同VFP)

ARM NEON はCortex-A15までは倍精度が扱えなく、単精度のみ[13]。ARM NEON は 128ビット幅で単精度だと 4 FLOPS/Cycle だが、Cortex-A15 は FMA があるので 8 FLOPS/Cycle。

倍精度は、Cortex-A9 は VFPv3 により、2 cycle で足し算2回、乗算1回、合計3演算できるので、1.5 FLOPS/Cycle。


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:62 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef