FLOPS - 暇つぶしWikipedia

FLOPS

換算表
接頭辞FLOPS
ヨタ(Y)1024
ゼタ(Z)1021
エクサ(E)1018
ペタ(P)1015
テラ(T)1012
ギガ(G)109
メガ(M)106

FLOPS（フロップス、Floating-point Operations Per Second）はコンピュータの性能指標の一つ。
概要

FLoating point number Operations Per Secondの名称が示す通り、1秒間に浮動小数点演算が何回できるかの指標値ひいては性能値の事を指す。

ハードウェアの仕様として用いられるのは理論値であるが、ベンチマークソフトなどの計測から導き出される計測値は、理論値からは原則的に下がる。その為、理論値だけでなく、「理論的に算出された値の何%で実際のプログラムが動作するか」ということが重要になる（実測値）。実際の値が理論値に近いほど、より効率的なコンピュータだと考えられるからである。

パーソナルコンピュータ（以下PCと表記）向けのCPUやGPUメーカーは、計算ノードとしては単一のノードとなるので通常理論値で発表する（理論値がほぼそのまま実効値となる）が、一般的に並列方式スーパーコンピュータ（以下スパコンと表記）では多数の計算ノードのクラスタとして構築されるため、実際の計算能力を理論値に近づけるには高度な運用能力が必要であり、理論値ではなく LINPACK ベンチマークでの実測値がよく使われている。

2016年前後の時点において、普及している家庭用のPCのCPUはGFLOPS、スパコンの世界1位はPFLOPSの単位であるが、ムーアの法則にそって高速化が進んでおり、2018年に並列度1億でLINPACK性能値はEFLOPSの単位に到達すると予想されている [1]。2000年頃からの理論値ではPCとスパコンの比例値は、おおよそ1万倍の差で推移している。

2020年4月現在、世界最高速のスパコンはFrontierで1.102EFLOPS [2]。分散コンピューティングでは、Folding@homeが一時的に2.4EFLOPSを突破した [3]。
代表的なハードウェアの浮動小数点数演算能力
 PC (Intel)

名称コア数クロックFLOPS（倍精度）理論値/実測値理論値の計算式参照
 Pentium1コア300MHz300 MFLOPS理論値1 FLOPS/Clock × 300MHz
Pentium II1コア450MHz450 MFLOPS理論値1 FLOPS/Clock × 450MHz
Pentium III1コア1.4GHz2.1 GFLOPS理論値1.5 FLOPS/Clock × 1.4GHz
Pentium M1コア2.26GHz3.39 GFLOPS理論値1.5 FLOPS/Clock × 2.26GHz [4]
Pentium 41コア3.8GHz7.6 GFLOPS理論値2 FLOPS/Clock × 3.8GHz [4]
Pentium D2コア3.6GHz14.4 GFLOPS理論値2 FLOPS/Clock × 3.6GHz × 2コア [4]
Intel Atom
(Bonnell)2コア1.8GHz5.4 GFLOPS理論値1.5 FLOPS/Clock × 1.8GHz × 2コア
Core Solo1コア1.83GHz2.75 GFLOPS理論値1.5 FLOPS/Clock × 1.83GHz [5]
Core Duo2コア2.33GHz6.99 GFLOPS理論値1.5 FLOPS/Clock × 2.33GHz × 2コア [5]
Core 2 Duo2コア3.33GHz26.64 GFLOPS理論値4 FLOPS/Clock × 3.33GHz × 2コア [5]
Core 2 Extreme4コア3.2GHz51.2 GFLOPS理論値4 FLOPS/Clock × 3.2GHz × 4コア [5]
Core i7
(Nehalem)4コア3.33GHz53.28 GFLOPS理論値4 FLOPS/Clock × 3.33GHz × 4コア [5]
Core i7
(Westmere)6コア3.46GHz83.04 GFLOPS理論値4 FLOPS/Clock × 3.46GHz × 6コア [5]
Core i7
(Sandy Bridge)6コア3.3GHz158.4 GFLOPS理論値8 FLOPS/Clock × 3.3GHz × 6コア [5][6]
Core i7
(Haswell)8コア3.0 GHz (ベース)
3.5 GHz (ターボ)384 GFLOPS (ベース)
448 GFLOPS (ターボ)理論値16 FLOPS/Clock × 3.0 GHz × 8コア
Core i7
(Broadwell)10コア3.0 GHz (ベース)
3.5 GHz (ターボ)480 GFLOPS (ベース)
560 GFLOPS (ターボ)理論値16 FLOPS/Clock × 3.0 GHz × 10コア
Core i9(Rocket Lake)8コア5.2 GHz (ターボ)665 GFLOPS (ターボ)理論値16 FLOPS/Clock × 5.2 GHz × 8コア [7]
Core i9(Alder Lake)P8/E85.2/4.0 GHz (ターボ)1.18 TFLOPS (ターボ)理論値16 FLOPS/Clock × 5.2 GHz × 8コア

+ 16 FLOPS/Clock × 4.0 GHz × 8コア [8]

Core 2 Duoより1クロックで SSE で加算と乗算が計算できる [9]ようになり128ビット幅だと倍精度で 4 FLOPS/クロック。Sandy Bridgeより搭載した Intel AVXは256ビット幅なので8FLOPS/クロック。Intel FMAは融合積和命令により1命令で積と和の2演算ができるので16FLOPS/クロック [10]。単精度だと、これらの演算回数は2倍 [11]。Atomは1クロックで1つのSSE加算命令が、2クロックで1つのSSE乗算命令が実行できる [12]ため、合計すると倍精度で3FLOPS/クロックとなる。
サーバ (Intel)

名称コア数クロックFLOPS（倍精度）理論値/実測値理論値の計算式参照
Xeon
(Nehalem)8コア2.26 GHz72.32 GFLOPS理論値4 FLOPS/Clock × 2.26 GHz × 8コア
Xeon
(Westmere)10コア2.4 GHz96 GFLOPS理論値4 FLOPS/Clock × 2.4 GHz × 10コア
Xeon
(Sandy Bridge)8コア3.1 GHz198.4 GFLOPS理論値8 FLOPS/Clock × 3.1 GHz × 8コア
Xeon
(Ivy Bridge)15コア2.8 GHz336 GFLOPS理論値8 FLOPS/Clock × 2.8 GHz × 15コア
Xeon
(Haswell)18コア2.3 GHz662.4 GFLOPS理論値16 FLOPS/Clock × 2.3 GHz × 18コア
Xeon
(Broadwell)24コア2.2 GHz(ベース)
3.4 GHz(ターボ)0.845 TFLOPS(ベース)
1.306 TFLOPS(ターボ)理論値16 FLOPS/Clock × 3.4 GHz × 24コア
Xeon Phi
(Knights Corner)61コア1.238 GHz(ベース)
1.33 GHz(ターボ)1.208 TFLOPS(ベース)
1.298 TFLOPS(ターボ)理論値16 FLOPS/Clock × 1.33 GHz × 61コア
Xeon Phi
(Knights Landing)72コア1.5 GHz(ベース)
1.7 GHz(ターボ)3.456 TFLOPS(ベース)
3.917 TFLOPS(ターボ)理論値32 FLOPS/Clock × 1.7 GHz × 72コア

 PC/Server (AMD)

名称コア数クロックFLOPS（倍精度）理論値/実測値理論値の計算式参照
 Phenom II
(X4 980 Black Edition)4コア3.7GHz59.2 GFLOPS理論値4 FLOPS/Clock × 3.7GHz × 4コア
Phenom II
(X6 1100T Black Edition)6コア3.3GHz79.2 GFLOPS理論値4 FLOPS/Clock × 3.3GHz × 6コア
AMD Fusion E Series
(Bobcat)2コア1.65GHz6.6 GFLOPS理論値2 FLOPS/Clock × 1.65GHz × 2コア
AMD Opteron
(Magny-Cours)12コア2.5GHz120 GFLOPS理論値4 FLOPS/Clock × 2.5GHz × 12コア [6]
AMD FX
(Bulldozer)8コア/4モジュール3.9GHz124.8 GFLOPS理論値8 FLOPS/Clock × 3.9GHz × 4モジュール
AMD Opteron
(Interlagos)16コア/8モジュール3.1GHz198.4 GFLOPS理論値8 FLOPS/Clock × 3.1GHz × 8モジュール
Ryzen 9
(Vermeer)16コア4.9GHz（ブースト）1.254 TFLOPS理論値16 FLOPS/Clock × 4.9GHz × 16コア
EPYC
(Milan)64コア3.5GHz（ブースト）2.509 TFLOPS（ベース）
3.584 TFLOPS（ブースト）理論値16 FLOPS/Clock × 3.5GHz × 64コア

Bulldozer は1モジュールにつき2つの128ビット積和演算器があり、倍精度は2つのFMA命令を同時実行することにより 8 FLOPS/Cycle。
ARM

名称コア数クロックFLOPS理論値/実測値理論値の計算式参照
ARM111コア700MHz単精度：700 MFLOPS理論値単精度：1 FLOPS/Clock × 700MHz
ARM Cortex-A81コア1GHz単精度：4 GFLOPS理論値単精度：4 FLOPS/Clock × 1GHz
ARM Cortex-A94コア1.5GHz単精度：24 GFLOPS
倍精度：9 GFLOPS理論値単精度：4 FLOPS/Clock × 1.5GHz × 4コア
倍精度：1.5 FLOPS/Clock × 1.5GHz × 4コア
ARM Cortex-A154コア2.0GHz単精度：64 GFLOPS
倍精度：16 GFLOPS理論値単精度：8 FLOPS/Clock × 2.0GHz × 4コア
倍精度：2 FLOPS/Clock × 2.0GHz × 4コア
ARM Cortex-A574コア2.8GHz単精度：89.6 GFLOPS
倍精度：44.8 GFLOPS理論値単精度：8 FLOPS/Clock × 2.8GHz × 4コア
倍精度：4 FLOPS/Clock × 2.8GHz × 4コア

NetWalker PC-Z1: CPU 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(同VFP)

ARM NEON はCortex-A15までは倍精度が扱えなく、単精度のみ [13]。ARM NEON は 128ビット幅で単精度だと 4 FLOPS/Cycle だが、Cortex-A15 は FMA があるので 8 FLOPS/Cycle。

倍精度は、Cortex-A9 は VFPv3 により、2 cycle で足し算2回、乗算1回、合計3演算できるので、1.5 FLOPS/Cycle。Cortex-A15 は VFPv4 により、1 cycle で1回 FMA が計算できるので、2 FLOPS/Cycle。Cortex-A57より、NEONでも倍精度が扱えるようになる。
ゲーム機

※いずれも単精度（FP32）

ドリームキャスト: 1.4GFLOPS（SH-4単体）[14]

Xbox: 1.5GFLOPS

Xbox 360: 115.2GFLOPS（Xenon単体）[15]、240GFLOPS（Xenos GPU単体）[15]、1TFLOPS （システム全体）:但し詳しい内訳は不明 [16]

Xbox One: 1.3TFLOPS(GPU単体)[17]、Xbox One S: 1.4TFLOPS(GPU単体)[17]、Xbox One X: 6TFLOPS(GPU単体)[17]

Xbox Series X: 12.15TFLOPS(GPU単体)[18]、Xbox Series S: 4TFLOPS(GPU単体)[18]

PlayStation Portable: CPU 2.6GFLOPS / 9.6GFLOPS（ピーク時/システム全体）

PlayStation 2: 6.2GFLOPS（Emotion Engine単体）[19]

PlayStation 3: 218GFLOPS（Cell Broadband Engine単体）[20]、224GFLOPS （RSX単体）[21]、2TFLOPS （システム全体）:但し詳しい内訳は不明 [22]

PlayStation 4: 1.84TFLOPS（GPU単体）[21]、PlayStation 4 Pro: 4.2TFLOPS（GPU単体）[23]

PlayStation 5:10.3TFLOPS(GPU単体)[24]

スーパーコンピュータ

名称FLOPS理論値/実測値システム概要参照
 ENIAC300FLOPS1946年完成
CRAY-1160MFLOPS倍精度, 理論ピーク性能値1976年初号機納入
ディープ・ブルー11.38GFLOPS1989年開発開始、1997年チェス世界チャンピオンと対戦し、勝利
地球シミュレータ
（第1世代）35.86TFLOPS倍精度, LINPACK実測値TOP500 Jun 2002 1位
TSUBAME 1.287.01TFLOPS倍精度, LINPACK実測値TOP500 Jun 2009 41位
T2Kオープンスパコン101.74TFLOPS倍精度, LINPACK実測値
地球シミュレータ
（第2世代）122.4TFLOPSTOP500 Jun 2009 16位
GPUクラスタ
（長崎大学、濱田剛ら）158TFLOPS [25]
Blue Gene/L478.2TFLOPSTOP500 Nov 2007 1位
IBM Roadrunner1.105PFLOPS倍精度, LINPACK実測値TOP500 Jun 2008 1位
TSUBAME 2.01.192PFLOPS倍精度, LINPACK実測値TOP500 Nov 2011 4位

Xeon + NVIDIA Tesla
天河一号A2.566PFLOPS倍精度, LINPACK実測値TOP500 Nov 2010 1位

理論値 4.701 PFLOPS。実行効率 54.6%
Xeon + NVIDIA Tesla
TSUBAME 2.52.843PFLOPS倍精度, LINPACK実測値TOP500 Nov 2013 11位 , Green500 6位

理論値 5.609 PFLOPS。実行効率 50.7%
Xeon + NVIDIA Tesla
京10.510PFLOPS倍精度, LINPACK実測値TOP500 Jun 2011 1位

実行効率 93.2%[26] - CPU数88,128個, 理論値 11,280,384 GFLOPS (=128 GFLOPS×88,128)[27][28]
IBM Sequoia17.172PFLOPS倍精度, LINPACK実測値TOP500 Nov 2012 1位

理論値 20.133 PFLOPS。実行効率 85.3%
PowerPC A2
天河二号61.445PFLOPS倍精度, LINPACK実測値TOP500 Jun 2013 1位

理論値 100.679 PFLOPS。実行効率 61.0%
Xeon E5-2692v2 + Xeon Phi 31S1P
神威太湖之光93.01PFLOPSTOP500 Jun 2016 1位

理論値 125.436 PFLOPS。実行効率 74.1%
SW26010, Sunway
Summit143.5PFLOPSTOP500 Jun 2018 1位

理論値 200.795 PFLOPS。実行効率 71.4%
Power9 22C, Mellanox dual-rail EDR InfiniBand
富岳442.01PFLOPS倍精度, LINPACK実測値TOP500 Jun 2020 1位

理論値 520PFLOPS。実行効率　82.3％
Frontier1102.00PFLOPS
(1.102EFLOPS)倍精度, LINPACK実測値TOP500 Jun 2022 1位

理論値1685.65PLOPS。実行効率 65.4%
史上初めてLINPACKでEFLOPSを達成

 分散コンピューティング

名称FLOPS日付参加台数Active率参照
BOINC2.958PFLOPS2009年12月6日 [29]
8.563PFLOPS2013年12月26日986,613台8.51%
161.081PFLOPS2015年2月3日376,688台3.54%
160.76PFLOPS2017年3月14日739,507台4.79%
SETI@home
(BOINCに含む)658.210TFLOPS2013年12月26日
731.599TFLOPS2009年12月6日
UD Agent65TFLOPS2001年10月01日約96万台
Folding@home4.273PFLOPS2008年11月22日Active 353,966 CPU
(参加約355万台)
5.427PFLOPS2012年3月23日
2.4EFLOPS2020年4月14日 [3]

グラフィックスカード

単精度の積和算を 2 FLOPS/Clock で行える。
NVIDIA

GeForce 8600 GTS: 92.8GFLOPS / 139GFLOPS（積和算 / 積和算、積算合計）

GeForce 8800 GT: 336GFLOPS / 504GFLOPS（積和算 / 積和算、積算合計）

Size:62 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef