ベクトル演算 - 暇つぶしWikipedia

ベクトル演算

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。（このテンプレートの使い方）
出典検索?: "SIMD" ? ニュース・書籍・スカラー・ CiNii ・ J-STAGE ・ NDL ・ dlib.jp ・ジャパンサーチ・ TWL（2017年11月）
SIMDの概念図
PU = 処理装置 (processing unit)

single instruction, multiple data（シングルインストラクション・マルチプルデータ、SIMD [注釈 1][注釈 2]）とはコンピューターの演算処理に関するフリンの分類のひとつで、1つの命令を同時に複数のデータに適用する並列化の形態を指す [5]。この手法にもとづく演算をベクトル演算 (vector operation) と呼ぶこともある。通例、SIMD命令により同時処理するのに適したデータ構造あるいはデータ型を利用するため、命令実行の前に処理対象のデータ列はいったん結合（パック）され、処理完了後に分解（アンパック）される。結合されたデータはpacked data（パックデータ、パックトデータ）と呼ばれる。
解説

同一の演算を繰り返すような操作をスカラー計算機のように逐次的に行なうのではなく、一度に行なうものである。

例えば、4次元ベクトル同士の加算を実行する場合、X, Y, Z, Wの成分ごとに加算処理を行なう。 { c x ← a x + b x c y ← a y + b y c z ← a z + b z c w ← a w + b w {\displaystyle \left\{{\begin{array}{l}c_{x}\leftarrow a_{x}+b_{x}\\c_{y}\leftarrow a_{y}+b_{y}\\c_{z}\leftarrow a_{z}+b_{z}\\c_{w}\leftarrow a_{w}+b_{w}\end{array}}\right.}

ここで、それぞれの成分を32ビットの単精度浮動小数点数で表すとする。32ビットのレジスタ幅を持ち、1命令で32ビットのデータを1組だけ処理できるプロセッサの場合、成分ごとの加算処理すなわち4回の加算命令を逐次実行する必要がある。一方、128ビットのレジスタ幅を持ち、1命令で32ビットのデータ4組を同時に処理できるSIMD命令セットをサポートするプロセッサの場合、1回の命令で全成分をまとめて演算することができ、処理にかかる理論上の消費サイクル数は1/4になる。多くの場合、128ビットを使い切るデータはあまりなく、一般に128ビットを2分割し64ビット×2として使ったり、4分割し32ビット×4として使ったり、8分割し16ビット×8として使ったり、16分割し8ビット×16として使ったりするが、結局それぞれ1回のサイクルで2倍、4倍、8倍、16倍のデータ処理が可能になり、結果として相対的に低いクロック周波数でも高い性能を引き出しやすい。

例えば音声データ全体の音量を倍にしたいとする。デジタルデータではある瞬間の音量が数値として記録されているので、全ての値を倍にすればよい。このように大量のデータに同じ処理を施すときに性能を発揮するため、一般にはマルチメディアの処理に向いているとされる。

SIMD型で、複数の演算装置を並列に使用する計算を初期に試みたコンピュータとしては、ILLIAC IVがある。これに対し、Cray-1のような典型的なベクトル型スーパーコンピュータでは並列に計算するのではなく、パイプライン処理により1個の演算装置を休ませることなく計算させ続ける。ただしベクトル演算という用語は、広義には1命令で複数の要素を計算させるものについて、同時（並列）に計算するものも、パイプラインで計算するものも指すが、ベクトル計算機と言った場合は主として、20世紀のスーパーコンピュータに多く採用されていたパイプライン型を指すことが多い。

他の技術と同じく1990年代後半からパーソナルコンピュータのCPU/GPU、ゲーム機等にも応用された。

なお、SIMD命令を使ったとしても、プロセッサの命令実装形態によっては演算性能が向上しないケースもある。例えば256ビットSIMD命令に対応したプロセッサであっても、256ビット幅の命令を1サイクルで実行できるとは限らず、128ビットの演算器を使って2サイクルで実行する実装になっていることもある。

全ての処理をSIMDで行なえないこともないが、32ビット幅で十分な整数スカラー演算や論理演算の場合、本数の多い従来の汎用レジスタを有効利用するため、SIMDユニットは使わず通常のALUを使うことが多い。また、コンペア・アンド・スワップのような特殊命令は汎用レジスタとメモリの間でデータ交換をするため、SIMDレジスタは使えない。このような演算内容やプロセッサに合わせた最適化をコンパイラが行なってくれることも多い。
例
 マイクロプロセッサ
 命令拡張

 x86のMMX・3DNow!・ストリーミングSIMD拡張命令 (SSE)

x64のAVX

PowerPCのAltiVec (VMX)

ARMのNEON, SVE2 [6]（ARMアーキテクチャ#SIMD）

SPARCのVIS (en:Visual Instruction Set)

MIPSのMIPS-3D (en:MIPS-3D)・MDMX (en:MDMX)

PA-RISCの MAX (en:Multimedia Acceleration eXtensions)

Emotion EngineのCPUコア

 演算装置

演算装置自体がSIMD型のもの

 Cell Broadband Engine#Synergistic Processor Element

GPU

GPUはSIMD型がほとんどである。ただし、GPGPU対応が進むにつれて、1プロセッサで複数のデータを扱うSIMDだけではなく、複数のプロセッサを用いて実現されるハードウェアマルチスレッドに対して同一の命令を発行することで複数のデータを同時に処理するSIMT（英語版）の併用が主流となっている。

もともとGPUはXYZW/RGBA（各成分は32ビット単精度浮動小数点数）を同時に演算する128ビットの4-way SIMDが主流だったが、1サイクルで1回の単精度浮動小数点数もしくは32ビット整数の融合積和演算 (FMA) を行なうスカラー型プロセッサを複数束ねるSIMTが主流となった。しかしその後、単精度演算器にて半精度浮動小数点数演算を2回行なう2-way SIMDや、8ビット整数演算を4回行なう4-way SIMDをサポートするGPUも出現し、SIMDとSIMTの併用が始まっている [7]。

NVIDIA GeForce、NVIDIA Quadro、NVIDIA Teslaシリーズなど
NVIDIA製GPUでは32個のハードウェアスレッド集合をWarpと呼ぶ。

AMD Radeon、AMD FireProシリーズなど
AMD製GPUでは64個のハードウェアスレッド集合をWavefrontと呼ぶ。

イマジネーションテクノロジーズ（英語版）のPowerVR
PowerVR Series5では4-way、PowerVR Series6では16-wayのベクタユニット [8]
物理演算プロセッサ

Size:44 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef