この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方)
出典検索?: "倍精度浮動小数点数"
倍精度浮動小数点数(ばいせいどふどうしょうすうてんすう、英: double-precision floating-point number)は、64ビットの浮動小数点数表現である。
倍精度とは単精度に対する表現であり、これは32ビットを1ワードとする32ビットアーキテクチャをもとにしている。
@media screen{.mw-parser-output .fix-domain{border-bottom:dashed 1px}}昔[いつ?]のFORTRANでは、単精度(REAL型)よりも精度が高ければ倍精度(DOUBLE PRECISION型)を名乗ることができた(そもそもワードの長さも浮動小数点のフォーマットも機種ごとにまちまちだった)。IBMのSystem/360で採用され大型機の事実上の標準となった、指数の基数が16の浮動小数点形式は、32ビット単精度では最悪の場合の精度が十進で6桁程度となり、技術計算では倍精度以上を使わねばならないという問題があった。(注:FORTRANではREAL型が1ワード、DOUBLE PRECISION型が2ワードという前提だった)
浮動小数点算術に関する標準であるIEEE 754では、単精度は32ビット(4オクテット)、倍精度は64ビット(8オクテット)である。いずれにしろ、「倍」というのは、精度に関係する仮数部(後述)の長さが正確に2倍である、といったような意味ではなく、全体の長さが2倍である所から来ているので、実際の所「倍精度」というのはかなり大雑把な言い方に過ぎない。 倍精度浮動小数点数は単精度浮動小数点数に比べて性能や帯域幅のコストがかかるが、表現できる数値の範囲が広いためPCでもよく使われている。浮動小数点方式一般に言えることであるが(単精度の場合と同様)指数部に使われる部分があるために、同じサイズの固定長整数が表現可能な値のうち、ある範囲より絶対値が大きいものについては、その全てを正確に表現することはできない。IEEE 754:2008でbinary64として標準化されたパラメータは次の通りである。 指数部が全て 0(ゼロ、および非正規化数)の場合を除き、仮数部で表現されるビットパターンのさらにひとつ上の桁に暗黙の 1 のビットがあるとみなす表現法(いわゆる「ケチ表現」)により、通常の数(正規化された数)の精度は、53ビット相当(十進に直すと約16桁、 53 log 10 ( 2 ) ≈ 15.955 {\displaystyle 53\log _{10}(2)\approx 15.955} )である。ビットのレイアウトは以下のようになる(具体的なレイアウトは、一般的なバイトアドレッシングのコンピュータにおいて、エンディアンの違いなどによる影響を受けることがあるが、それについては必ずしも標準化されていない)。 64ビットの「倍精度」データで表される実際の数値は、符号を s i g n {\displaystyle sign} 、バイアスのある指数部を e {\displaystyle e} 、52ビットの仮数部のビット列を b n {\displaystyle b_{n}} とすると、 = ( − 1 ) s i g n ( 1. b − 1 b − 2 ⋯ b − 52 ) 2 × 2 e − 1023 {\displaystyle =(-1)^{sign}(1.b_{-1}b_{-2}\cdots {}b_{-52})_{2}\times 2^{e-1023}} となり、より正確に表すと次のようになる。
倍精度浮動小数点数の形式
符号ビット ( s i g n {\displaystyle sign} ): 1 ビット
指数部 ( e x p o n e n t {\displaystyle exponent} ): 11 ビット
仮数部 ( f r a c t i o n {\displaystyle fraction} ): 52 ビット
v a l u e = ( − 1 ) s i g n ( 1 + ∑ i = 1 52 b − i 2 − i ) × 2 ( e − 1023 ) {\displaystyle value=(-1)^{sign}(1+\sum _{i=1}^{52}\ b_{-i}2^{-i})\times 2^{(e-1023)}}