Формат с плавающей запятой одинарной точности

Формат чисел с плавающей запятой одинарной точности (иногда называемый FP32 или float32 ) — это компьютерный числовой формат , обычно занимающий 32 бита в памяти компьютера ; он представляет широкий динамический диапазон числовых значений с использованием плавающей точки счисления .

Переменная с плавающей запятой может представлять более широкий диапазон чисел, чем переменная с фиксированной запятой той же разрядности, но за счет точности. 32-битная целочисленная переменная со знаком имеет максимальное значение 2 ³¹ - 1 = 2 147 483 647, тогда как 32-битная переменная с плавающей запятой по основанию 2 IEEE 754 имеет максимальное значение (2 - 2 ^-23 ) × 2 ¹²⁷ ≈ 3,4028235. × 10 ³⁸ . Все целые числа с 7 или менее десятичными цифрами и любые 2 ⁿ для целого числа -149 ≤ n ≤ 127 могут быть точно преобразованы в значение с плавающей запятой одинарной точности IEEE 754.

В стандарте IEEE 754-2008 32-битный формат по основанию 2 официально называетсяbinary32 ; в IEEE 754-1985 он был назван синглом . IEEE 754 определяет дополнительные типы с плавающей запятой, такие как 64-битные представления двойной точности по основанию 2 и, в последнее время, представления по основанию 10.

Одним из первых языков программирования , обеспечивающих типы данных с плавающей запятой одинарной и двойной точности, был Фортран . До широкого распространения стандарта IEEE 754-1985 представление и свойства типов данных с плавающей запятой зависели от производителя компьютера и модели компьютера, а также от решений, принятых разработчиками языков программирования. Например, тип данных одинарной точности GW-BASIC представлял собой 32-битный формат с плавающей запятой MBF.

Одинарная точность называется REAL в Fortran , ^[1] SINGLE-FLOAT в Common Lisp , ^[2] float в C , C++ , C# , Java , ^[3] Float в Haskell ^[4] и Swift , ^[5] и Single в Object Паскаль ( Delphi ), Visual Basic и MATLAB . Однако числа с плавающей запятой в Python , Ruby , PHP и OCaml и одиночные в версиях Octave до 3.2 относятся к числам двойной точности . В большинстве реализаций PostScript и некоторых встроенных системах поддерживается только одинарная точность.

Стандарт IEEE 754: двоичный32

Стандарт IEEE 754 определяет двоичный файл32 как имеющий:

Знаковый бит : 1 бит
Ширина экспоненты : 8 бит
Точность значащего числа : 24 бита (23 хранятся явно)

Это дает точность от 6 до 9 значащих десятичных цифр . Если десятичная строка, содержащая не более 6 значащих цифр, преобразуется в формат одинарной точности IEEE 754, давая нормальное число, а затем преобразуется обратно в десятичную строку с тем же количеством цифр, конечный результат должен соответствовать исходной строке. Если число IEEE 754 с одинарной точностью преобразуется в десятичную строку, содержащую не менее 9 значащих цифр, а затем преобразуется обратно в представление с одинарной точностью, конечный результат должен соответствовать исходному числу. ^[6]

Знаковый бит определяет знак числа, который также является знаком мантиссы. Экспонента представляет собой 8-битное целое число без знака от 0 до 255 в смещенной форме : значение экспоненты 127 представляет фактический ноль. Показатели степени варьируются от -126 до +127, поскольку показатели степени -127 (все 0) и +128 (все 1) зарезервированы для специальных чисел.

Истинная мантисса включает 23 дробных бита справа от двоичной точки и неявный ведущий бит (слева от двоичной точки) со значением 1, если только показатель степени не хранится со всеми нулями. Таким образом, в формате памяти появляются только 23 дробных бита мантиссы , но общая точность составляет 24 бита (что эквивалентно log ₁₀ (2 ²⁴ ) ≈ 7,225 десятичных цифр). Биты расположены следующим образом:

Реальное значение, принимаемое данными 32-битными двоичными32 данными с заданным знаком , смещенным показателем степени e (8-битное целое число без знака) и 23-битной дробью, равно

(-1)^{b_{31}}\times 2^{(b_{30}b_{29}\dots b_{23})_{2}-127}\times (1.b_{22) }b_{21}\dots b_{0})_{2}

который дает

{\text{value}}=(-1)^{\text{sign}}\times 2^{(E-127)}\times \left(1+\sum _{i=1}^ {23}b_{23-i}2^{-i}\right).

В этом примере:

${\text{sign}}=b_{31}=0$ ,
$(-1)^{\text{sign}}=(-1)^{0}=+1\in \{-1,+1\}$ ,
$E=(b_{30}b_{29}\dots b_{23})_{2}=\sum _{i=0}^{7}b_{23+i}2^{+i}=124\in \{1,\ldots ,(2^{8}-1)-1\}=\{1,\ldots ,254\}$ ,
$2^{(E-127)}=2^{124-127}=2^{-3}\in \{2^{-126},\ldots ,2^{127}\}$ ,
$1.b_{22}b_{21}...b_{0}=1+\sum _{i=1}^{23}b_{23-i}2^{-i}=1+1\cdot 2^{-2}=1.25\in \{1,1+2^{-23},\ldots ,2-2^{-23}\}\subset [1;2-2^{-23}]\subset [1;2)$ .

таким образом:

${\text{value}}=(+1)\times 2^{-3}\times 1.25=+0.15625$ .

Примечание:

$1+2^{-23}\approx 1.000\,000\,119$ ,
$2-2^{-23}\approx 1.999\,999\,881$ ,
$2^{-126}\approx 1.175\,494\,35\times 10^{-38}$ ,
$2^{+127}\approx 1.701\,411\,83\times 10^{+38}$ .

Экспоненциальное кодирование

Двоичная экспонента с плавающей запятой одинарной точности кодируется с использованием двоичного представления смещения, при этом нулевое смещение равно 127; также известное как смещение экспоненты в стандарте IEEE 754.

E _min = 01 _H −7F _H = −126
E _max = FE _H −7F _H = 127
Смещение показателя = 7F _H = 127

Таким образом, чтобы получить истинный показатель степени, определенный в двоичном представлении смещения, смещение 127 необходимо вычесть из сохраненного показателя степени.

Сохраненные показатели степени 00 _H и FF _H интерпретируются особым образом.

Минимальное положительное нормальное значение — и минимальное положительное (субнормальное) значение — . $2^{-126}\approx 1.18\times 10^{-38}$ $2^{-149}\approx 1.4\times 10^{-45}$

Преобразование десятичной дроби в двоичную32

В общем, обратитесь к самому стандарту IEEE 754 для строгого преобразования (включая поведение округления) действительного числа в его эквивалентный форматbinary32.

Здесь мы можем показать, как преобразовать вещественное число по основанию 10 в формат Binary32 IEEE 754, используя следующую схему:

Рассмотрим действительное число с целой и дробной частью, например 12,375.
Преобразуйте и нормализуйте целую часть в двоичную.
Преобразуйте дробную часть, используя следующую технику, как показано здесь.
Сложите два результата и откорректируйте их, чтобы получить правильное окончательное преобразование.

Преобразование дробной части: Рассмотрим 0,375, дробную часть 12,375. Чтобы преобразовать ее в двоичную дробь, умножьте дробь на 2, возьмите целую часть и повторите с новой дробью на 2, пока не будет найдена нулевая дробь или пока не будет достигнут предел точности, который составляет 23 цифры дроби для формата IEEE 754binary32. .

0.375\times 2=0.750=0+0.750\Rightarrow b_{-1}=0

, целая часть представляет цифру двоичной дроби. Чтобы продолжить, умножьте 0,750 на 2.

0.750\times 2=1.500=1+0.500\Rightarrow b_{-2}=1

0.500\times 2=1.000=1+0.000\Rightarrow b_{-3}=1

, дробь = 0,011, прекратить

Мы видим, что это можно точно представить в двоичном виде как . Не все десятичные дроби можно представить в виде конечной двоичной дроби. Например, десятичное число 0,1 не может быть представлено в двоичном формате точно, а только приблизительно. Поэтому: $(0.375)_{10}$ $(0.011)_{2}$

(12.375)_{10}=(12)_{10}+(0.375)_{10}=(1100)_{2}+(0.011)_{2}=(1100.011)_{2}

Поскольку формат IEEE 754binary32 требует, чтобы в формате были представлены действительные значения (см. Нормализованное число , Денормализованное число ), 1100,011 сдвигается вправо на 3 цифры, чтобы стать $(1.x_{1}x_{2}...x_{23})_{2}\times 2^{e}$ $(1.100011)_{2}\times 2^{3}$

Наконец мы видим это: $(12.375)_{10}=(1.100011)_{2}\times 2^{3}$

Из чего делаем вывод:

Показатель степени равен 3 (и поэтому в смещенной форме он равен $(127+3)_{10}=(130)_{10}=(1000\ 0010)_{2}$
Дробь равна 100011 (смотря справа от двоичной точки).

Из них мы можем сформировать результирующее 32-битное представление формата Binary32 IEEE 754 для числа 12,375:

(12.375)_{10}=(0\ 10000010\ 10001100000000000000000)_{2}=(41460000)_{16}

Примечание. Рассмотрите возможность преобразования 68.123 в формат IEEE 754binary32. Используя описанную выше процедуру, вы ожидаете получить последние 4 бита, равные 1001. Однако из-за поведения округления по умолчанию в формате IEEE 754 вы получаете , последние 4 бита которого равны 1010. $({\text{42883EF9}})_{16}$ $({\text{42883EFA}})_{16}$

Пример 1: Рассмотрим десятичную дробь 1. Мы видим, что: $(1)_{10}=(1.0)_{2}\times 2^{0}$

Из чего делаем вывод:

Показатель степени равен 0 (и поэтому в смещенной форме он равен $(127+0)_{10}=(127)_{10}=(0111\ 1111)_{2}$
Дробь равна 0 (если смотреть направо от двоичной точки в 1.0, то все ) $0=000...0$

Из них мы можем сформировать результирующее представление действительного числа 1 в 32-битном формате IEEE 754binary32:

(1)_{10}=(0\ 01111111\ 00000000000000000000000)_{2}=({\text{3F800000}})_{16}

Пример 2. Рассмотрим значение 0,25. Мы видим, что: $(0.25)_{10}=(1.0)_{2}\times 2^{-2}$

Из чего делаем вывод:

Показатель степени равен −2 (а в смещенной форме равен ) $(127+(-2))_{10}=(125)_{10}=(0111\ 1101)_{2}$
Дробь равна 0 (если смотреть направо от двоичной точки в 1,0, то все нули)

Из них мы можем сформировать результирующее 32-битное представление формата IEEE 754binary32 действительного числа 0,25:

(0.25)_{10}=(0\ 01111101\ 00000000000000000000000)_{2}=({\text{3E800000}})_{16}

Пример 3: Рассмотрим значение 0,375. Мы видели это $0.375={(0.011)_{2}}={(1.1)_{2}}\times 2^{-2}$

Следовательно, после определения представления 0,375 мы можем действовать, как указано выше: ${(1.1)_{2}}\times 2^{-2}$

Показатель степени равен −2 (а в смещенной форме равен ) $(127+(-2))_{10}=(125)_{10}=(0111\ 1101)_{2}$
Дробь равна 1 (если смотреть справа от двоичной точки в 1.1, то она будет одинарной ) $1=x_{1}$

Из них мы можем сформировать результирующее 32-битное представление формата IEEE 754binary32 действительного числа 0,375:

(0.375)_{10}=(0\ 01111101\ 10000000000000000000000)_{2}=({\text{3EC00000}})_{16}

Преобразование бинарного32 в десятичное

Если значение бинарного32, 41C80000 в этом примере, находится в шестнадцатеричном формате, мы сначала преобразуем его в двоичный:

{\text{41C8 0000}}_{16}=0100\ 0001\ 1100\ 1000\ 0000\ 0000\ 0000\ 0000_{2}

затем мы разбиваем его на три части: знаковый бит, показатель степени и мантисса.

Знаковый бит: $0_{2}$
Экспонента: $1000\ 0011_{2}=83_{16}=131_{10}$
Значение: $100\ 1000\ 0000\ 0000\ 0000\ 0000_{2}=480000_{16}$

Затем мы добавляем неявный 24-й бит к мантиссе:

Значение: $\mathbf {1} 100\ 1000\ 0000\ 0000\ 0000\ 0000_{2}={\text{C80000}}_{16}$

и декодируем значение показателя степени, вычитая 127:

Необработанный показатель: $83_{16}=131_{10}$
Декодированная экспонента: $131-127=4$

Каждый из 24 бит мантиссы (включая неявный 24-й бит), от бита 23 до бита 0, представляет значение, начиная с 1 и пополам для каждого бита, следующим образом:

бит 23 = 1бит 22 = 0,5бит 21 = 0,25бит 20 = 0,125бит 19 = 0,0625бит 18 = 0,03125бит 17 = 0,015625..бит 6 = 0,00000762939453125бит 5 = 0,000003814697265625бит 4 = 0,0000019073486328125бит 3 = 0,00000095367431640625бит 2 = 0,000000476837158203125бит 1 = 0,0000002384185791015625бит 0 = 0,00000011920928955078125

Мантисса в этом примере имеет три бита: бит 23, бит 22 и бит 19. Теперь мы можем декодировать мантиссу, складывая значения, представленные этими битами.

Декодированное значение: $1+0.5+0.0625=1.5625={\text{C80000}}/2^{23}$

Затем нам нужно умножить основание 2 в степени экспоненты, чтобы получить окончательный результат:

1.5625\times 2^{4}=25

Таким образом

{\text{41C8 0000}}=25

Это эквивалентно:

n=(-1)^{s}\times (1+m*2^{-23})\times 2^{x-127}

где $s$ — знаковый бит, $x$ — показатель степени, а $m$ — мантисса.

Ограничения точности десятичных значений (от 1 до 16777216)

Десятичные числа между 1 и 2: фиксированный интервал 2–23 ⁽ 1+2–23 ^— следующее по величине число с плавающей запятой после 1).
Десятичные числа от 2 до 4: фиксированный интервал 2–22 ^.
Десятичные числа от 4 до 8: фиксированный интервал 2–21 ^.
...
Десятичные числа между 2 ⁿ и 2 ⁿ⁺¹ : фиксированный интервал 2 ^n-23
...
Десятичные числа от 2 ²² = 4194304 до 2 ²³ = 8388608: фиксированный интервал 2 ⁻¹ = 0,5.
Десятичные числа от 2 ²³ =8388608 до 2 ²⁴ =16777216: фиксированный интервал 2 ⁰ =1

Ограничения точности целочисленных значений

Целые числа от 0 до 16777216 могут быть точно представлены (также применимо к отрицательным целым числам от -16777216 до 0).
Целые числа от 2 ²⁴ = 16777216 до 2 ²⁵ = 33554432 округляются до числа, кратного 2 (четное число).
Целые числа от 2 ²⁵ до 2 ²⁶ округляются до кратных 4.
...
Целые числа от 2 ⁿ до 2 ⁿ⁺¹ округляются до кратных 2 ^n-23
...
Целые числа от 2 ¹²⁷ до 2 ¹²⁸ округляются до числа, кратного 2 ^104.
Целые числа, большие или равные 2 ¹²⁸ , округляются до «бесконечности».

Известные случаи одинарной точности

Эти примеры даны в битовом представлении , в шестнадцатеричном и двоичном формате , значения с плавающей запятой. Сюда входят знак, (смещенный) показатель и мантисса.

0 00000000 00000000000000000000001 ₂ = 0000 0001 ₁₆ = 2 ⁻¹²⁶ × 2 ⁻²³ = 2 ⁻¹⁴⁹ ≈ 1,4012984643 × 10 ⁻⁴⁵ (наименьшее положительное субнормальное число)

0 00000000 11111111111111111111111 ₂ = 007f ffff ₁₆ = 2 ⁻¹²⁶ × (1 − 2 ⁻²³ ) ≈ 1,1754942107 ×10 ⁻³⁸ (самое большое субнормальное число)

0 00000001 00000000000000000000000 ₂ = 0080 0000 ₁₆ = 2 ⁻¹²⁶ ≈ 1,1754943508 × 10 ⁻³⁸ (наименьшее положительное нормальное число)

0 11111110 11111111111111111111111 ₂ = 7f7f ffff ₁₆ = 2 ¹²⁷ × (2 − 2 ⁻²³ ) ≈ 3,4028234664 × 10 ³⁸ (самое большое нормальное число)

0 0 01111110 11111111111111111111111 ₂ = 3f7f ffff ₁₆ = 1 - 2 ^-24 ≈ 0,999999940395355225 (наибольшее число меньше единицы)

0 01111111 00000000000000000000000 ₂ = 3f80 0000 ₁₆ = 1 (один)

0 01111111 00000000000000000000001 ₂ = 3f80 0001 ₁₆ = 1 + 2 ⁻²³ ≈ 1,00000011920928955 (наименьшее число больше единицы)

1 1 10000000 00000000000000000000000 ₂ = c000 0000 ₁₆ = −20 00000000 00000000000000000000000 ₂ = 0000 0000 ₁₆ = 01 00000000 00000000000000000000000 ₂ = 8000 0000 ₁₆ = −0 0 11111111 00000000000000000000000 ₂ = 7f80 0000 ₁₆ = бесконечность1 11111111 00000000000000000000000 ₂ = ff80 0000 ₁₆ = −бесконечность 0 10000000 10010010000111111011011 ₂ = 4049 0fdb ₁₆ ≈ 3,14159274101257324 ≈ π (пи)0 0 01111101 01010101010101010101011 ₂ = 3eaa aaab ₁₆ ≈ 0,333333343267440796 ≈ 1/3 x 11111111 10000000000000000000001 ₂ = ffc0 0001 ₁₆ = qNaN (на процессорах x86 и ARM)x 11111111 00000000000000000000001 ₂ = ff80 0001 ₁₆ = sNaN (на процессорах x86 и ARM)

По умолчанию 1/3 округляется вверх, а не вниз, как двойная точность , из-за четного числа битов в мантиссе. Биты 1/3, выходящие за точку округления, 1010...составляют более 1/2 единицы на последнем месте .

Кодировки qNaN и sNaN не указаны в IEEE 754 и реализованы по-разному на разных процессорах. Процессоры семейства x86 и семейства ARM используют старший бит поля мантиссы для обозначения тихого NaN. Процессоры PA-RISC используют этот бит для обозначения сигнального NaN.

Оптимизации

Формат с плавающей запятой допускает различные оптимизации благодаря простому генерированию аппроксимации логарифма по основанию 2 из целочисленного представления необработанного битового шаблона. Целочисленная арифметика и битовый сдвиг могут дать приближение к обратному квадратному корню ( быстрый обратный квадратный корень ), что обычно требуется в компьютерной графике .

Смотрите также

ИЭЭЭ 754
ISO/IEC 10967 , независимая от языка арифметика.
Примитивный тип данных
Численная стабильность
Научная нотация

Внешние ссылки

Живой редактор битовых комбинаций с плавающей запятой
Онлайн калькулятор
Онлайн-конвертер чисел IEEE 754 с одинарной точностью
Исходный код C для преобразования между IEEE двойной, одинарной и половинной точностью.

Формат с плавающей запятой одинарной точности

Стандарт IEEE 754: двоичный32

Экспоненциальное кодирование

Преобразование десятичной дроби в двоичную32

Преобразование бинарного32 в десятичное

Ограничения точности десятичных значений (от 1 до 16777216)

Ограничения точности целочисленных значений

Известные случаи одинарной точности

Оптимизации

Смотрите также

Рекомендации

Внешние ссылки