ИЭЭЭ 754

Стандарт IEEE для арифметики с плавающей запятой ( IEEE 754 ) — это технический стандарт для арифметики с плавающей запятой, установленный в 1985 году Институтом инженеров по электротехнике и электронике (IEEE). В стандарте решены многие проблемы, обнаруженные в различных реализациях операций с плавающей запятой, которые затрудняют их надежное и переносимое использование . Многие аппаратные устройства с плавающей запятой используют стандарт IEEE 754.

Стандарт определяет:

арифметические форматы: наборы двоичных и десятичных данных с плавающей запятой, которые состоят из конечных чисел (включая нули со знаком и субнормальные числа ), бесконечностей и специальных значений «не числа» ( NaNs ).
форматы обмена: кодировки (битовые строки), которые можно использовать для обмена данными с плавающей запятой в эффективной и компактной форме.
правила округления: свойства, которые должны соблюдаться при округлении чисел во время арифметических операций и преобразований.
операции: арифметические и другие операции (например, тригонометрические функции ) над арифметическими форматами.
обработка исключений: индикация исключительных условий (таких как деление на ноль , переполнение и т.д. )

IEEE 754-2008 , опубликованный в августе 2008 года, включает почти весь исходный стандарт IEEE 754-1985 , а также стандарт IEEE 854-1987 для независимой от системы счисления арифметики с плавающей запятой . Текущая версия IEEE 754-2019 была опубликована в июле 2019 года. ^[1] Это незначительная доработка предыдущей версии, включающая в основном пояснения, исправления дефектов и новые рекомендуемые операции.

История

Первый стандарт арифметики с плавающей запятой, IEEE 754-1985 , был опубликован в 1985 году. Он охватывал только двоичную арифметику с плавающей запятой.

Новая версия, IEEE 754-2008 , была опубликована в августе 2008 года после семилетнего процесса пересмотра под председательством Дэна Зураса и под редакцией Майка Коулишоу . Он заменил как IEEE 754-1985 (двоичная арифметика с плавающей запятой), так и стандарт IEEE 854-1987 для независимой от основания арифметики с плавающей запятой . Двоичные форматы исходного стандарта включены в этот новый стандарт вместе с тремя новыми базовыми форматами: одним двоичным и двумя десятичными. Чтобы соответствовать текущему стандарту, реализация должна реализовать хотя бы один из базовых форматов как арифметический формат, так и формат обмена.

Международный стандарт ISO/IEC/IEEE 60559:2011 (с содержанием, идентичным IEEE 754-2008) был одобрен для принятия посредством ISO / IEC JTC 1 /SC 25 в соответствии с Соглашением ISO/IEEE PSDO ^[2]^[3] и опубликован . . ^[4]

Текущая версия IEEE 754-2019, опубликованная в июле 2019 года, является производной от IEEE 754-2008 и заменяет ее после процесса пересмотра, начатого в сентябре 2015 года под председательством Дэвида Г. Хафа и под редакцией Майка Коулишоу. Он включает в себя в основном пояснения (например, totalOrder ) и исправления дефектов (например, minNum ), но также включает некоторые новые рекомендуемые операции (например, augmentedAddition ). ^[5]^[6]

Международный стандарт ISO/IEC 60559:2020 (с содержанием, идентичным IEEE 754-2019) был одобрен для принятия через ISO/IEC JTC 1 /SC 25 и опубликован. ^[7]

Следующая прогнозируемая редакция стандарта состоится в 2028 году. ^[8]

Форматы

Формат IEEE 754 представляет собой «набор представлений числовых значений и символов». Формат может также включать способ кодирования набора. ^[9]

Формат с плавающей запятой определяется

основание (также называемое системой счисления ) b , которое в IEEE 754 равно 2 (двоичному) или 10 (десятичному);
точность p ;
диапазон показателя степени от emin до emax , где emin = 1 − emax для всех форматов IEEE 754.

Формат включает в себя

Конечные числа, которые можно описать тремя целыми числами: s = знак (ноль или единица), c = мантисса (или коэффициент ), имеющий не более p цифр при записи в базе b (т. е. целое число в диапазоне до 0). до b ^p − 1), а q = показатель степени такой, что emin ≤ q + p − 1 ≤ emax . Числовое значение такого конечного числа равно (−1) ^s × c × b ^q . ^[a] Кроме того, существуют два нулевых значения, называемые нулями со знаком : бит знака определяет, равен ли ноль +0 (положительный ноль) или −0 (отрицательный ноль).
Две бесконечности: +∞ и −∞.
Два вида NaN (не-числа): тихий NaN (qNaN) и сигнальный NaN (sNaN).

Например, если b = 10, p = 7 и emax = 96, то emin = −95, мантисса удовлетворяет условию 0 ≤ c ≤9 999 999 , а показатель степени равен −101 ≤ q ≤ 90 . Следовательно, наименьшее ненулевое положительное число, которое может быть представлено, равно 1×10 ⁻¹⁰¹ , а самое большое — 9999999×10 ⁹⁰ (9,999999×10 ⁹⁶ ), поэтому полный диапазон чисел составляет от −9,999999×10 ⁹⁶ до 9,999999×. 10 ⁹⁶ . Числа − b ^{1− emax} и b ^{1− emax} (здесь −1×10 ⁻⁹⁵ и 1×10 ⁻⁹⁵ ) являются наименьшими (по величине) нормальными числами ; ненулевые числа между этими наименьшими числами называются субнормальными числами .

Представление и кодирование в памяти

Некоторые числа могут иметь несколько возможных представлений в экспоненциальном формате. Например, если b = 10 и p = 7, то -12,345 может быть представлено как -12345×10 ^-3 , -123450×10 ^-4 и -1234500×10 ^-5 . Однако для большинства операций, таких как арифметические операции, результат (значение) не зависит от представления входных данных.

Для десятичных форматов допустимо любое представление, и набор этих представлений называется когортой . Когда результат может иметь несколько представлений, стандарт определяет, какой член когорты выбирается.

Для двоичных форматов представление становится уникальным путем выбора наименьшего представимого показателя степени, позволяющего точно представить значение. Кроме того, показатель степени не представляется напрямую, но добавляется смещение , так что наименьший представимый показатель степени представляется как 1, а 0 используется для субнормальных чисел. Для чисел с показателем степени в нормальном диапазоне (поле показателя не состоит ни из единиц, ни из нулей) старший бит мантиссы всегда будет равен 1. Следовательно, ведущая 1 может подразумеваться, а не присутствовать явно в кодировке памяти. и согласно стандарту явно представленная часть мантиссы будет лежать между 0 и 1. Это правило называется соглашением о ведущих битах , неявным соглашением битов или соглашением скрытых битов . Это правило позволяет двоичному формату иметь дополнительную точность. Соглашение о ведущих битах не может использоваться для субнормальных чисел, поскольку они имеют показатель степени, выходящий за пределы диапазона нормального показателя, и масштабируются по наименьшему представленному показателю, используемому для наименьших нормальных чисел.

Из-за возможности множественного кодирования (по крайней мере, в форматах, называемых форматами обмена ), NaN может нести другую информацию: бит знака (который не имеет значения, но может использоваться некоторыми операциями) и полезную нагрузку , которая предназначена для диагностики. информация, указывающая источник NaN (но полезная нагрузка может иметь и другие применения, например NaN-бокс ^[10]^[11]^[12] ).

Базовые и обменные форматы

Стандарт определяет пять основных форматов, названных в честь их числовой базы и количества бит, используемых в их кодировке обмена. Существует три базовых формата двоичных чисел с плавающей запятой (закодированные 32, 64 или 128 битами) и два базовых формата десятичных чисел с плавающей запятой (закодированные 64 или 128 битами). Форматы двоичный32 и двоичный64 представляют собой одинарный и двойной форматы IEEE 754-1985 соответственно. Соответствующая реализация должна полностью реализовывать хотя бы один из базовых форматов.

Стандарт также определяет форматы обмена , которые обобщают эти базовые форматы. ^[13] Для двоичных форматов требуется соглашение о ведущих битах. В следующей таблице приведены некоторые возможные форматы обмена (включая базовые форматы).

В таблице выше целочисленные значения являются точными, тогда как значения в десятичной записи (например, 1,0) являются округленными значениями. Указанные минимальные показатели степени относятся к обычным числам; специальное представление субнормальных чисел позволяет представлять даже меньшие (по величине) числа с некоторой потерей точности. Например, наименьшее положительное число, которое можно представить в двоичном формате64, равно ^2–1074 ; вклады в цифру -1074 включают значение emin -1022 и все 53 бита значащего значения, кроме одного (2 ^{-1022 - (53 - 1)} = 2 ^-1074 ).

Десятичные цифры — это точность формата, выраженная в эквивалентном количестве десятичных цифр. Оно вычисляется как цифры × log ₁₀ по основанию . Например, двоичное число128 имеет примерно ту же точность, что и 34-значное десятичное число.

log ₁₀ MAXVAL — это мера диапазона кодирования. Его целая часть — это наибольшая экспонента, отображаемая на выходе значения в экспоненциальной записи с одной ведущей цифрой в мантиссе перед десятичной запятой (например, 1,698·10 ³⁸ находится рядом с самым большим значением в двоичном формате32, 9,999999·10 ⁹⁶ является самым большим значением в десятичном формате32).

Форматы двоичный32 (одинарный) и двоичный64 (двойной) являются двумя наиболее распространенными форматами, используемыми сегодня. На рисунке ниже показана абсолютная точность для обоих форматов в диапазоне значений. Этот рисунок можно использовать для выбора подходящего формата с учетом ожидаемого значения числа и требуемой точности.

Точность двоичных32 и двоичных64 в диапазоне от 10–12 ^до 10 ^12.

Пример макета для 32-битной плавающей запятой :

и 64-битная раскладка аналогична.

Расширенные и расширяемые прецизионные форматы

Стандарт определяет дополнительные расширенные и расширяемые форматы точности, которые обеспечивают большую точность, чем базовые форматы. ^[14] Формат расширенной точности расширяет базовый формат за счет большей точности и большего диапазона показателей. Расширяемый формат точности позволяет пользователю указывать диапазон точности и показателя степени. Реализация может использовать любое внутреннее представление, которое она выберет для таких форматов; все, что необходимо определить, — это его параметры ( b , p и emax ). Эти параметры однозначно описывают набор конечных чисел (комбинаций знака, мантиссы и показателя степени для данного основания), которые он может представлять.

Стандарт рекомендует, чтобы языковые стандарты предоставляли метод указания p и emax для каждой поддерживаемой базы b . ^[15] Стандарт рекомендует, чтобы языковые стандарты и реализации поддерживали расширенный формат, который имеет большую точность, чем самый большой базовый формат, поддерживаемый для каждого основания счисления b . ^[16] Для расширенного формата с точностью между двумя базовыми форматами диапазон экспоненты должен быть таким же большим, как и у следующего более широкого базового формата. Так, например, 64-битное двоичное число расширенной точности должно иметь значение Emax не менее 16383. 80-битный расширенный формат x87 соответствует этому требованию.

Форматы обмена

Форматы обмена предназначены для обмена данными с плавающей запятой с использованием битовой строки фиксированной длины для данного формата.

Двоичный

Для обмена двоичными числами с плавающей запятой определены форматы обмена длиной 16 бит, 32 бита, 64 бита и любое кратное 32 битам ≥ 128 ^{[e] .}16-битный формат предназначен для обмена или хранения небольших чисел (например, для графики).

Схема кодирования для этих форматов двоичного обмена такая же, как в IEEE 754-1985: бит знака, за которым следуют w битов экспоненты, которые описывают смещение экспоненты на смещение , и p - 1 битов, которые описывают мантиссу. Ширина поля экспоненты для k -битного формата вычисляется как w = round(4 log ₂ ( k )) − 13. Существующие 64- и 128-битные форматы следуют этому правилу, но 16- и 32-битные форматы форматы имеют больше битов экспоненты (5 и 8 соответственно), чем дает эта формула (3 и 7 соответственно).

Как и в IEEE 754-1985, поле смещенной экспоненты заполняется всеми битами 1, чтобы указать либо бесконечность (конечное поле мантиссы = 0), либо NaN (конечное поле мантиссы ≠ 0). Для NaN тихие NaN и сигнальные NaN различаются использованием исключительно старшего бита конечного поля мантиссы, ^[f] , а полезная нагрузка передается в остальных битах.

Десятичная дробь

Для обмена десятичными числами с плавающей запятой определены форматы обмена, кратные 32 битам. Как и в случае двоичного обмена, схема кодирования десятичных форматов обмена кодирует знак, показатель степени и мантиссу. Определены две разные кодировки на уровне битов, и обмен осложняется тем, что может потребоваться некоторый внешний индикатор используемой кодировки.

Эти два параметра позволяют кодировать мантиссу как сжатую последовательность десятичных цифр с использованием плотно упакованных десятичных чисел или, альтернативно, как двоичное целое число . Первый более удобен для прямой аппаратной реализации стандарта, а второй больше подходит для программной эмуляции на бинарном компьютере. В любом случае набор чисел (комбинации знака, мантиссы и показателя степени), которые могут быть закодированы, идентичен, а специальные значения (±ноль с минимальным показателем, ±бесконечность, тихие NaN и сигнальные NaN) имеют идентичное кодирование.

Правила округления

Стандарт определяет пять правил округления. Первые два правила округляются до ближайшего значения; остальные называются направленными округлениями :

Округление до ближайшего

Округление до ближайшего значения, привязка к четному – округление до ближайшего значения; если число попадает на полпути, оно округляется до ближайшего значения с четной младшей цифрой.
Округление до ближайшего значения, привязка от нуля (или привязка к нулю ) – округление до ближайшего значения; если число падает посередине, оно округляется до ближайшего значения выше (для положительных чисел) или ниже (для отрицательных чисел).

В крайних случаях значение, величина которого строго меньше, будет округлено до минимального или максимального конечного числа (в зависимости от знака значения). Любые числа именно этой величины считаются ничьими; этот выбор связи можно представить как среднюю точку между и , которые, если бы показатель степени не был ограничен, были бы следующими представимыми числами с плавающей запятой, большими по величине. Числа, величина которых строго больше $k,$ округляются до соответствующей бесконечности. ^[17] $k=b^{\text{emax}}\left(b-{\tfrac {1}{2}}b^{1-p}\right)$ $\pm b^{\text{emax}}(b-b^{1-p})$ $\pm b^{{\text{emax}}+1}$

«Округление до ближайшего значения, привязка к четному» — это значение по умолчанию для двоичных чисел с плавающей запятой и рекомендуемое значение по умолчанию для десятичных чисел. «Округление до ближайшего, привязка к дальнему» требуется только для десятичных реализаций. ^[18]

Направленные округления

Округление к 0 – направленное округление к нулю (также известное как усечение ).
Округление в сторону +∞ – направленное округление в сторону положительной бесконечности (также известное как округление вверх или к потолку ).
Округление в сторону −∞ – направленное округление в сторону отрицательной бесконечности (также известное как округление вниз или до пола ).

Если не указано иное, результат операции с плавающей запятой определяется применением функции округления к бесконечно точному (математическому) результату. Такая операция называется корректным округлением . Это требование называется правильным округлением . ^[19]

Необходимые операции

К обязательным операциям для поддерживаемого арифметического формата (включая базовые форматы) относятся:

Преобразования в целое число и обратно ^[20]^[21]
Предыдущие и следующие последовательные значения ^[20]
Арифметические операции (сложение, вычитание, умножение, деление, квадратный корень, объединенное умножение-сложение , остаток, минимум, максимум) ^[20]^[21]
Преобразования (между форматами, в строки и обратно и т. д. ) ^[22]^[23]
Масштабирование и (для десятичных чисел) квантование ^[24]^[25]
Копирование и манипулирование знаком (абс, отрицание и т. д. ) ^[26]
Сравнения и общий порядок ^[27]^[28]
Классификация чисел (субнормальные, конечные и т. д. ) и проверка на NaN ^[29]
Тестирование и установка флагов состояния ^[30]

Предикаты сравнения

Стандарт предоставляет предикаты сравнения для сравнения одних данных с плавающей запятой с другими в поддерживаемом арифметическом формате. ^[31] Любое сравнение с NaN считается неупорядоченным. −0 и +0 сравниваются как равные.

Предикат полного порядка

Стандарт предоставляет предикат totalOrder , который определяет общий порядок канонических членов поддерживаемого арифметического формата. ^[32] Предикат согласуется с предикатами сравнения, когда одно число с плавающей запятой меньше другого. Предикат totalOrder не накладывает полный порядок на все кодировки в формате. В частности, он не различает разные кодировки одного и того же представления с плавающей запятой, например, когда одна или обе кодировки неканоничны. ^[32] IEEE 754-2019 включает разъяснения totalOrder .

Для форматов двоичного обмена, кодирование которых соответствует рекомендациям IEEE 754-2008 по размещению сигнального бита NaN , сравнение идентично тому, которое тип преобразует числа с плавающей запятой в целое число со знаком и величиной (при условии, что порядок полезной нагрузки соответствует этому сравнение), старый прием для сравнения FP без FPU. ^[33]

Обработка исключений

Стандарт определяет пять исключений, каждое из которых возвращает значение по умолчанию и имеет соответствующий флаг состояния, который возникает при возникновении исключения. ^[g] Никакой другой обработки исключений не требуется, но рекомендуются дополнительные альтернативы, отличные от стандартных (см. § Альтернативная обработка исключений).

Пять возможных исключений:

Недопустимая операция: математически неопределенная, например , квадратный корень из отрицательного числа. По умолчанию возвращает qNaN.
Деление на ноль: операция с конечными операндами дает точный бесконечный результат, например , 1/0 или log(0). По умолчанию возвращает ±бесконечность.
Переполнение: конечный результат слишком велик для точного представления ( т. е . его показатель с неограниченным диапазоном показателей будет больше, чем emax ). По умолчанию возвращает ±бесконечность для режимов округления до ближайшего (и следует правилам округления для режимов направленного округления).
Недостаток: результат очень мал (вне нормального диапазона). По умолчанию возвращает число, меньшее или равное минимальному положительному нормальному числу по величине (согласно правилам округления); Ненормальное число всегда подразумевает исключение недостаточности, но по умолчанию, если оно точное, флаг не поднимается.
Неточно: точный ( т. е . неокругленный) результат невозможно представить точно. По умолчанию возвращает правильно округленный результат.

Это те же пять исключений, которые были определены в IEEE 754-1985, но исключение деления на ноль было распространено на операции, отличные от деления.

Некоторые реализации десятичных чисел с плавающей запятой определяют дополнительные исключения, ^[34]^[35] , которые не являются частью IEEE 754:

Зафиксировано: показатель степени результата слишком велик для формата назначения. По умолчанию к коэффициенту добавляются конечные нули, чтобы уменьшить показатель степени до наибольшего полезного значения. Если это невозможно (поскольку это приведет к тому, что количество необходимых цифр превысит формат назначения), возникает исключение переполнения.
Округлено: для коэффициента результата требуется больше цифр, чем предусмотрено форматом назначения. Неточное исключение сигнализируется, если какие-либо ненулевые цифры отбрасываются.

Кроме того, такие операции, как квантование, когда любой из операндов бесконечен или когда результат не соответствует формату назначения, также будут сигнализировать об исключении недопустимой операции. ^[36]

Особые значения

Знаковый ноль

В стандарте IEEE 754 ноль имеет знак, что означает, что существуют как «положительный ноль» (+0), так и «отрицательный ноль» (-0). В большинстве сред выполнения положительный ноль обычно печатается как " 0", а отрицательный ноль - как " -0". Эти два значения ведут себя как равные при числовом сравнении, но некоторые операции возвращают разные результаты для +0 и -0. Например, 1/(-0) возвращает отрицательную бесконечность, а 1/(+0) возвращает положительную бесконечность (так что сохраняется тождество $1/(1/\pm\infty) = \pm\infty ).$ Другие распространенные функции с разрывом в точке x =0, которые могут обрабатывать +0 и −0 по-разному, включают log ( x ), Signum ( x ) и главный квадратный корень из $y + xi$ для любого отрицательного числа y . Как и в любой схеме аппроксимации, операции с «отрицательным нулем» иногда могут вызывать путаницу. Например, в IEEE 754 $x = y$ не всегда подразумевает $1/ x = 1/ y$ , поскольку 0 = −0 , но 1/0 ≠ 1/(−0) . ^[37]

Субнормальные числа

Субнормальные значения заполняют пробел нижнего уровня значениями, где абсолютное расстояние между ними такое же, как и для соседних значений сразу за пределами пробела нижнего уровня. Это улучшение по сравнению со старой практикой, когда в промежутке нижнего переполнения просто был нуль, а результаты нижнего переполнения заменялись нулем (сброс до нуля). ^[38]

Современное оборудование с плавающей запятой обычно обрабатывает субнормальные значения (а также нормальные значения) и не требует программной эмуляции для субнормальных значений.

Бесконечности

Бесконечности расширенной линии действительных чисел могут быть представлены в типах данных IEEE с плавающей запятой, точно так же, как обычные значения с плавающей запятой, такие как 1, 1,5 и т. д. Они никоим образом не являются значениями ошибок, хотя часто (зависит от округления) ) используются в качестве замещающих значений при переполнении. При исключении деления на ноль в качестве точного результата возвращается положительная или отрицательная бесконечность. Бесконечность также может быть представлена как цифра (например, макрос «INFINITY» в языке C или « $\infty$ », если язык программирования допускает такой синтаксис).

IEEE 754 требует разумной обработки бесконечностей, например:

$(+\infty) + (+7) = (+\infty)$
$(+\infty) \times (-2) = (-\infty)$
$(+\infty) \times 0 =$ NaN – нет смысла делать

NaN

IEEE 754 определяет специальное значение, называемое «Не число» (NaN), которое должно быть возвращено в результате определенных «недопустимых» операций, таких как 0/0, $\infty\times0$ или sqrt(-1). В общем, значения NaN будут распространяться, т. е. большинство операций, включающих NaN, приведут к результату NaN, хотя функции, которые дают определенный результат для любого заданного значения с плавающей запятой, будут делать то же самое и для NaN, например NaN ^ 0 = 1. Существует два типа NaN: тихие NaN по умолчанию и, опционально, сигнальные NaN. Сигнализация NaN в любой арифметической операции (включая числовые сравнения) вызовет сигнализацию исключения «недопустимой операции».

Представление NaN, определенное стандартом, имеет некоторые неуказанные биты, которые можно использовать для кодирования типа или источника ошибки; но стандарта для этой кодировки не существует. Теоретически сигнальные NaN могут использоваться системой времени выполнения для пометки неинициализированных переменных или расширения чисел с плавающей запятой другими специальными значениями, не замедляя вычисления с обычными значениями, хотя такие расширения не распространены.

Обоснование дизайна

Это распространенное заблуждение, что обсуждаемые здесь более эзотерические особенности стандарта IEEE 754, такие как расширенные форматы, NaN, бесконечности, субнормальные числа и т. д., представляют интерес только для числовых аналитиков или для продвинутых числовых приложений. На самом деле верно обратное: эти функции предназначены для предоставления безопасных и надежных настроек по умолчанию для неискушенных в числовых вычислениях программистов, а также для поддержки сложных числовых библиотек экспертами. Главный разработчик IEEE 754 Уильям Кахан отмечает, что неверно «... [считать] функции стандарта IEEE 754 для двоичной арифметики с плавающей запятой, которые ... [не считаются] функциями, которые могут использоваться только числовыми Эксперты. Факты прямо противоположные. В 1977 году эти функции были заложены в процессор Intel 8087, чтобы обслуживать максимально широкий рынок... Анализ ошибок подсказывает нам, как разработать арифметику с плавающей запятой, подобную стандарту IEEE 754, умеренно толерантную к хорошо -значит невежество среди программистов». ^[39]

Специальные значения, такие как бесконечность и NaN, гарантируют, что арифметика с плавающей запятой является алгебраически полной: каждая операция с плавающей запятой дает четко определенный результат и по умолчанию не вызывает машинного прерывания или прерывания. Более того, выбор специальных значений, возвращаемых в исключительных случаях, был разработан так, чтобы во многих случаях давать правильный ответ. Например, согласно арифметике IEEE 754, непрерывные дроби, такие как R(z) := 7 - 3/[z - 2 - 1/(z - 7 + 10/[z - 2 - 2/(z - 3)]) ] даст правильный ответ на всех входных данных, поскольку деление потенциала на ноль, например, для z = 3 , правильно обрабатывается заданием +бесконечности, и поэтому такие исключения можно безопасно игнорировать. ^[40] Как отметил Кахан, необработанная ловушка, последовавшая за переполнением при преобразовании чисел с плавающей запятой в 16-битные целые числа, которая привела к потере ракеты Ariane 5, не произошла бы при стандартной политике IEEE 754 с плавающей запятой. ^[39]
Субнормальные числа гарантируют, что для конечных чисел с плавающей запятой x и y x - y = 0 тогда и только тогда, когда x = y, как и ожидалось, но что не выполнялось в более ранних представлениях с плавающей запятой. ^[41]
По поводу обоснования разработки 80-битного формата x87 Кахан отмечает: «Этот расширенный формат предназначен для использования с незначительной потерей скорости для всех операций, кроме простейшей арифметики с операндами с плавающей точкой и двойными операндами. Например, его следует использовать для чистых переменных в циклах, которые реализуют повторения, такие как полиномиальная оценка, скалярные произведения, частичные и непрерывные дроби. Это часто предотвращает преждевременное переполнение/недополнение или серьезную локальную отмену, которая может испортить простые алгоритмы». ^[42] Вычисление промежуточных результатов в расширенном формате с высокой точностью и расширенным показателем степени имеет прецеденты в исторической практике научных расчетов и в конструкции научных калькуляторов , например, финансовые калькуляторы Hewlett -Packard выполняли арифметические и финансовые функции с точностью до трех более значащих десятичных знаков. чем они хранились или отображались. ^[42] Реализация расширенной точности позволила легко разработать стандартные библиотеки элементарных функций, которые обычно давали результаты двойной точности в пределах одной единицы на последнем месте (ULP) на высокой скорости.
Правильное округление значений до ближайшего представимого значения позволяет избежать систематических погрешностей в расчетах и замедляет рост ошибок. Округление связей даже устраняет статистическую погрешность, которая может возникнуть при сложении аналогичных цифр.
Направленное округление было задумано как средство проверки границ ошибок, например, в интервальной арифметике . Он также используется при реализации некоторых функций.
Математическая основа операций, в частности правильное округление, позволяет доказать математические свойства и разработать алгоритмы с плавающей запятой, такие как 2Sum, Fast2Sum и алгоритм суммирования Кахана , например, для повышения точности или относительно простой реализации арифметических подпрограмм с многократной точностью.

Свойством форматов одинарной и двойной точности является то, что их кодирование позволяет легко сортировать их без использования аппаратных средств с плавающей запятой, как если бы биты представляли целые числа со знаком и величиной , хотя неясно, было ли это конструктивным соображением (это Кажется примечательным, что более раннее шестнадцатеричное представление IBM с плавающей запятой также имело это свойство для нормализованных чисел). При распространенном представлении с дополнением до двух интерпретация битов как целых чисел со знаком правильно сортирует положительные значения, но с обратным расположением отрицательных значений; в качестве одного из возможных исправлений этого, с помощью xor , чтобы перевернуть знаковый бит для положительных значений и все биты для отрицательных значений, все значения становятся сортируемыми как целые числа без знака (с −0 < +0 ). ^[33]

7 десятичных цифр для decimal32,
16 десятичных цифр для decimal64,
34 десятичных цифры для десятичного числа 128.

Алгоритмы с кодом для правильного округления преобразования из двоичного числа в десятичное и десятичное в двоичное обсуждаются Гаем ^[57] , а для тестирования – Паксоном и Каханом. ^[58]

Шестнадцатеричные литералы

Стандарт рекомендует обеспечивать преобразования во внешние шестнадцатерично-значащие символы и обратно на основе шестнадцатеричных литералов с плавающей запятой C99 . Такой литерал состоит из необязательного знака ( +или -), индикатора «0x», шестнадцатеричного числа с точкой или без нее, индикатора степени «p» и десятичного показателя степени с необязательным знаком. Синтаксис не чувствителен к регистру. ^[59] Десятичный показатель степени масштабируется по степени 2, например, 0x0.1p-4это 1/256. ^[60]

Смотрите также

формат чисел с плавающей запятой bfloat16
Бинада
Сопроцессор
C99 для примеров кода, демонстрирующих доступ и использование функций IEEE 754.
Арифметика с плавающей запятой , история, обоснование конструкции и пример использования функций IEEE 754.
Арифметика с фиксированной запятой для альтернативного подхода к вычислениям с рациональными числами (особенно полезно, когда диапазон экспоненты известен, фиксирован или ограничен во время компиляции)
IBM System z9 , первый процессор, реализующий десятичную арифметику IEEE 754-2008 (с использованием аппаратного микрокода)
IBM z10 , IBM z196 , IBM zEC12 и IBM z13 — процессоры, полностью аппаратно реализующие десятичную арифметику IEEE 754-2008.
ISO/IEC 10967 , языково-независимая арифметика (LIA)
Minifloat — двоичные форматы с плавающей запятой низкой точности, соответствующие принципам IEEE 754.
Процессоры POWER6 , POWER7 и POWER8 , полностью аппаратно реализующие десятичную арифметику IEEE 754-2008.
strictfp — устаревшее ключевое слово в языке программирования Java , которое ранее ограничивало арифметику стандартами одинарной и двойной точности IEEE 754, чтобы обеспечить воспроизводимость на распространенных аппаратных платформах (начиная с Java 17, такое поведение является обязательным).
Дилемма составителя таблиц , чтобы узнать больше о правильном округлении функций.
Стандартная среда Apple Numerics
Коническая с плавающей запятой
Posit , альтернативный числовой формат.

Примечания

^ Например, если основание равно 10, знак равен 1 (обозначающий отрицательное значение), мантисса равна 12345, а показатель степени равен −3, то значение числа равно (−1) ¹ × 12345 × 10 ⁻³ = −1 × 12345 × 0,001 = −12,345.
^ Приблизительные значения. Точные значения см. в отдельной статье Википедии для каждого формата.
^ Количество цифр в используемой системе счисления, включая любые неявные цифры, но не считая знакового бита.
^ Соответствующее количество десятичных цифр, более подробную информацию см. в тексте.
^ В отличие от десятичного формата, не существует двоичного формата обмена длиной 96 бит. Однако такой формат по-прежнему разрешен как формат без обмена.
^ Стандарт рекомендует 0 для сигнальных NaN, 1 для тихих NaN, так что сигнальные NaN можно заглушить, изменив только этот бит на 1, в то время как обратное может привести к кодированию бесконечности.
^ В некоторых случаях опустошения флаг не поднимается.
^ В качестве ограничения реализации правильное округление гарантируется только для требуемого количества десятичных цифр плюс 3 для наибольшего поддерживаемого двоичного формата. Например, если двоичный формат 32 является крупнейшим поддерживаемым двоичным форматом, то преобразование из десятичной внешней последовательности с 12 десятичными цифрами гарантированно будет правильно округлено при преобразовании в двоичный формат 32; а вот преобразование последовательности из 13 десятичных цифр нет; однако стандарт рекомендует, чтобы реализации не налагали такого ограничения.

дальнейшее чтение

Гольдберг, Дэвид (март 1991 г.). «Что должен знать каждый ученый-компьютерщик об арифметике с плавающей запятой» (PDF) . Обзоры вычислительной техники ACM . 23 (1): 5–48. дои : 10.1145/103162.103163 . S2CID 222008826. Архивировано (PDF) из оригинала 20 июля 2006 г. Проверено 20 января 2016 г.([1], [2], [3])
Хекер, Крис (февраль 1996 г.). «Давайте перейдем к (плавающей) точке» (PDF) . Журнал разработчиков игр : 19–24. ISSN 1073-922X.
Северанс, Чарльз (март 1998 г.). «IEEE 754: Интервью с Уильямом Каханом» (PDF) . IEEE-компьютер . 31 (3): 114–115. дои : 10.1109/MC.1998.660194. S2CID 33291145 . Проверено 08 марта 2019 г.
Коулишоу, Майк (июнь 2003 г.). «Десятичное число с плавающей запятой: алгоритм для компьютеров». 16-й симпозиум IEEE по компьютерной арифметике, 2003 г. Материалы (PDF) . Лос Аламитос, Калифорния: Компьютерное общество IEEE. стр. 104–111. дои : 10.1109/ARITH.2003.1207666. ISBN 978-0-7695-1894-7. S2CID 18713046 . Проверено 14 ноября 2014 г.. (Примечание: «Алгоризм» — это не опечатка в названии; см. также «алгоризм» .)
Моннио, Дэвид (май 2008 г.). «Подводные камни проверки вычислений с плавающей запятой». Транзакции ACM в языках и системах программирования . 30 (3): 1–41. arXiv : cs/0701192 . дои : 10.1145/1353445.1353446. ISSN 0164-0925. S2CID 218578808.: Сборник неинтуитивных вариантов поведения чисел с плавающей запятой в популярных архитектурах, имеющих значение для проверки и тестирования программ.
Мюллер, Жан-Мишель; Бруни, Николас; де Динешен, Флоран; Жаннерод, Клод-Пьер; Джолдес, Миоара; Лефевр, Винсент; Мелькионд, Гийом; Револь, Натали ; Торрес, Серж (2018) [2010]. Справочник по арифметике с плавающей запятой (2-е изд.). Биркхойзер . дои : 10.1007/978-3-319-76526-6. ISBN 978-3-319-76525-9.
Овертон, Майкл Л. (2001). Написано в Институте математических наук Куранта Нью-Йоркского университета , Нью-Йорк, США. Численные вычисления с использованием арифметики с плавающей запятой IEEE (1-е изд.). Филадельфия, США: СИАМ . дои : 10.1137/1.9780898718072. ISBN 978-0-89871-482-1. 978-0-89871-571-2, 0-89871-571-7.
Клив Молер о числах с плавающей запятой
Биб, Нельсон ХФ (22 августа 2017 г.). Справочник по математическим вычислениям - Программирование с использованием портативной библиотеки программного обеспечения MathCW (1-е изд.). Солт-Лейк-Сити, Юта, США: Springer International Publishing AG . дои : 10.1007/978-3-319-64110-2. ISBN 978-3-319-64109-6. LCCN 2017947446. S2CID 30244721.
Хаф, Дэвид Г. (декабрь 2019 г.). «Стандарт IEEE 754: один для книг по истории». Компьютер . ИИЭЭ . 52 (12): 109–112. дои : 10.1109/MC.2019.2926614. S2CID 208281213.

Внешние ссылки

В Wikibook Floating Point есть страница на тему: специальные числа, указанные в стандарте IEEE 754.

Викискладе есть медиафайлы, связанные с IEEE 754 .

Кахан о создании стандарта IEEE с плавающей запятой. Клипы лауреатов премии Тьюринга . 16.11.2020. Архивировано из оригинала 08.11.2021.
Онлайн двоичные калькуляторы IEEE 754