Повышенная точность

Расширенная точность относится к форматам чисел с плавающей запятой , которые обеспечивают большую точность , чем базовые форматы с плавающей запятой. ^[1] Форматы расширенной точности поддерживают базовый формат, сводя к минимуму ошибки округления и переполнения в промежуточных значениях выражений в базовом формате. В отличие от расширенной точности , арифметика произвольной точности относится к реализациям гораздо более крупных числовых типов (с количеством памяти, которое обычно не является степенью двойки) с использованием специального программного обеспечения (или, реже, аппаратного обеспечения).

Реализации повышенной точности

Существует долгая история расширенных форматов с плавающей запятой, уходящая корнями почти в середину прошлого века. Различные производители использовали разные форматы для повышения точности на разных машинах. Во многих случаях формат расширенной точности не совсем совпадает с увеличением обычных форматов одинарной и двойной точности, которые он призван расширить. В некоторых случаях реализация представляла собой просто программное изменение формата данных с плавающей запятой, но в большинстве случаев повышенная точность реализовывалась аппаратно, либо встроенное в сам центральный процессор , либо, что чаще, встроенное в аппаратное обеспечение какого-либо устройства. дополнительный подключенный процессор, называемый « блоком с плавающей запятой » (FPU) или «процессором с плавающей запятой» ( FPP ), доступный для ЦП как быстрое устройство ввода/вывода.

Расширенные прецизионные форматы IBM

IBM 1130 , проданный в 1965 году, ^[2] предлагал два формата с плавающей запятой: 32-битный формат «стандартной точности» и 40-битный формат «расширенной точности». Формат стандартной точности содержит 24-битное дополнение до двух , а расширенная точность использует 32-битное дополнение до двух. Последний формат полностью использует 32-битные целочисленные операции ЦП. Характеристикой обоих форматов является 8-битное поле, содержащее степень двойки, смещенную на 128. Арифметические операции с плавающей запятой выполняются программным обеспечением, а двойная точность вообще не поддерживается. Расширенный формат занимает три 16-битных слова, дополнительное пространство просто игнорируется. ^[3]

IBM System/360 поддерживает 32-битный «короткий» формат с плавающей запятой и 64-битный «длинный» формат с плавающей запятой. ^[4] В 360/85 и последующих версиях System/370 добавлена поддержка 128-битного «расширенного» формата. ^[5] Эти форматы по-прежнему поддерживаются в текущей версии , где они теперь называются форматами « шестнадцатеричных чисел с плавающей запятой » (HFP).

Расширенный формат точности Microsoft MBF

Порт Microsoft BASIC для процессора 6502 , например, в таких адаптациях, как Commodore BASIC , AppleSoft BASIC , KIM-1 BASIC или MicroTAN BASIC, поддерживает расширенный 40-битный вариант формата Microsoft Binary Format (MBF) с плавающей запятой с 1977 года. ^[6]

Форматы расширенной точности IEEE 754

Стандарт IEEE 754 с плавающей запятой рекомендует, чтобы реализации обеспечивали форматы повышенной точности. Стандарт определяет минимальные требования для расширенного формата, но не определяет кодировку. ^[7] Кодировка выбирается разработчиком. ^[8]

Процессоры IA32 , x86-64 и Itanium поддерживают, безусловно, самый влиятельный формат в этом стандарте — 80-битный (64-битное значащее число) «двойной расширенный» формат Intel, описанный в следующем разделе .

Математические сопроцессоры Motorola 6888x и процессоры Motorola 68040 и 68060 поддерживают тот же самый 64-битный тип расширенной точности значащего и значащего чисел (аналогично формату Intel, но дополненный до 96-битного формата с 16 неиспользуемыми битами, вставленными между полями экспоненты и мантиссы ^[9] ). Последующие процессоры Coldfire не поддерживают этот 96-битный формат расширенной точности. ^[10]

Математический сопроцессор FPA10 для ранних процессоров ARM также поддерживает этот тип расширенной точности (аналогично формату Intel, но дополненный до 96-битного формата с 16 нулевыми битами, вставленными между полями знака и показателя степени), но без правильного округления. ^[11]

80-битные форматы x87 и Motorola 68881 соответствуют требованиям расширенного формата IEEE 754 ^{[12] , как и}128-битный формат IEEE 754 .

расширенный формат точности x86

Формат расширенной точности x86 — это 80-битный формат, впервые реализованный в математическом сопроцессоре Intel 8087 и поддерживаемый всеми процессорами, основанными на конструкции x86 , включающими модуль с плавающей запятой (FPU).

Intel 8087 был первым устройством x86 , которое аппаратно поддерживало арифметику с плавающей запятой. Он был разработан для поддержки 32-битного формата «одинарной точности» и 64-битного формата «двойной точности» для кодирования и обмена числами с плавающей запятой. Расширенный формат был разработан не для хранения данных с более высокой точностью, а, скорее, для более надежного и точного вычисления временных двойных результатов за счет минимизации ошибок переполнения и округления в промежуточных вычислениях. ^[a]^[14]^[15] Все регистры с плавающей запятой в 8087 поддерживают этот формат, и он автоматически преобразует числа в этот формат при загрузке регистров из памяти , а также преобразует результаты обратно в более традиционные форматы при обратном сохранении регистров. в память. Чтобы обеспечить возможность сохранения результатов промежуточных подвыражений в рабочих переменных расширенной точности и продолжения их выполнения в операторах языка программирования, а также возобновления прерванных вычислений с того места, где они были прерваны, он предоставляет инструкции , которые передают значения между этими внутренними регистрами и памятью без выполнения какого-либо преобразования, что, следовательно, открывает доступ к расширенному формату вычислений ^[b] – также возрождая вопрос точности функций таких чисел, но с более высокой точностью.

Блоки с плавающей запятой (FPU) на всех последующих процессорах x86 поддерживали этот формат. В результате может быть разработано программное обеспечение, использующее преимущества более высокой точности, обеспечиваемой этим форматом. Уильям Кахан , главный разработчик арифметики x87 и первоначальный стандарт IEEE 754, отмечает разработку x87 с плавающей запятой: «Расширенный формат настолько широк, насколько мы осмелились (80 бит), был включен для выполнения той же вспомогательной роли, что и 13 внутренний десятичный формат используется в 10 десятичных калькуляторах Hewlett-Packard». ^[17] Более того, Кахан отмечает, что 64 бита были самой широкой мантиссой, в которой распространение переноса могло быть выполнено без увеличения времени цикла на 8087, ^[18] и что расширенная точность x87 была разработана для возможности расширения до более высокой точности в будущих процессорах. : «На данный момент 10-байтовый расширенный формат является приемлемым компромиссом между ценностью сверхточной арифметики и ценой ее реализации для быстрой работы; очень скоро еще два байта точности станут приемлемыми и, в конечном итоге, 16- байтовый формат . ... Подобная постепенная эволюция в сторону большей точности уже рассматривалась, когда был сформулирован стандарт IEEE 754 для арифметики с плавающей запятой ». ^[19]

В этом 80-битном формате используется один бит для знака мантиссы, 15 бит для поля показателя степени (т. е. тот же диапазон, что и в 128-битном формате четверной точности IEEE 754 ) и 64 бита для мантиссы. Поле экспоненты смещено на 16383, а это означает, что 16383 необходимо вычесть из значения в поле экспоненты, чтобы вычислить фактическую степень 2. ^[20] Значение поля экспоненты 32767 (все пятнадцать бит 1 ) зарезервировано, чтобы включить представление особых состояний, таких как бесконечность и Not a Number . Если поле показателя степени равно нулю, значение является денормальным числом, а показатель степени 2 равен -16382. ^[21]

В следующей таблице « s » — это значение знакового бита (0 означает положительное значение, 1 означает отрицательное значение), « e » — значение поля показателя степени, интерпретируемое как положительное целое число, а « m » — мантисса, интерпретируемая как положительное двоичное число, двоичная точка которого находится между битами 63 и 62. Поле « m » представляет собой комбинацию целой и дробной частей на диаграмме выше.

В отличие от форматов одинарной и двойной точности , этот формат не использует неявный/ скрытый бит . Скорее, бит 63 содержит целую часть мантиссы, а биты 62-0 содержат дробную часть. Бит 63 будет равен 1 для всех нормализованных чисел. Во время разработки 8087 эта конструкция имела несколько преимуществ :

Вычисления можно выполнить немного быстрее, если в регистре присутствуют все биты мантиссы.
64-битная мантисса обеспечивает достаточную точность, чтобы избежать потери точности при преобразовании результатов обратно в формат двойной точности в огромном числе случаев.
Этот формат обеспечивает механизм индикации потери точности из-за потери значения, которую можно перенести в дальнейшие операции. Например, вычисление $2\times 10-4930 \times3\times 10-10 \times4\times10 20$ генерирует промежуточный результат $6\times 10-4940$ , который является ненормальным и также включает потерю точности. Произведение всех членов равно $24\times10 -4920$ , что можно представить как нормализованное число. 80287 может завершить этот расчет и указать на потерю точности, вернув «ненормальный» результат (показатель степени не равен 0, бит 63 = 0). ^[22]^[23] Процессоры, начиная с 80387, больше не генерируют ненормальные значения и не поддерживают ненормальные входные данные для операций. Они будут генерировать денормализованное значение, если произойдет опустошение, но будут генерировать нормализованный результат, если последующие операции с денормализованным значением могут быть нормализованы. ^[24]

Введение в использование

80-битный формат с плавающей запятой стал широко доступен к 1984 году, ^[25] после разработки C, Fortran и подобных компьютерных языков, которые первоначально предлагали только распространенные 32- и 64-битные размеры с плавающей запятой. В конструкции x86 большинство компиляторов C теперь поддерживают 80-битную расширенную точность посредством типа long double , и это было указано в стандартах C99 / C11 (арифметика с плавающей запятой IEC 60559 (Приложение F)). Компиляторы на x86 для других языков часто также поддерживают расширенную точность, иногда с помощью нестандартных расширений: например, Turbo Pascal предлагает Extendedтип, а некоторые компиляторы FortranREAL*10 имеют тип (аналог REAL*4и REAL*8). Такие компиляторы также обычно включают в свои стандартные библиотеки математические подпрограммы повышенной точности , такие как квадратный корень и тригонометрические функции .

Рабочий диапазон

80-битный формат с плавающей запятой имеет диапазон (включая субнормальные значения ) примерно от 3,65×10 ⁻⁴⁹⁵¹ до 1,18×10 ⁴⁹³² . Хотя log ₁₀ (2 ⁶⁴ ) ≅ 19,266, этот формат обычно описывается как дающий приблизительно восемнадцать значащих цифр точности (нижний предел log ₁₀ (2 ⁶³ ), минимальная гарантированная точность). Использование десятичных дробей при разговоре о двоичных числах неудачно, поскольку большинство десятичных дробей представляют собой повторяющиеся последовательности в двоичной системе, точно так же, как 2/3 в десятичной. Таким образом, такое значение, как 10,15, представляется в двоичном виде как эквивалент 10,1499996185 и т. д. в десятичном формате для REAL*4, но 10,15000000000000035527 и т. д. в REAL*8: взаимное преобразование будет включать аппроксимацию, за исключением тех нескольких десятичных дробей, которые представляют точное двоичное значение, например 0,625. Для REAL*10 десятичная строка равна 10,1499999999999999996530553 и т. д. Последние 9 цифр — это восемнадцатая дробная цифра и, следовательно, двадцатая значащая цифра строки. Границы преобразования десятичных и двоичных чисел для 80-битного формата могут быть заданы следующим образом: если десятичная строка, содержащая не более 18 значащих цифр, правильно округлена до 80-битного двоичного значения с плавающей запятой IEEE 754 (как на входе), то преобразуется обратно в то же количество значащих десятичных цифр (что и при выводе), тогда итоговая строка будет точно соответствовать оригиналу; в то время как, наоборот, если 80-битное двоичное значение с плавающей запятой IEEE 754 правильно преобразовано и (ближайшее) округлено до десятичной строки, содержащей не менее 21 значащей десятичной цифры, а затем преобразовано обратно в двоичный формат, оно будет точно соответствовать оригиналу. ^[12] Эти приближения особенно проблематичны при указании наилучшего значения констант в формулах с высокой точностью, которые могут быть рассчитаны с помощью арифметики произвольной точности .

Нужен 80-битный формат

Ярким примером необходимости иметь минимум 64 бита точности в мантиссе формата расширенной точности является необходимость избегать потери точности при возведении в степень значений двойной точности . ^[26]^[27]^[28]^[c] Блоки вычислений с плавающей запятой x86 не предоставляют инструкции, которая непосредственно выполняет возведение в степень . Вместо этого они предоставляют набор инструкций, которые программа может последовательно использовать для возведения в степень с помощью уравнения:

x^{y}=2^{\,y\,\cdot \,\log _{2}(x)}

Чтобы избежать потери точности, промежуточные результаты « $log 2 (x)$ » и « $y \cdotlog 2 (x)$ » должны вычисляться с гораздо более высокой точностью, потому что эффективно и показатель степени, и поля мантиссы $x$ должны вписываться в значимое поле промежуточного результата. Впоследствии поле мантиссы промежуточного результата разделяется между полями экспоненты и мантиссы конечного результата при вычислении $2 промежуточных результатов$ . Следующее обсуждение описывает это требование более подробно.

После небольшой распаковки значение двойной точности IEEE 754 можно представить как:

2^{(-1)^{s}\,\cdot \,E}\,\cdot \,M\

где $s$ — знак показателя степени (0 или 1), $E$ — несмещенный показатель степени, представляющий собой целое число в диапазоне от 0 до 1023, а $M$ — мантисса, представляющая собой 53-битное значение, попадающее в диапазон $1. \leq М < 2$ . Отрицательные числа и ноль можно игнорировать, поскольку логарифм этих значений не определен. Для целей данного обсуждения $M$ не имеет 53-битной точности, поскольку оно ограничено значением, превышающим или равным единице, т.е. скрытый бит не учитывается при определении точности (обратите внимание, что в ситуациях, когда $M$ меньше 1, значение равно на самом деле это ненормально и, следовательно, возможно, уже произошла потеря точности. Эта ситуация выходит за рамки этой статьи).

Если взять журнал этого представления числа двойной точности и упростить его, получим следующее:

\log _{2}(2^{(-1)^{s}\,\cdot \,E}\,\cdot \,M)=(-1)^{s}\,\cdot \,E\,\cdot \,\log _{2}(2)\,+\,\log _{2}(M)=\pm \,E\,+\,\log _{2}( М)

Этот результат показывает, что при логарифме числа по основанию 2 знак показателя исходного значения становится знаком логарифма, показатель степени исходного значения становится целой частью мантиссы логарифма, а мантисса исходное значение преобразуется в дробную часть мантиссы логарифма.

Поскольку $E$ представляет собой целое число в диапазоне от 0 до 1023, для представления целой части логарифма необходимо до 10 бит слева от точки счисления. Поскольку $M$ попадает в диапазон $1 \leq M < 2$ , значение $log 2 M$ будет находиться в диапазоне $0 \leq log 2 M < 1$ , поэтому справа от точки счисления необходимо как минимум 52 бита для представления дробной части. логарифм. Объединение 10 бит слева от точки системы счисления с 52 битами справа от точки системы счисления означает, что значительная часть логарифма должна быть вычислена с точностью не менее 62 бит. На практике значения $M$ менее требуют 53 бита справа от точки счисления, а значения $M$ меньше требуют 54 бита справа от точки счисления, чтобы избежать потери точности. Уравновешивая это требование для дополнительной точности справа от точки счисления, показатели степени менее 512 требуют только 9 бит слева от точки счисления, а показатели степени менее 256 требуют только 8 бит слева от точки счисления. ${\sqrt {2}}$ ${\sqrt[{4}]{2}}$

Заключительная часть расчета возведения в степень — вычисление $2 промежуточных результатов$ . «Промежуточный результат» состоит из целой части « $I$ », добавленной к дробной части « $F$ ». Если промежуточный результат отрицательный, то необходима небольшая корректировка, чтобы получить положительную дробную часть, поскольку и « $I$ », и « $F$ » являются отрицательными числами.

Для положительных промежуточных результатов:

2^{\mathrm {промежуточный\результат} }=2^{I+F}=2^{I}\,2^{F}

Для отрицательных промежуточных результатов:

2^{\mathrm {промежуточный\результат} }=2^{I+F}=2^{I\,+\,(1-1)\,+\,F}=2^{(I -1)\,+\,(1+F)}=2^{I-1}\,2^{1+F}

Таким образом, целая часть промежуточного результата (« $I$ » или « $I -1$ ») плюс смещение становится показателем степени конечного результата, а преобразованная положительная дробная часть промежуточного результата: $2 F$ или $2 1+ F$ становится мантиссой окончательный результат. Чтобы обеспечить 52-битную точность конечного результата, положительная дробная часть должна поддерживаться как минимум на уровне 52 бит.

В заключение, точное количество бит точности, необходимое для мантиссы промежуточного результата, в некоторой степени зависит от данных, но 64 бита достаточно, чтобы избежать потери точности в подавляющем большинстве вычислений возведения в степень , включающих числа двойной точности .

Количество битов, необходимое для экспоненты формата расширенной точности, следует из требования, чтобы произведение двух чисел двойной точности не переполнялось при вычислении с использованием расширенного формата. Наибольший возможный показатель значения двойной точности равен 1023, поэтому показатель наибольшего возможного произведения двух чисел двойной точности равен 2047 (11-битное значение). Добавление смещения для учета отрицательных показателей означает, что поле показателя должно иметь ширину не менее 12 бит.

Сочетание этих требований: 1 бит для знака, 12 бит для смещенной экспоненты и 64 бита для мантиссы означает, что для формата расширенной точности потребуется как минимум 77 бит. Инженерные соображения привели к окончательному определению 80-битного формата (в частности, стандарт IEEE 754 требует, чтобы диапазон экспонент расширенного формата точности соответствовал диапазону следующего по величине четырехкратного формата точности, который составляет 15 бит). ^[27]

Другим примером вычислений, в которых используется арифметика повышенной точности, являются итеративные схемы уточнения, используемые для косвенной очистки ошибок, накопленных в прямом решении во время, как правило, очень большого количества вычислений, выполняемых для числовой линейной алгебры. ^[30]

Языковая поддержка

Некоторые реализации C / C++ (например, GNU Compiler Collection (GCC), Clang , Intel C++ ) реализуют long doubleиспользование 80-битных чисел с плавающей запятой в системах x86. Однако это поведение определяется реализацией и не является обязательным, но разрешено стандартом, как указано для оборудования IEEE 754 в стандарте C99 «Приложение F IEC 60559, арифметика с плавающей запятой». GCC также предоставляет __float80и __float128типы. ^[31]
Некоторые реализации Common Lisp (например , CMU Common Lisp , Embeddable Common Lisp ) реализуют long-floatиспользование 80-битных чисел с плавающей запятой в системах x86.
Язык программирования Dreal реализует использование наибольшего размера с плавающей запятой, реализованного в аппаратном обеспечении, например 80 бит для процессоров x86 . На других машинах это будет самый широкий тип с плавающей запятой, изначально поддерживаемый ЦП, или 64-битная двойная точность, в зависимости от того, что шире.
Turbo Pascal (и Object Pascal или Delphi ) имеет Extended80-битный тип, доступный в дополнение к Real/ Single(32 бита) и Double(64 бита), либо изначально (при наличии сопроцессора 80x87), либо эмулируемый (через библиотеку Turbo87); этот Extendedтип доступен на 16, 32 и 64-битных платформах, возможно, с дополнением . ^[32]
Система времени выполнения Racket предоставляет 80-битный тип данных extflonum в системах x86.
Стандартная библиотека Swift предоставляет Float80тип данных.
Компилятор PowerBASIC BASIC предоставляет EXT10 EXTENDED-байтовый тип данных с плавающей запятой повышенной точности.
Zig предоставляет тип f80 начиная с версии 0.10.0.

Смотрите также

GNU MPFR - библиотека GNU «Надежность операций с плавающей запятой множественной точности» для C.
IBM шестнадцатеричный формат с плавающей запятой
ИЭЭЭ 754
длинный двойной
х87

Сноски

^ «Этот формат предназначен главным образом для того, чтобы помочь программистам повысить целостность их одинарного и двойного программного обеспечения, а также для уменьшения деградации из-за округления в вычислениях с двойной матрицей больших размеров, и его можно легко использовать таким образом, что замена расширенного четырехкратного никогда не следует лишать законной силы его использование». — дизайнер x87 В. Кахан^[13]
^ «Языки высокого уровня будут использовать расширенные (невидимо) для оценки промежуточных подвыражений, а позже могут предоставлять расширенные как декларируемый тип данных». ^[16]^{: 70}
^ «Наличие как минимум такого же количества дополнительных бит точности в расширенном поле, как и в поле экспоненты базового формата, который он поддерживает, значительно упрощает точное вычисление трансцендентных функций, внутренних продуктов и степенной функции y ^x ». ^[29]^{: 70}