Вес Хэмминга

Вес Хэмминга строки — это количество символов , отличных от нулевого символа используемого алфавита . Таким образом, оно эквивалентно расстоянию Хэмминга от нулевой строки той же длины. Для наиболее типичного случая, строки битов , это количество единиц в строке или сумма цифр двоичного представления данного числа и нормы ℓ ₁ битового вектора. В этом двоичном случае его также называют подсчетом населения , ^[1] popcount , боковой суммой , ^[2] или суммированием битов . ^[3]

История и использование

Гиря Хэмминга названа в честь Ричарда Хэмминга , хотя это понятие принадлежит не ему. ^[7] Вес Хэмминга двоичных чисел уже использовался в 1899 году Джеймсом В.Л. Глейшером для получения формулы для количества нечетных биномиальных коэффициентов в одной строке треугольника Паскаля . ^[8] Ирвинг С. Рид ввел понятие, эквивалентное весу Хэмминга в двоичном случае, в 1954 году. ^[9]

Вес Хэмминга используется в нескольких дисциплинах, включая теорию информации , теорию кодирования и криптографию . Примеры применения веса Хэмминга включают:

При модульном возведении в степень возведением в квадрат количество модульных умножений, необходимых для показателя e, равно log ₂ e + Weight( e ). По этой причине значение открытого ключа e, используемое в RSA , обычно выбирается как число с низким весом Хэмминга. ^[10]
Вес Хэмминга определяет длину путей между узлами в распределенных хэш-таблицах Chord . ^[11]
Поиск IrisCode в биометрических базах данных обычно реализуется путем расчета расстояния Хэмминга до каждой сохраненной записи.
В компьютерных шахматных программах, использующих представление битовой доски , вес Хэмминга битовой доски дает количество фигур данного типа, оставшихся в игре, или количество клеток доски, контролируемых фигурами одного игрока, и, следовательно, является важным способствующим фактором. к стоимости позиции.
Вес Хэмминга можно использовать для эффективного вычисления первого набора поиска , используя тождество ffs(x) = pop(x ^ (x - 1)). Это полезно на таких платформах, как SPARC , где есть аппаратные инструкции по весу Хэмминга, но нет аппаратных инструкций по поиску первого набора. ^[12]^[1]
Весовую операцию Хэмминга можно интерпретировать как преобразование унарной системы счисления в двоичную систему чисел . ^[13]
В реализации некоторых кратких структур данных, таких как битовые векторы и деревья вейвлетов .

Эффективная реализация

Подсчет численности битовой строки часто необходим в криптографии и других приложениях. Расстояние Хэмминга двух слов A и B можно рассчитать как вес Хэмминга A xor B . ^[1]

Проблема его эффективной реализации широко изучена. На некоторых процессорах доступна отдельная операция вычисления или параллельные операции над битовыми векторами. Для процессоров, лишенных этих функций, лучшие известные решения основаны на добавлении счетчиков в древовидную структуру. Например, чтобы подсчитать количество 1 бит в 16-битном двоичном числе a = 0110 1100 1011 1010, можно выполнить следующие операции:

Здесь операции такие же, как в языке программирования C , то X >> Yесть сдвиг X вправо на бит Y, X и Y означает побитовое И для X и Y, а + — обычное сложение. Лучшие алгоритмы, известные для этой проблемы, основаны на концепции, проиллюстрированной выше, и приведены здесь: ^[1]

//типы и константы, используемые в функциях ниже //uint64_t — это 64-битный целочисленный тип переменной без знака (определенный в версии C99 языка C) const uint64_t m1 = 0x5555555555555555 ; //двоичный: 0101... const uint64_t m2 = 0x3333333333333333 ; //двоичный: 00110011.. const uint64_t m4 = 0x0f0f0f0f0f0f0f0f ; //двоичный: 4 нуля, 4 единицы ... const uint64_t m8 = 0x00ff00ff00ff00ff ; //двоичный: 8 нулей, 8 единиц ... const uint64_t m16 = 0x0000ffff0000ffff ; //двоичный: 16 нулей, 16 единиц ... const uint64_t m32 = 0x00000000ffffffff ; //двоичный: 32 нуля, 32 единицы const uint64_t h01 = 0x0101010101010101 ; //сумма 256 в степени 0,1,2,3...                                   //Это простая реализация, показанная для сравнения, //и чтобы помочь понять лучшие функции. //Этот алгоритм использует 24 арифметических операции (сдвиг, сложение и). int popcount64a ( uint64_t x ) { x = ( x & m1 ) + (( x >> 1 ) & m1 ); //помещаем счетчик каждых 2 битов в эти 2 бита x = ( x & m2 ) + (( x >> 2 ) & m2 ); // помещаем счетчик каждых 4 битов в эти 4 бита x = ( x & m4 ) + (( x >> 4 ) & m4 ); // помещаем счетчик каждых 8 бит в эти 8 бит x = ( x & m8 ) + (( x >> 8 ) & m8 ); //помещаем счетчик каждых 16 бит в эти 16 бит x = ( x & m16 ) + (( x >> 16 ) & m16 ); //помещаем счетчик каждых 32 битов в эти 32 бита x = ( x & m32 ) + (( x >> 32 ) & m32 ); //помещаем счетчик каждых 64 бит в эти 64 бита return x ; }                                                                                    //Это использует меньше арифметических операций, чем любая другая известная //реализация на машинах с медленным умножением. //Этот алгоритм использует 17 арифметических операций. int popcount64b ( uint64_t x ) { x -= ( x >> 1 ) & m1 ; //помещаем счетчик каждых 2 битов в эти 2 бита x = ( x & m2 ) + (( x >> 2 ) & m2 ); //помещаем счетчик каждых 4 битов в эти 4 бита x = ( x + ( x >> 4 )) & m4 ; //помещаем счетчик каждых 8 бит в эти 8 бит x += x >> 8 ; //помещаем счетчик каждых 16 бит в младшие 8 бит x += x >> 16 ; //помещаем счетчик каждых 32 бит в младшие 8 бит x += x >> 32 ; //помещаем счетчик каждых 64 бит в младшие 8 бит return x & 0x7f ; }                                                      //При этом используется меньше арифметических операций, чем в любой другой известной //реализации на машинах с быстрым умножением. //Этот алгоритм использует 12 арифметических операций, одна из которых — умножение. int popcount64c ( uint64_t x ) { x -= ( x >> 1 ) & m1 ; //помещаем счетчик каждых 2 битов в эти 2 бита x = ( x & m2 ) + (( x >> 2 ) & m2 ); //помещаем счетчик каждых 4 битов в эти 4 бита x = ( x + ( x >> 4 )) & m4 ; //помещаем счетчик каждых 8 бит в эти 8 бит return ( x * h01 ) >> 56 ; //возвращает левые 8 бит x + (x<<8) + (x<<16) + (x<<24) + ... }

Вышеупомянутые реализации имеют лучшее поведение в наихудшем случае из всех известных алгоритмов. Однако, когда ожидается, что значение будет иметь несколько ненулевых битов, вместо этого может быть более эффективно использовать алгоритмы, которые считают эти биты по одному. Как описал Вегнер в 1960 году, ^[14] побитовое И для x с x - 1 отличается от x только обнулением младшего ненулевого бита: вычитание 1 изменяет самую правую строку из 0 на 1, а крайнюю правую 1 меняет на 0. Если изначально x имело n бит, равных 1, то после всего лишь n итераций этой операции x уменьшится до нуля. Следующая реализация основана на этом принципе.

//Лучше, когда большинство битов в x равны 0 //Этот алгоритм работает одинаково для всех размеров данных. //Этот алгоритм использует 3 арифметических операции и 1 сравнение/ветвь на каждый «1» бит в x. int popcount64d ( uint64_t x ) { int count ; for ( count = 0 ; x ; count ++ ) x &= x - 1 ; счетчик возврата ; }

Если разрешено большее использование памяти, мы можем вычислить вес Хэмминга быстрее, чем описанные выше методы. Имея неограниченную память, мы могли бы просто создать большую таблицу поиска веса Хэмминга для каждого 64-битного целого числа. Если мы можем сохранить таблицу поиска функции Хэмминга для каждого 16-битного целого числа, мы можем сделать следующее, чтобы вычислить вес Хэмминга каждого 32-битного целого числа.

static uint8_t wordbits [ 65536 ] = { /* количество бит целых чисел от 0 до 65535 включительно */ }; //Этот алгоритм использует 3 арифметических операции и 2 чтения из памяти. int popcount32e ( uint32_t x ) { возвращаем словесные биты [ x & 0xFFFF ] + словесные биты [ x >> 16 ]; }

//При желании таблица wordbits[] может быть заполнена с помощью этой функции int popcount32e_init ( void ) { uint32_t i ; uint16_t х ; число интервалов ; для ( я знак равно 0 ; я <= 0xFFFF ; я ++ ) { Икс знак равно я ; for ( count = 0 ; x ; count ++ ) // заимствовано из popcount64d() выше x &= x - 1 ; словесные биты [ я ] = количество ; } }

Мула и др. ^[15] показали, что векторизованная версия popcount64b может работать быстрее, чем специальные инструкции (например, popcnt на процессорах x64).

Минимальный вес

В кодировании с исправлением ошибок минимальный вес Хэмминга, обычно называемый минимальным весом w _min кода, представляет собой вес ненулевого кодового слова с наименьшим весом. Вес w кодового слова — это количество единиц в слове. Например, слово 11001010 имеет вес 4.

В линейном блочном коде минимальный вес также является минимальным расстоянием Хэмминга ( d _min ) и определяет способность кода исправлять ошибки. Если w _min = n , то d _min = n и код исправит до d _min /2 ошибок. ^[16]

Языковая поддержка

Некоторые компиляторы C предоставляют встроенные функции, обеспечивающие подсчет битов. Например, GCC (начиная с версии 3.4 в апреле 2004 г.) включает встроенную функцию __builtin_popcount, которая будет использовать инструкцию процессора, если она доступна, или эффективную реализацию библиотеки в противном случае. ^[17] LLVM-GCC включает эту функцию начиная с версии 1.5 в июне 2005 года. ^[18]

В стандартной библиотеке C++ структура данных битового массива bitsetимеет count()метод, который подсчитывает количество установленных битов. В C++20<bit> был добавлен новый заголовок , содержащий функции std::popcountи std::has_single_bitпринимающие аргументы целочисленных типов без знака.

В Java структура данных расширяемого битового массива BitSetимеет BitSet.cardinality()метод, который подсчитывает количество установленных битов. Кроме того, существуют Integer.bitCount(int)функции Long.bitCount(long)для подсчета битов в примитивных 32-битных и 64-битных целых числах соответственно. Кроме того, BigIntegerкласс целых чисел произвольной точности также имеет BigInteger.bitCount()метод, подсчитывающий биты.

В Python тип intимеет bit_count()метод подсчета количества установленных бит. Эта функциональность была представлена в Python 3.10, выпущенном в октябре 2021 года. ^[19]

В Common Lisp функция logcount, учитывая неотрицательное целое число, возвращает количество 1 бит. (Для отрицательных целых чисел возвращается количество нулевых битов в записи дополнения до 2.) В любом случае целое число может быть БОЛЬШИМ ЧИСЛОМ.

Начиная с GHC 7.4, базовый пакет Haskell имеет popCountфункцию, доступную для всех типов, которые являются экземплярами класса Bits(доступны из Data.Bitsмодуля). ^[20]

MySQL- версия языка SQL предоставляет BIT_COUNT()стандартную функцию. ^[21]

В Фортране 2008 есть стандартная встроенная элементарная функция, popcntвозвращающая количество ненулевых битов в целом числе (или целочисленном массиве). ^[22]

Некоторые программируемые карманные научные калькуляторы имеют специальные команды для расчета количества установленных бит, например, #BHP -16C ^[3]^[23] и WP 43S , ^[24]^[25] #BITS^[26]^[27] или BITSUM^[28]^{[ 29] ]} на эмуляторах HP-16C и nBITSна WP 34S . ^[30]^[31]

FreePascal реализует popcnt начиная с версии 3.0. ^[32]

Поддержка процессора

Компьютер IBM STRETCH в 1960-х годах вычислил количество установленных битов, а также количество ведущих нулей как побочный продукт всех логических операций. ^[1]
Суперкомпьютеры Cray изначально имели машинную команду подсчета населения , которая, по слухам, была специально запрошена Агентством национальной безопасности правительства США для приложений криптоанализа . ^[1]
Машины серий 6000 и Cyber 70/170 компании Control Data Corporation (CDC) включали команду подсчета населения; в COMPASS эта инструкция была закодирована как CXi.
64-битная архитектура SPARC версии 9 определяет POPCинструкцию, ^[12]^[1], но большинство реализаций не реализуют ее, требуя ее эмуляции операционной системой. ^[33]
Модель компьютера MMIX Дональда Кнута , который собирается заменить MIX в его книге « Искусство компьютерного программирования», имеет SADDинструкцию с 1999 года. SADD a,b,cПодсчитывает все биты, равные 1 в b и 0 в c, и записывает результат в a.
Alpha 21264A компании Compaq , выпущенный в 1999 году, был первым ЦП серии Alpha, имевшим расширение счетчика ( CIX).
Процессоры Blackfin от Analog Devices имеют ONESинструкцию для выполнения 32-битного подсчета численности населения. ^[34]
В архитектуре AMD Barcelona в 2007 году была представлена расширенная битовая манипуляция (ABM) ISA , которая POPCNTстала частью расширений SSE4a .
В процессорах Intel Core появилась POPCNTинструкция с расширением набора команд SSE4.2 , впервые доступная в процессоре Core i7 на базе Nehalem , выпущенном в ноябре 2008 года.
В архитектуре ARM эта инструкция представлена VCNTкак часть расширений Advanced SIMD ( NEON ).
В архитектуре RISC-V эта инструкция представлена CPOPкак часть расширения Bit Manipulation (B). ^[35]

Смотрите также

Дополнение до двух
Веер

дальнейшее чтение

Шреппель, Ричард К .; Орман, Хилари К. (29 февраля 1972 г.). «сборник». ХАКМЕМ . Билер, Майкл; Госпер, Ральф Уильям ; Шреппель, Ричард К. (отчет). Лаборатория искусственного интеллекта Массачусетского технологического института , Кембридж, Массачусетс, США. Памятка MIT AI 239.(Пункт 169: Код сборки подсчета населения для PDP/6-10.)

Внешние ссылки

Агрегатные магические алгоритмы. Оптимизированный подсчет населения и другие алгоритмы, объясненные с помощью примера кода.
Bit Twiddling Hacks Несколько алгоритмов с набором кода для подсчета битов.
«Необходимое и достаточное» — Дэмиен Винтур — Имеет код на C# для различных реализаций веса Хэмминга.
Лучший алгоритм для подсчета количества установленных бит в 32-битном целом числе? - Переполнение стека