Динамический массив

В информатике динамический массив , расширяемый массив , массив с изменяемым размером , динамическая таблица , изменяемый массив или список массивов — это структура данных списка с произвольным доступом и переменным размером , которая позволяет добавлять или удалять элементы. Он поставляется со стандартными библиотеками многих современных основных языков программирования . Динамические массивы преодолевают ограничения статических массивов , которые имеют фиксированную емкость, которую необходимо указать при выделении .

Динамический массив — это не то же самое, что динамически выделяемый массив или массив переменной длины , каждый из которых представляет собой массив, размер которого фиксирован при выделении массива, хотя динамический массив может использовать такой массив фиксированного размера в качестве обратного массива. конец. ^[1]

Динамические массивы и емкость ограниченного размера

Простой динамический массив может быть создан путем выделения массива фиксированного размера, обычно большего, чем количество сразу требуемых элементов. Элементы динамического массива хранятся последовательно в начале базового массива, а оставшиеся позиции ближе к концу базового массива зарезервированы или не используются. Элементы можно добавлять в конец динамического массива за постоянное время , используя зарезервированное пространство, пока это пространство не будет полностью использовано. Когда все пространство занято и необходимо добавить дополнительный элемент, размер базового массива фиксированного размера необходимо увеличить. Обычно изменение размера обходится дорого, поскольку оно включает в себя выделение нового базового массива и копирование каждого элемента из исходного массива. Элементы можно удалять из конца динамического массива за постоянное время, поскольку изменение размера не требуется. Количество элементов, используемых содержимым динамического массива, — это его логический размер или размер , а размер базового массива называется емкостью динамического массива или физическим размером , который представляет собой максимально возможный размер без перемещения данных. ^[2]

Массив фиксированного размера будет достаточен в приложениях, где максимальный логический размер фиксирован (например, по спецификации) или может быть рассчитан до выделения массива. Динамический массив может быть предпочтительнее, если:

максимальный логический размер неизвестен или его трудно вычислить до выделения массива
считается, что максимальный логический размер, заданный спецификацией, вероятно, изменится
амортизированная стоимость изменения размера динамического массива существенно не влияет на производительность или скорость реагирования.

Геометрическое расширение и амортизированная стоимость

Чтобы избежать многократных затрат на изменение размера, динамические массивы изменяются на большую величину, например, в два раза, и используют зарезервированное пространство для будущего расширения. Операция добавления элемента в конец может работать следующим образом:

function InsertEnd ( dynarray a , element e ) if ( a . size == a . емкость ) // изменяем размер a в два раза по сравнению с текущей емкостью: a . мощность ← а . емкость * 2 // (скопируйте сюда содержимое в новую ячейку памяти) a [ a . размер ] ← е а . размер ← а . размер + 1

При вставке n элементов мощности образуют геометрическую прогрессию . Расширение массива на любую постоянную пропорцию a гарантирует, что вставка n элементов в целом займет O ( n ) , а это означает, что каждая вставка занимает амортизированное постоянное время. Многие динамические массивы также освобождают часть базового хранилища, если его размер падает ниже определенного порога, например 30 % емкости. Этот порог должен быть строго меньше 1/ a , чтобы обеспечить гистерезис (обеспечивать стабильный диапазон во избежание многократного роста и сжатия) и поддерживать смешанные последовательности вставок и удалений с амортизированной постоянной стоимостью.

Динамические массивы являются распространенным примером при обучении амортизированному анализу . ^[3]^[4]

Фактор роста

Коэффициент роста динамического массива зависит от нескольких факторов, включая компромисс между пространством и временем и алгоритмы, используемые в самом распределителе памяти. Для фактора роста a среднее время на операцию вставки составляет около a /( a −1), в то время как количество потраченных впустую ячеек ограничено сверху ( a −1) n^{[ нужна ссылка ]} . Если распределитель памяти использует алгоритм распределения по первому варианту , то значения коэффициента роста, такие как = 2, могут привести к нехватке памяти при расширении динамического массива, даже если значительный объем памяти все еще может быть доступен. ^[5] Были различные дискуссии по поводу идеальных значений фактора роста, включая предложения по золотому сечению , а также по значению 1,5. ^[6] Однако во многих учебниках для простоты и анализа используется значение a = 2. ^[3]^[4]

Ниже приведены факторы роста, используемые в нескольких популярных реализациях:

Производительность

Динамический массив имеет производительность, аналогичную массиву, с добавлением новых операций по добавлению и удалению элементов:

Получение или установка значения по определенному индексу (постоянное время)
Перебор элементов по порядку (линейное время, хорошая производительность кэша)
Вставка или удаление элемента в середине массива (линейное время)
Вставка или удаление элемента в конце массива (постоянное амортизированное время)

Динамические массивы обладают многими преимуществами массивов, включая хорошую локальность ссылок и использование кэша данных , компактность (низкое использование памяти) и произвольный доступ . Обычно они имеют лишь небольшие фиксированные дополнительные затраты на хранение информации о размере и емкости. Это делает динамические массивы привлекательным инструментом для построения структур данных, удобных для кэширования . Однако в таких языках, как Python или Java, которые обеспечивают ссылочную семантику, динамический массив обычно не хранит фактические данные, а скорее хранит ссылки на данные, которые находятся в других областях памяти. В этом случае последовательный доступ к элементам массива фактически будет включать доступ к нескольким несмежным областям памяти, поэтому многие преимущества удобства кэширования этой структуры данных будут потеряны.

По сравнению со связанными списками динамические массивы имеют более быструю индексацию (постоянное время по сравнению с линейным временем) и, как правило, более быструю итерацию из-за улучшенной локальности ссылки; однако динамическим массивам требуется линейное время для вставки или удаления в произвольном месте, поскольку все последующие элементы должны быть перемещены, в то время как связанные списки могут делать это за постоянное время. Этот недостаток смягчается вариантами буфера пробелов и многоуровневых векторов , обсуждаемыми в разделе «Варианты» ниже. Кроме того, в сильно фрагментированной области памяти может быть дорого или невозможно найти непрерывное пространство для большого динамического массива, тогда как связанные списки не требуют непрерывного хранения всей структуры данных.

Сбалансированное дерево может хранить список, при этом достаточно эффективно обеспечивая все операции как с динамическими массивами, так и со связанными списками, но и вставка в конце, и итерация по списку выполняются медленнее, чем для динамического массива, в теории и на практике, из-за отсутствия непрерывное хранение и накладные расходы на обход дерева/манипулирование.

Варианты

Буферы пробелов подобны динамическим массивам, но позволяют эффективно выполнять операции вставки и удаления, сгруппированные вблизи одного и того же произвольного места. Некоторые реализации деков используют деки массива , которые позволяют амортизированную вставку/удаление с постоянным временем на обоих концах, а не только на одном конце.

Гудрич ^[18] представил алгоритм динамического массива, называемый многоуровневыми векторами , который обеспечивает производительность O ( n ^{1/ k} ) для вставок и удалений из любого места массива, а также O ( k ) получения и установки, где k ≥ 2 — постоянный параметр.

Дерево хешированного массива (HAT) — это алгоритм динамического массива, опубликованный Ситарски в 1996 году. ^[19] Дерево хешированного массива тратит впустую порядка n ^1/2 объема памяти, где n — количество элементов в массиве. Алгоритм имеет амортизированную производительность O (1) при добавлении серии объектов в конец дерева хешированного массива.

В статье 1999 г. ^[20] Brodnik et al. описывают многоуровневую структуру данных динамического массива, которая тратит только n ^1/2 пространства для n элементов в любой момент времени, и они доказывают нижнюю границу, показывающую, что любой динамический массив должен тратить столько места, чтобы операции оставались амортизированными в постоянное время. . Кроме того, они представляют вариант, в котором увеличение и уменьшение буфера не только амортизирует, но и в худшем случае постоянное время.

Бэгвелл (2002) ^[21] представил алгоритм VList, который можно адаптировать для реализации динамического массива.

Наивные массивы с изменяемым размером, также называемые «худшей реализацией» массивов с изменяемым размером, сохраняют выделенный размер массива достаточно большим для всех содержащихся в нем данных, возможно, путем вызова realloc для каждого элемента, добавляемого в массив. Наивные массивы с изменяемым размером — это самый простой способ реализации массива с изменяемым размером в C. Они не тратят впустую память, но добавление в конец массива всегда занимает Θ( n ) времени. ^[19]^[22]^[23]^[24]^[25] Линейно растущие массивы предварительно выделяют («отбрасывают») Θ(1) пространство каждый раз, когда изменяют размер массива, что делает их во много раз быстрее, чем наивные массивы с изменяемым размером - - добавление в конец массива по-прежнему занимает время Θ( n ), но с гораздо меньшей константой. Наивные массивы с изменяемым размером и линейно растущие массивы могут быть полезны, когда приложению с ограниченным пространством требуется множество небольших массивов с изменяемым размером; их также часто используют в качестве образовательного примера, ведущего к экспоненциальному росту динамических массивов. ^[26]

Языковая поддержка

C++ и std::vectorRust являются реализациями std::vec::Vecдинамических массивов, как и классы ArrayList^[27] , поставляемые с Java API ^[28]^:236 и .NET Framework . ^[29]^[30]^{: 22}

Универсальный List<>класс, поставляемый с версией 2.0 .NET Framework, также реализован с помощью динамических массивов. Smalltalk - OrderedCollectionэто динамический массив с динамическим начальным и конечным индексом, поэтому удаление первого элемента также осуществляется за O(1).

Реализация типа данных Pythonlist представляет собой динамический массив, шаблон роста которого: 0, 4, 8, 16, 24, 32, 40, 52, 64, 76, ... ^[31]

Delphi и D реализуют динамические массивы в основе языка.

Универсальный пакет Ada.Containers.Vectors обеспечивает реализацию динамического массива для данного подтипа.

Многие языки сценариев, такие как Perl и Ruby, предлагают динамические массивы в качестве встроенного примитивного типа данных .

Несколько кроссплатформенных фреймворков предоставляют реализации динамических массивов для C , в том числе CFArrayи CFMutableArrayв Core Foundation , и GArrayи GPtrArrayв GLib .

Common Lisp обеспечивает элементарную поддержку векторов изменяемого размера, позволяя настраивать встроенный arrayтип как настраиваемый и местоположение вставки с помощью указателя заполнения .

Внешние ссылки

Словарь алгоритмов и структур данных NIST: динамический массив
VPOOL — реализация динамического массива на языке C.
CollectionSpy — профилировщик Java с явной поддержкой отладки проблем, связанных с ArrayList и Vector.
Структуры открытых данных. Глава 2. Списки на основе массивов, Пэт Морин