Анализ параллельных алгоритмов

В информатике анализ параллельных алгоритмов — это процесс определения вычислительной сложности алгоритмов, выполняемых параллельно, — количества времени, памяти или других ресурсов, необходимых для их выполнения. Во многих отношениях анализ параллельных алгоритмов аналогичен анализу последовательных алгоритмов , но, как правило, он более сложен, поскольку необходимо учитывать поведение нескольких взаимодействующих потоков выполнения. Одна из основных целей параллельного анализа — понять, как меняется использование ресурсов параллельным алгоритмом (скорость, пространство и т. д.) при изменении количества процессоров.

Фон

Так называемая структура рабочего времени (WT) (иногда называемая рабочей глубиной или рабочим интервалом) была первоначально предложена Шилоахом и Вишкиным ^[1] для концептуализации и описания параллельных алгоритмов. В рамках WT параллельный алгоритм сначала описывается в терминах параллельных раундов. Для каждого раунда описываются операции, которые необходимо выполнить, но некоторые проблемы можно скрыть. Например, не обязательно указывать количество операций в каждом раунде, не нужно упоминать процессоры и не нужно учитывать любую информацию, которая может помочь при назначении процессоров для заданий. Во-вторых, предоставляется скрытая информация. Включение скрытой информации основано на доказательстве теоремы планирования Брента ^[2] , которая объясняется далее в этой статье. Структура WT полезна, поскольку, хотя она может значительно упростить первоначальное описание параллельного алгоритма, вставка деталей, скрытых этим начальным описанием, часто не очень сложна. Например, структура WT была принята в качестве базовой структуры представления в книгах по параллельным алгоритмам (для модели PRAM параллельной машины с произвольным доступом ) ^[3] и ^[4] , а также в примечаниях к классу. ^[5] В приведенном ниже обзоре объясняется, как структуру WT можно использовать для анализа более общих параллельных алгоритмов, даже если их описание недоступно в структуре WT.

Определения

Предположим, вычисления выполняются на машине с $p$ процессорами. Обозначим $через$ $Tp$ время, которое истекает между началом вычисления и его окончанием. Анализ времени выполнения вычислений фокусируется на следующих понятиях:

Работа вычисления , выполняемая $p$ процессорами, равна общему числу примитивных операций, выполняемых процессорами. ^[6] Если не учитывать издержки связи, связанные с синхронизацией процессоров, это время равно времени, используемому для выполнения вычислений на одном процессоре, обозначенному $T 1$ .
Глубина или диапазон — это длина самой длинной серии операций , которые необходимо выполнять последовательно из-за зависимостей данных ( критический путь ). Глубину также можно назвать длиной критического пути вычислений. ^[7] Минимизация глубины/диапазона важна при разработке параллельных алгоритмов, поскольку глубина/диапазон определяет кратчайшее возможное время выполнения. ^[8] Альтернативно, интервал можно определить как время $T$ $\infty$ , потраченное на вычисления с использованием идеализированной машины с бесконечным числом процессоров. ^[9]
Стоимость вычислений равна величине $pT p$ . Это выражает общее время, затраченное всеми процессорами как на вычисления, так и на ожидание. ^[6]

Из определений работы, продолжительности и стоимости следует несколько полезных результатов:

Закон о труде . Стоимость всегда равна как минимум работе: $pT p \geq T 1$ . Это следует из того, что $p$ процессоров могут выполнять не более $p$ операций параллельно. ^[6]^[9]
Спанское право . Конечное число $p$ процессоров не может превзойти бесконечное число, так что $T p \geq T \infty$ . ^[9]

Используя эти определения и законы, можно определить следующие показатели эффективности:

Ускорение — это прирост скорости при параллельном выполнении по сравнению с последовательным $:$ $Sp = T 1 / T p$ . Когда ускорение равно $Ω(p)$ для $p$ процессоров (с использованием обозначения большого O ), ускорение является линейным, что является оптимальным в простых моделях вычислений, поскольку закон работы подразумевает, что $T 1 / T p \leq p$ ( суперлинейное ускорение может происходят на практике из-за эффектов иерархии памяти ). Ситуация $T 1 / T p = p$ называется идеальным линейным ускорением. ^[9] Алгоритм, демонстрирующий линейное ускорение, называется масштабируемым . ^[6]
Эффективность — это ускорение каждого процессора, $S p / p$ . ^[6]
Параллельностью называется отношение $T 1 / T \infty$ . Он представляет собой максимально возможное ускорение на любом количестве процессоров. По закону размаха параллелизм ограничивает ускорение: если $p > T 1 / T \infty$ , то: ^[9] ${\frac {T_{1}}{T_{p}}}\leq {\frac {T_{1}}{T_{\infty }}}<p.$
Расслабленность равна $T$ $1$ / $($ $pT$ $\infty$ $)$ . Медленность меньше единицы означает (по закону диапазона), что идеальное линейное ускорение невозможно на $p$ процессорах. ^[9]

Выполнение на ограниченном количестве процессоров

Анализ параллельных алгоритмов обычно проводится в предположении, что имеется неограниченное число процессоров. Это нереально, но не проблема, поскольку любые вычисления, которые могут выполняться параллельно на $N$ процессорах, могут выполняться на $p < N$ процессорах, позволяя каждому процессору выполнять несколько единиц работы. Результат, называемый законом Брента, утверждает, что такое «моделирование» можно выполнить за время $T p$ , ограниченное ^[10]

T_{p}\leq T_{N}+{\frac {T_{1}-T_{N}}{p}},

или, менее точно, ^[6]

T_{p}=O\left(T_{N}+{\frac {T_{1}}{p}}\right).

Альтернативная формулировка закона ограничивает $T p$ сверху и снизу величиной

{\frac {T_{1}}{p}}\leq T_{p}\leq {\frac {T_{1}}{p}}+T_{\infty }

показывая, что диапазон (глубина) $T \infty$ и работа $T 1$ вместе обеспечивают разумные ограничения на время вычислений. ^[2]

Анализ параллельных алгоритмов

Фон

Определения

Выполнение на ограниченном количестве процессоров

Рекомендации