КУДА

CUDA ( Compute Unified Device Architecture ) — это проприетарная платформа параллельных вычислений с закрытым исходным кодом и интерфейс прикладного программирования (API), который позволяет программному обеспечению использовать определенные типы графических процессоров (GPU) для обработки общего назначения. Этот подход называется универсальным. вычисления на графических процессорах ( GPGPU ). CUDA — это программный уровень, который предоставляет прямой доступ к набору виртуальных инструкций графического процессора и параллельным вычислительным элементам для выполнения вычислительных ядер . ^[1]

CUDA предназначен для работы с такими языками программирования, как C , C++ и Fortran . Эта доступность облегчает специалистам по параллельному программированию использование ресурсов графического процессора, в отличие от предыдущих API, таких как Direct3D и OpenGL , которые требовали продвинутых навыков графического программирования. ^[2] Графические процессоры на базе CUDA также поддерживают такие среды программирования, как OpenMP , OpenACC и OpenCL ; ^[3]^[1] и HIP путем компиляции такого кода в CUDA.

CUDA была создана Nvidia . ^[4] Когда оно было впервые представлено, это название было аббревиатурой от Compute Unified Device Architecture, ^[5] но позже Nvidia отказалась от обычного использования этой аббревиатуры. ^{[ когда? ]}

Фон

Графический процессор (GPU) в качестве специализированного компьютерного процессора отвечает требованиям ресурсоемких задач обработки трехмерной графики высокого разрешения в реальном времени . К 2012 году графические процессоры превратились в высокопараллельные многоядерные системы, позволяющие эффективно манипулировать большими блоками данных. Эта конструкция более эффективна, чем центральный процессор (ЦП) общего назначения для алгоритмов в ситуациях, когда обработка больших блоков данных выполняется параллельно, например:

Ян Бак, находясь в Стэнфорде в 2000 году, создал игровую установку 8K с использованием 32 карт GeForce, а затем получил грант DARPA на выполнение параллельного программирования общего назначения на графических процессорах . Затем он присоединился к Nvidia, где с 2004 года курирует разработку CUDA. Продвигая CUDA, Дженсен Хуанг стремился к тому, чтобы графические процессоры Nvidia стали основным оборудованием для научных вычислений. CUDA был выпущен в 2006 году. Примерно в 2015 году фокус CUDA сместился на нейронные сети. ^[6]

Онтология

В следующей таблице представлено неточное описание онтологии платформы CUDA.

Способности программирования

Пример потока обработки CUDA

Копирование данных из основной памяти в память графического процессора
ЦП запускает вычислительное ядро графического процессора
Ядра CUDA графического процессора выполняют ядро параллельно.
Скопируйте полученные данные из памяти графического процессора в основную память.

Платформа CUDA доступна разработчикам программного обеспечения через библиотеки с ускорением CUDA, директивы компилятора , такие как OpenACC , и расширения стандартных языков программирования, включая C , C++ и Fortran . Программисты C/C++ могут использовать «CUDA C/C++», скомпилированный в PTX с помощью nvcc , компилятора C/C++ на базе LLVM от Nvidia или самого clang. ^[7] Программисты на Фортране могут использовать «CUDA Fortran», скомпилированный с помощью компилятора PGI CUDA Fortran от The Portland Group . ^{[ нужно обновить ]}

Помимо библиотек, директив компилятора, CUDA C/C++ и CUDA Fortran, платформа CUDA поддерживает другие вычислительные интерфейсы, включая OpenCL от Khronos Group , ^[8] Microsoft DirectCompute , OpenGL Compute Shader и C++ AMP . ^[9] Сторонние оболочки также доступны для Python , Perl , Fortran, Java , Ruby , Lua , Common Lisp , Haskell , R , MATLAB , IDL , Julia и встроенная поддержка в Mathematica .

В индустрии компьютерных игр графические процессоры используются для рендеринга графики и для расчетов физики игр (физические эффекты, такие как мусор, дым, огонь, жидкости); примеры включают PhysX и Bullet . CUDA также использовалась для ускорения неграфических приложений в вычислительной биологии , криптографии и других областях на порядок и более. ^[10]^[11]^[12]^[13]^[14]

CUDA предоставляет как API низкого уровня ( API драйвера CUDA , не с одним исходным кодом), так и API более высокого уровня ( API среды выполнения CUDA , с одним исходным кодом). Первоначальный пакет CUDA SDK был обнародован 15 февраля 2007 года для Microsoft Windows и Linux . Поддержка Mac OS X была позже добавлена в версии 2.0, ^[15] которая заменяет бета-версию, выпущенную 14 февраля 2008 года. ^[16] CUDA работает со всеми графическими процессорами Nvidia, начиная с серии G8x, включая GeForce , Quadro и линейку Tesla . CUDA совместима с большинством стандартных операционных систем.

CUDA 8.0 поставляется со следующими библиотеками (для компиляции и выполнения, в алфавитном порядке):

cuBLAS — библиотека базовых подпрограмм линейной алгебры CUDA
CUDART — библиотека времени выполнения CUDA
cuFFT — библиотека быстрого преобразования Фурье CUDA
cuRAND — библиотека генерации случайных чисел CUDA
cuSOLVER — коллекция плотных и разреженных прямых решателей на основе CUDA.
cuSPARSE — библиотека разреженных матриц CUDA
NPP — библиотека NVIDIA Performance Primitives
nvGRAPH — библиотека NVIDIA Graph Analytics.
NVML — библиотека управления NVIDIA
NVRTC — библиотека компиляции среды выполнения NVIDIA для CUDA C++

CUDA 8.0 поставляется со следующими программными компонентами:

nView – программное обеспечение для управления настольными компьютерами NVIDIA nView
NVWMI — набор инструментов NVIDIA для управления предприятием
GameWorks PhysX — многоплатформенный игровой физический движок.

CUDA 9.0–9.2 поставляется со следующими компонентами:

CUTLASS 1.0 – собственные алгоритмы линейной алгебры,
Видеодекодер NVIDIA устарел в CUDA 9.2; теперь он доступен в NVIDIA Video Codec SDK.

CUDA 10 поставляется со следующими компонентами:

nvJPEG – гибридная (ЦП и ГП) обработка JPEG

CUDA 11.0–11.8 поставляется со следующими компонентами: ^[17]^[18]^[19]^[20]

CUB — новая из поддерживаемых библиотек C++.
Поддержка нескольких экземпляров графического процессора MIG
nvJPEG2000 — кодер и декодер JPEG 2000

Преимущества

CUDA имеет ряд преимуществ перед традиционными вычислениями общего назначения на графических процессорах (GPGPU) с использованием графических API:

Разбросанное чтение — код может читать из произвольных адресов в памяти.
Единая виртуальная память (CUDA 4.0 и выше)
Единая память (CUDA 6.0 и выше)
Общая память . CUDA предоставляет быструю область общей памяти, которую можно использовать совместно между потоками. Его можно использовать в качестве кэша, управляемого пользователем, обеспечивая более высокую пропускную способность, чем это возможно при использовании поиска текстур. ^[21]
Ускоренная загрузка и обратная связь с графическим процессором.
Полная поддержка целочисленных и побитовых операций, включая целочисленный поиск текстур.

Ограничения

Будь то главный компьютер или устройство графического процессора, весь исходный код CUDA теперь обрабатывается в соответствии с правилами синтаксиса C++. ^[22] Так было не всегда. Более ранние версии CUDA были основаны на правилах синтаксиса C. ^[23] Как и в более общем случае компиляции кода C с помощью компилятора C++, возможно, что старый исходный код CUDA в стиле C либо не скомпилируется, либо не будет вести себя так, как изначально предполагалось.
Взаимодействие с языками рендеринга, такими как OpenGL, является односторонним: OpenGL имеет доступ к зарегистрированной памяти CUDA, но CUDA не имеет доступа к памяти OpenGL.
Копирование между памятью хоста и устройства может привести к снижению производительности из-за пропускной способности системной шины и задержки (частично это можно облегчить с помощью асинхронной передачи памяти, обрабатываемой механизмом DMA графического процессора).
Для достижения наилучшей производительности потоки должны выполняться группами по меньшей мере по 32, при этом общее количество потоков исчисляется тысячами. Ветвления в программном коде существенно не влияют на производительность при условии, что каждый из 32 потоков проходит один и тот же путь выполнения; Модель выполнения SIMD становится существенным ограничением для любой по своей сути расходящейся задачи (например, перемещения структуры данных разделения пространства во время трассировки лучей ).
Для современных версий недоступна эмуляция или резервная функциональность.
Действительный C++ иногда может быть помечен и препятствовать компиляции из-за того, как компилятор подходит к оптимизации с учетом ограничений целевого графического процессора. ^{[ нужна цитата ]}
Информация о типе времени выполнения C++ (RTTI) и обработка исключений в стиле C++ поддерживаются только в коде узла, а не в коде устройства.
В устройствах с одинарной точностью на устройствах с вычислительными возможностями CUDA 1.x первого поколения ненормальные числа не поддерживаются и вместо этого сбрасываются до нуля, а точность операций деления и извлечения квадратного корня немного ниже, чем математические операции с одинарной точностью, соответствующие стандарту IEEE 754. Устройства, поддерживающие вычислительные возможности версии 2.0 и выше, поддерживают ненормальные числа, а операции деления и извлечения квадратного корня по умолчанию соответствуют стандарту IEEE 754. Тем не менее, при желании пользователи могут получить более быструю математику игрового уровня, чем устройства с вычислительными возможностями 1.x, установив флаги компилятора, отключающие точное деление и точные квадратные корни, а также включив сброс ненормальных чисел до нуля. ^[24]
В отличие от OpenCL , графические процессоры с поддержкой CUDA доступны только от Nvidia. ^[25] Попытки реализовать CUDA на других графических процессорах включают:
- Проект Coriander: преобразует исходный код CUDA C++11 в OpenCL 1.2 C. Ответвление CUDA-on-CL, предназначенное для запуска TensorFlow . ^[26]^[27]^[28]
- CU2CL: преобразование CUDA 3.2 C++ в OpenCL C. ^[29]
- GPUOpen HIP: тонкий уровень абстракции поверх CUDA и ROCm , предназначенный для графических процессоров AMD и Nvidia. Имеет инструмент преобразования для импорта исходного кода CUDA C++. Поддерживает CUDA 4.0 плюс C++11 и float16.
- ZLUDA — это замена CUDA на графических процессорах AMD и ранее графических процессорах Intel с производительностью, близкой к исходной. ^[30] Intel и AMD заключили с разработчиком Анджеем Яником отдельный контракт на разработку программного обеспечения в 2021 и 2022 годах соответственно. Однако ни одна из компаний не решила выпустить его официально из-за отсутствия варианта использования в бизнесе. Контракт AMD включал пункт, который позволял Янику самостоятельно выпускать свой код для AMD, что позволяло ему выпустить новую версию, поддерживающую только графические процессоры AMD. ^[31]
- ChipStar может компилировать и запускать программы CUDA/HIP на передовых платформах OpenCL 3.0 или Level Zero. ^[32]

Пример

Этот пример кода на C++ загружает текстуру из изображения в массив на графическом процессоре:

текстура < float , 2 , cudaReadModeElementType > tex ;   void foo () { cudaArray * cu_array ;    // Выделяем массив cudaChannelFormatDesc описание = cudaCreateChannelDesc < float > (); cudaMallocArray ( & cu_array , & описание , ширина , высота );         // Копируем данные изображения в массив cudaMemcpyToArray ( cu_array , image , width * height * sizeof ( float ), cudaMemcpyHostToDevice );     // Устанавливаем параметры текстуры (по умолчанию) tex . AddressMode [ 0 ] = cudaAddressModeClamp ; текс . AddressMode [ 1 ] = cudaAddressModeClamp ; текс . filterMode = cudaFilterModePoint ; текс . нормализовано = ложь ; // не нормализуем координаты              // Привязываем массив к текстуре cudaBindTextureToArray ( tex , cu_array );   // Запускаем ядро dim3 blockDim ( 16 , 16 , 1 ); dim3gridDim ( ( ширина + blockDim.x - 1 ) /blockDim.x , ( высота + blockDim.y - 1 ) /blockDim.y,1 ) ; _ _ _ _ _ _ _ _ _ _ _ ядро <<< GridDim , BlockDim , 0 >>> ( d_data , высота , ширина );                           // Отвязываем массив от текстуры cudaUnbindTexture ( tex ); } //конец foo()  __global__ void kernel ( float * odata , int height , int width ) { unsigned int x = blockIdx . х * блокДим . х + идентификатор потока . Икс ; беззнаковое целое число y = blockIdx . y * blockDim . y + идентификатор потока . й ; if ( x < ширина && y < высота ) { float c = tex2D ( tex , x , y ); odata [ y * ширина + x ] = c ; } }

Ниже приведен пример на Python , который вычисляет произведение двух массивов на графическом процессоре. Неофициальные привязки языка Python можно получить на PyCUDA . ^[33]

импортировать  pycuda.compiler  как  comp , импортировать  pycuda.driver  как  drv , импортировать  numpy, импортировать  pycuda.autoinitмод  =  комп . SourceModule ( """ __global__ void Multiple_them(float *dest, float *a, float *b) {  const int i = threadIdx.x;  dest[i] = a[i] * b[i]; } """ ) умножить_их  =  мод . get_function ( "умножить_их" )а  =  число . случайный . рандн ( 400 ) . astype ( numpy . float32 ) b  =  numpy . случайный . рандн ( 400 ) . astype ( numpy . float32 )место  =  число . Zeros_like ( a ) Multiple_them ( drv.Out ( dest ) , drv.In ( a ) , drv.In ( b ) , block = ( 400 , 1 , 1 ) ) _ _     печать ( адресат  -  a  *  b )

Дополнительные привязки Python для упрощения операций умножения матриц можно найти в программе pycublas . ^[34]

 импортировать  numpy из  pycublas  , импортировать  CUBLASMatrixA  =  CUBLASMatrix ( numpy . mat ([[ 1 ,  2 ,  3 ],  [ 4 ,  5 ,  6 ]],  numpy . float32 )) B  =  CUBLASMatrix ( numpy . mat ([[ 2 ,  3 ],  [ 4 ,  5 ] ] ,  [ 6 ,  7 ]],  numpy.float32 ) ) C = A * B print ( C. np_mat ( )))

в то время как CuPy напрямую заменяет NumPy: ^[35]

импортный  купиа  =  купи . случайный . randn ( 400 ) b  =  купи . случайный . рандн ( 400 )dest  =  купи . нули_подобно ( а )печать ( адресат  -  a  *  b )

Поддерживаемые графические процессоры

Поддерживаемые версии CUDA Compute Capability для версии CUDA SDK и микроархитектуры (по кодовому названию):

Примечание. CUDA SDK 10.2 — это последняя официальная версия для macOS, поскольку в более новых версиях поддержка macOS не будет доступна.

Поддержка SDK CUDA Toolkit для версий Visual Studio. ^[48]

Каждый SDK CUDA Toolkit поддерживает ряд версий компилятора для определенных операционных систем. Вот матрица CUDA Toolkit для поддержки Visual Studio:

Вычислительные возможности CUDA по версиям с соответствующими полупроводниковыми процессорами графического процессора и моделями карт графического процессора (отдельно по различным областям применения):

'*' — продукция только OEM .

Особенности и характеристики версии

^[56]

Типы данных

Примечание. Любые пропущенные строки или пустые записи отражают некоторый недостаток информации по конкретному элементу. ^[57]

Тензорные ядра

Примечание. Любые пропущенные строки или пустые записи отражают некоторый недостаток информации по конкретному элементу. ^[60]^[61]

^[69]^[70]^[71]^[72]

Техническая спецификация

^[83]

^[84]

Многопроцессорная архитектура

^[113]

Для получения дополнительной информации прочтите руководство по программированию Nvidia CUDA. ^[114]

Текущее и будущее использование архитектуры CUDA

Ускоренный рендеринг 3D-графики
Ускоренное взаимное преобразование форматов видеофайлов
Ускоренное шифрование , дешифрование и сжатие
Биоинформатика , например секвенирование ДНК NGS BarraCUDA ^[115]
Распределенные расчеты, такие как прогнозирование нативной конформации белков .
Моделирование медицинского анализа, например, виртуальная реальность на основе изображений КТ и МРТ .
Физическое моделирование, ^[116], в частности, в гидродинамике.
Обучение нейронной сети решению задач машинного обучения
Распознавание лица
Волонтерские компьютерные проекты, такие как SETI@home и другие проекты с использованием программного обеспечения BOINC.
Молекулярная динамика
Майнинг криптовалют
Программное обеспечение «Структура из движения » (SfM)

Смотрите также

SYCL — открытый стандарт от Khronos Group для программирования различных платформ, включая графические процессоры, с использованием современного C++ с одним исходным кодом , аналогичный высокоуровневому API CUDA Runtime API ( с одним исходным кодом ) .
BrookGPU - компилятор графической группы Стэнфордского университета.
Программирование массивов
Параллельные вычисления
Потоковая обработка
rCUDA — API для вычислений на удаленных компьютерах
Молекулярное моделирование на графических процессорах
Vulkan — низкоуровневый высокопроизводительный API для 3D-графики и вычислений.
OptiX — API трассировки лучей от NVIDIA
Бинарный файл CUDA (кубин) – разновидность жирного бинарного файла.
Коллекция числовых библиотек - от NEC для их векторного процессора.

дальнейшее чтение

Бак, Ян; Фоули, Тим; Хорн, Дэниел; Шугерман, Джереми; Фатахалян, Кайвон; Хьюстон, Майк; Ханрахан, Пэт (1 августа 2004 г.). «Брук для графических процессоров: потоковые вычисления на графическом оборудовании». Транзакции ACM с графикой . 23 (3): 777–786. дои : 10.1145/1015706.1015800. ISSN 0730-0301.
Николлс, Джон; Бак, Ян; Гарланд, Майкл; Скадрон, Кевин (01 марта 2008 г.). «Масштабируемое параллельное программирование с помощью CUDA: является ли CUDA той моделью параллельного программирования, которую ждали разработчики приложений?». Очередь . 6 (2): 40–53. дои : 10.1145/1365490.1365500. ISSN 1542-7730.

Внешние ссылки

Официальный веб-сайт