FourCC («четырехсимвольный код») — это последовательность из четырех байтов (обычно ASCII ) , используемая для уникальной идентификации форматов данных . Он возник на основе системы метаданных OSType или ResType , используемой в классической Mac OS , и был принят для формата файлов обмена Amiga / Electronic Arts и его производных. Позже идея была повторно использована для идентификации типов сжатых данных в QuickTime и DirectShow .
В 1984 году была выпущена самая ранняя версия ОС Macintosh — System 1 . Он использовал одноуровневую файловую систему Macintosh с полями метаданных, включая типы файлов , информацию об создателе (приложении) и разветвлениями для хранения дополнительных ресурсов . Эту информацию можно было изменить, не изменяя сами данные, чтобы их можно было интерпретировать по-разному. Во всей системе использовались одинаковые коды в качестве тегов типов для всех видов данных. [1] [2]
В 1985 году Electronic Arts представила метаформат Interchange File Format (IFF) (семейство форматов файлов), первоначально разработанный для использования на Amiga . Эти файлы состояли из последовательности «кусков», которые могли содержать произвольные данные, причем каждому фрагменту предшествовал четырехбайтовый идентификатор. В спецификации IFF прямо упоминается, что истоки идеи FourCC лежат в Apple. [3]
Этот IFF был принят рядом разработчиков, включая Apple для файлов AIFF и Microsoft для файлов RIFF (которые использовались в качестве основы для форматов файлов AVI и WAV ). Apple называла многие из этих кодов OSTypes . Разработчики Microsoft и Windows называют свои четырехбайтовые идентификаторы FourCC или четырехсимвольными кодами . Коды FourCC также были приняты Microsoft для идентификации форматов данных, используемых в DirectX , особенно в DirectShow и DirectX Graphics.
Начиная с Mac OS X Panther , сигнатуры OSType являются одним из нескольких источников, которые можно изучить для определения универсального идентификатора типа , и больше не используются в качестве сигнатуры основного типа данных. Mac OS X (macOS) предпочитает более разговорное соглашение о маркировке типов файлов с использованием расширений имен файлов. На момент внесения изменений это изменение стало источником серьезных разногласий среди пожилых пользователей, которые считали, что Apple возвращается к более примитивному способу, при котором метаданные в имени файла теряются.
Коды типов, связанные с файловой системой, недоступны пользователям для манипулирования, хотя их можно просматривать и изменять с помощью определенного программного обеспечения, в первую очередь инструментов командной строки macOS GetFileInfo и SetFile , которые устанавливаются как часть инструментов разработчика в /Developer/Tools , или утилиту ResEdit , доступную для старых компьютеров Mac. [4] [5]
Последовательность байтов обычно ограничивается печатными символами ASCII , а символы пробела зарезервированы для заполнения более коротких последовательностей. В отличие от расширений файлов сохраняется чувствительность к регистру . Коды FourCC иногда кодируются в шестнадцатеричном формате (например, «0x31637661» для «avc1») [6] [7] [8] , а иногда кодируются в удобочитаемом виде (например, « mp4a »). Однако некоторые FourCC содержат непечатаемые символы и нечитабельны для человека без специального форматирования для отображения; например, 10-битное видео Y'CbCr 4:2:2 может иметь FourCC ('Y', '3', 10, 10) [9] , который ffmpeg отображает как rawvideo (Y3[10] [10] / 0x0A0A3359), yuv422p10le
.
Четырехбайтовые идентификаторы полезны, поскольку они могут состоять из четырех удобочитаемых символов с мнемоническими свойствами, при этом помещаясь в четырехбайтовое пространство памяти, обычно выделяемое для целых чисел в 32-битных системах (хотя проблемы с порядком байтов могут сделать их менее читаемыми). ). Таким образом, коды могут эффективно использоваться в программном коде как целые числа, а также давать подсказки в потоках двоичных данных при проверке.
FourCC записывается с прямым порядком байтов относительно базовой последовательности символов ASCII, поэтому при чтении в виде строки он отображается в правильном порядке байтов. Многие компиляторы C, включая GCC, определяют многосимвольное буквальное поведение выравнивания по правому краю младшего байта, так что это '1234'
становится ASCII. [10] Это традиционный способ написания кодов FourCC, используемый программистами Mac OS для OSType. ( Классическая Mac OS имела исключительно обратный порядок байтов.)0x31323334
На машинах с прямым порядком байтов требуется замена байтов значения, чтобы результат был правильным. Возьмем приведенный выше пример avc1: хотя литерал 'avc1' уже преобразуется в целочисленное значение 0x61766331 , машина с прямым порядком байтов изменила бы порядок байтов и сохранила бы значение как 31 63 76 61 . Чтобы получить правильную последовательность байтов 61 76 63 31 , используется предварительно замененное значение 0x31637661 .
Одним из наиболее известных применений FourCC является идентификация видеокодека или формата видеокодирования в файлах AVI. Общие идентификаторы включают DIVX , XVID и H264 . Для форматов аудиокодирования файлы AVI и WAV используют двухбайтовый идентификатор, обычно записанный в шестнадцатеричном формате (например, 0055 для MP3 ). В файлах QuickTime к этим двухбайтовым идентификаторам добавляются буквы «мс», образующие четырехзначный код. В файлах RealMedia также используются четырехсимвольные коды, однако фактические используемые коды отличаются от кодов, найденных в файлах AVI или QuickTime.
Другими форматами файлов, в которых важно использовать концепцию четырехбайтового идентификатора, являются формат стандартного MIDI-файла (SMF) , формат файла изображения PNG , формат файла сетки 3DS (3D Studio Max) и формат профиля ICC .
Четырехсимвольные коды также используются в приложениях, отличных от форматов файлов, например:
Другие варианты использования OSTypes включают:
Эта функция GETFOURCC предоставляет список доступных видеокодеков в текущей установке Windows.