В биоинформатике и биохимии формат FASTA представляет собой текстовый формат для представления последовательностей нуклеотидов или аминокислот (белков), в котором нуклеотиды или аминокислоты представлены с помощью однобуквенных кодов.
Формат позволяет предварять последовательности именами и комментариями. Он возник из пакета программного обеспечения FASTA и с тех пор стал почти универсальным стандартом в биоинформатике . [4]
Простота формата FASTA позволяет легко манипулировать последовательностями и анализировать их с помощью инструментов обработки текста и языков сценариев .
Последовательность начинается с символа «больше» (">"), за которым следует описание последовательности (все в одной строке). Строки, следующие сразу за строкой описания, представляют собой представление последовательности, по одной букве на аминокислоту или нуклеиновую кислоту, и обычно имеют длину не более 80 символов.
Например:
>MCHU - Кальмодулин - Человек, кролик, корова, крыса и курицаMADQLTEEQIAEFKEAFSLFFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREAДИДГДГКВНЬЕЕФВКММТАК*
Оригинальный формат FASTA/ Pearson описан в документации к набору программ FASTA . Его можно загрузить с любым бесплатным дистрибутивом FASTA (см. fasta20.doc, fastaVN.doc или fastaVN.me, где VN — номер версии).
В оригинальном формате последовательность была представлена как ряд строк, каждая из которых была не длиннее 120 символов и обычно не превышала 80 символов. Вероятно, это было сделано для того, чтобы обеспечить предварительное распределение фиксированных размеров строк в программном обеспечении: в то время большинство пользователей полагались на терминалы Digital Equipment Corporation (DEC) VT220 (или совместимые), которые могли отображать 80 или 132 символа в строке. [5] [6] Большинство людей предпочитали более крупный шрифт в 80-символьных режимах, поэтому стало рекомендованной модой использовать 80 символов или меньше (часто 70) в строках FASTA. Кроме того, ширина стандартной печатной страницы составляет от 70 до 80 символов (в зависимости от шрифта). Следовательно, 80 символов стали нормой. [7]
Первая строка в файле FASTA начиналась либо с символа ">" (больше), либо, реже, с ";" [8] (точка с запятой) и воспринималась как комментарий. Последующие строки, начинающиеся с точки с запятой, игнорировались программным обеспечением. Поскольку единственным использованным комментарием был первый, он быстро стал использоваться для хранения краткого описания последовательности, часто начинающегося с уникального библиотечного номера, и со временем стало обычным делом всегда использовать ">" для первой строки и не использовать комментарии ";" (которые в противном случае были бы проигнорированы).
После начальной строки (используемой для уникального описания последовательности) следовала сама последовательность в стандартной однобуквенной строке символов. Все, что не было допустимым символом, игнорировалось (включая пробелы, табуляторы, звездочки и т. д.). Также было принято заканчивать последовательность символом "*" (звездочка) (по аналогии с использованием в последовательностях в формате PIR) и по той же причине оставлять пустую строку между описанием и последовательностью. Ниже приведены несколько примеров последовательностей:
;LCBO - предшественник пролактина - бычий; пример последовательности в формате FASTAMDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSSEMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHLVTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDEDARYSAFYNLLHCLRRDSSKIDTЙLKLLNCRIIYNNNC*>MCHU - Кальмодулин - Человек, кролик, корова, крыса и курицаMADQLTEEQIAEFKEAFSLFFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREAДИДГДГКВНЬЕЕФВКММТАК*>gi|5524211|ru|AAD44166.1| цитохром b [Elephas maximus maximus]LCLYTHIGRNYYGSYLYSETWNTGIMLLLITMATFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGЛЛИЛИЛЛЛЛЛАЛЛСПДМЛГДПНХМПАДПЛНТПЛХИКПЕВИФЛФАЙАИЛРСВПНКЛГГВЛАЛФЛСИВИЛGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXИЭНИ
Формат FASTA с несколькими последовательностями или формат multi-FASTA будет получен путем объединения нескольких файлов FASTA с одной последовательностью в один файл. Это не подразумевает противоречия с форматом, поскольку только первая строка в файле FASTA может начинаться с ";" или ">", заставляя все последующие последовательности начинаться с ">", чтобы их можно было рассматривать как отдельные последовательности (и далее заставляя исключительное резервирование ">" для строки определения последовательности). Таким образом, приведенные выше примеры будут файлом multi-FASTA, если их взять вместе.
Современные биоинформатические программы, которые полагаются на формат FASTA, ожидают, что заголовкам последовательности будет предшествовать ">". Последовательность обычно представляется как "перемежающаяся" или на нескольких строках, как в приведенном выше примере, но также может быть "последовательной" или на одной строке. Запуск различных биоинформатических программ может потребовать преобразований между "последовательным" и "перемежающимся" форматами FASTA.
Строка описания (defline) или строка заголовка/идентификатора, которая начинается с ">", дает имя и/или уникальный идентификатор для последовательности, а также может содержать дополнительную информацию. В устаревшей практике строка заголовка иногда содержала более одного заголовка, разделенного символом ^A (Control-A). В исходном формате Pearson FASTA после заголовка может располагаться один или несколько комментариев, обозначенных точкой с запятой в начале строки. Некоторые базы данных и биоинформатические приложения не распознают эти комментарии и следуют спецификации NCBI FASTA. Ниже приведен пример файла FASTA с несколькими последовательностями:
>ПОСЛЕДОВАТЕЛЬНОСТЬ_1MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFВЕНЕЙКАЛВАЕЛЕКЕНЕЕРРЛКДПНКПЭХКIPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL>ПОСЛЕДОВАТЕЛЬНОСТЬ_2SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
NCBI определил стандарт для уникального идентификатора, используемого для последовательности (SeqID) в строке заголовка. Это позволяет последовательности, полученной из базы данных, быть помеченной ссылкой на ее запись в базе данных. Формат идентификатора базы данных понимается инструментами NCBI, такими как иmakeblastdb
. table2asn
В следующем списке описывается формат, определенный NCBI FASTA для идентификаторов последовательностей. [9]
Вертикальные черты ("|") в приведенном выше списке не являются разделителями в смысле формы Бэкуса–Наура , но являются частью формата. Несколько идентификаторов могут быть объединены, также разделены вертикальными чертами.
После строки заголовка представлена фактическая последовательность. Последовательности могут быть последовательностями белков или последовательностями нуклеиновых кислот , и они могут содержать пробелы или символы выравнивания (см. выравнивание последовательностей ). Ожидается, что последовательности будут представлены в стандартных кодах аминокислот и нуклеиновых кислот IUB/IUPAC , за следующими исключениями: строчные буквы принимаются и отображаются в верхнем регистре; для представления символа пробела может использоваться один дефис или тире; а в последовательностях аминокислот U и * являются приемлемыми буквами (см. ниже). Цифры не допускаются, но используются в некоторых базах данных для указания положения в последовательности. Поддерживаются следующие коды нуклеиновых кислот: [10] [11] [12]
Поддерживаемые коды аминокислот (22 аминокислоты и 3 специальных кода):
Не существует стандартного расширения имени файла для текстового файла, содержащего последовательности в формате FASTA. В таблице ниже показано каждое расширение и его соответствующее значение.
Сжатие файлов FASTA требует специального компрессора для обработки обоих каналов информации: идентификаторов и последовательности. Для улучшения результатов сжатия они в основном делятся на два потока, где сжатие выполняется с учетом независимости. Например, алгоритм MFCompress [14] выполняет сжатие этих файлов без потерь, используя моделирование контекста и арифметическое кодирование. Genozip [15] — программный пакет для сжатия геномных файлов — использует расширяемую модель на основе контекста. Тесты алгоритмов сжатия файлов FASTA были опубликованы Хоссейни и др. в 2016 г. [16] и Крюковым и др. в 2020 г. [17].
Шифрование файлов FASTA может быть выполнено с помощью различных инструментов, включая Cryfa и Genozip. Cryfa использует шифрование AES, а также обеспечивает сжатие данных. [18] [19] Аналогично, Genozip может шифровать файлы FASTA с помощью AES-256 во время сжатия. [15]
Формат FASTQ — это форма формата FASTA, расширенная для указания информации, связанной с секвенированием. Он создан Центром Сэнгера в Кембридже. [3]
A2M/A3M — это семейство форматов, производных от FASTA, используемых для выравнивания последовательностей . В последовательностях A2M/A3M строчные буквы используются для обозначения вставок, которые затем указываются в других последовательностях как точка (" . "). Точки можно отбрасывать для компактности без потери информации. Как и в типичных файлах FASTA, используемых для выравнивания, пробел (" - ") используется для обозначения ровно одной позиции. [20] A3M похож на A2M, с добавленным правилом, согласно которому пробелы, выровненные по вставкам, также могут быть отброшены. [21]
Множество удобных для пользователя скриптов доступны в сообществе для выполнения манипуляций с файлами FASTA. Также доступны онлайн-инструментарии, такие как FaBox [22] или FASTX-Toolkit на серверах Galaxy. [23] Их можно использовать для разделения заголовков/идентификаторов последовательностей, их переименования, сокращения или извлечения интересующих последовательностей из больших файлов FASTA на основе списка требуемых идентификаторов (среди других доступных функций). Древовидный подход к сортировке нескольких файлов FASTA (TREE2FASTA [24] ) также существует на основе раскрашивания и/или аннотации интересующих последовательностей в средстве просмотра FigTree. Кроме того, пакет Bioconductor Biostrings может использоваться для чтения и манипулирования файлами FASTA в R. [25]
Существует несколько онлайн-конвертеров форматов для быстрого переформатирования файлов multi-FASTA в другие форматы (например, NEXUS, PHYLIP) для использования с различными филогенетическими программами, например, конвертер, доступный на phylogeny.fr. [26]
{{cite web}}
: CS1 maint: несколько имен: список авторов ( ссылка )