stringtranslate.com

Формат FASTA

В биоинформатике и биохимии формат FASTA представляет собой текстовый формат для представления последовательностей нуклеотидов или аминокислот (белков), в котором нуклеотиды или аминокислоты представлены с помощью однобуквенных кодов.

Формат позволяет предварять последовательности именами и комментариями. Он возник из пакета программного обеспечения FASTA и с тех пор стал почти универсальным стандартом в биоинформатике . [4]

Простота формата FASTA позволяет легко манипулировать последовательностями и анализировать их с помощью инструментов обработки текста и языков сценариев .

Обзор

Последовательность начинается с символа «больше» (">"), за которым следует описание последовательности (все в одной строке). Строки, следующие сразу за строкой описания, представляют собой представление последовательности, по одной букве на аминокислоту или нуклеиновую кислоту, и обычно имеют длину не более 80 символов.

Например:

>MCHU - Кальмодулин - Человек, кролик, корова, крыса и курицаMADQLTEEQIAEFKEAFSLFFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREAДИДГДГКВНЬЕЕФВКММТАК*

Оригинальный формат

Оригинальный формат FASTA/ Pearson описан в документации к набору программ FASTA . Его можно загрузить с любым бесплатным дистрибутивом FASTA (см. fasta20.doc, fastaVN.doc или fastaVN.me, где VN — номер версии).

В оригинальном формате последовательность была представлена ​​как ряд строк, каждая из которых была не длиннее 120 символов и обычно не превышала 80 символов. Вероятно, это было сделано для того, чтобы обеспечить предварительное распределение фиксированных размеров строк в программном обеспечении: в то время большинство пользователей полагались на терминалы Digital Equipment Corporation (DEC) VT220 (или совместимые), которые могли отображать 80 или 132 символа в строке. [5] [6] Большинство людей предпочитали более крупный шрифт в 80-символьных режимах, поэтому стало рекомендованной модой использовать 80 символов или меньше (часто 70) в строках FASTA. Кроме того, ширина стандартной печатной страницы составляет от 70 до 80 символов (в зависимости от шрифта). Следовательно, 80 символов стали нормой. [7]

Первая строка в файле FASTA начиналась либо с символа ">" (больше), либо, реже, с ";" [8] (точка с запятой) и воспринималась как комментарий. Последующие строки, начинающиеся с точки с запятой, игнорировались программным обеспечением. Поскольку единственным использованным комментарием был первый, он быстро стал использоваться для хранения краткого описания последовательности, часто начинающегося с уникального библиотечного номера, и со временем стало обычным делом всегда использовать ">" для первой строки и не использовать комментарии ";" (которые в противном случае были бы проигнорированы).

После начальной строки (используемой для уникального описания последовательности) следовала сама последовательность в стандартной однобуквенной строке символов. Все, что не было допустимым символом, игнорировалось (включая пробелы, табуляторы, звездочки и т. д.). Также было принято заканчивать последовательность символом "*" (звездочка) (по аналогии с использованием в последовательностях в формате PIR) и по той же причине оставлять пустую строку между описанием и последовательностью. Ниже приведены несколько примеров последовательностей:

;LCBO - предшественник пролактина - бычий; пример последовательности в формате FASTAMDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSSEMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHLVTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDEDARYSAFYNLLHCLRRDSSKIDTЙLKLLNCRIIYNNNC*>MCHU - Кальмодулин - Человек, кролик, корова, крыса и курицаMADQLTEEQIAEFKEAFSLFFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREAДИДГДГКВНЬЕЕФВКММТАК*>gi|5524211|ru|AAD44166.1| цитохром b [Elephas maximus maximus]LCLYTHIGRNYYGSYLYSETWNTGIMLLLITMATFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGЛЛИЛИЛЛЛЛЛАЛЛСПДМЛГДПНХМПАДПЛНТПЛХИКПЕВИФЛФАЙАИЛРСВПНКЛГГВЛАЛФЛСИВИЛGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXИЭНИ

Формат FASTA с несколькими последовательностями или формат multi-FASTA будет получен путем объединения нескольких файлов FASTA с одной последовательностью в один файл. Это не подразумевает противоречия с форматом, поскольку только первая строка в файле FASTA может начинаться с ";" или ">", заставляя все последующие последовательности начинаться с ">", чтобы их можно было рассматривать как отдельные последовательности (и далее заставляя исключительное резервирование ">" для строки определения последовательности). Таким образом, приведенные выше примеры будут файлом multi-FASTA, если их взять вместе.

Современные биоинформатические программы, которые полагаются на формат FASTA, ожидают, что заголовкам последовательности будет предшествовать ">". Последовательность обычно представляется как "перемежающаяся" или на нескольких строках, как в приведенном выше примере, но также может быть "последовательной" или на одной строке. Запуск различных биоинформатических программ может потребовать преобразований между "последовательным" и "перемежающимся" форматами FASTA.

Строка описания

Строка описания (defline) или строка заголовка/идентификатора, которая начинается с ">", дает имя и/или уникальный идентификатор для последовательности, а также может содержать дополнительную информацию. В устаревшей практике строка заголовка иногда содержала более одного заголовка, разделенного символом ^A (Control-A). В исходном формате Pearson FASTA после заголовка может располагаться один или несколько комментариев, обозначенных точкой с запятой в начале строки. Некоторые базы данных и биоинформатические приложения не распознают эти комментарии и следуют спецификации NCBI FASTA. Ниже приведен пример файла FASTA с несколькими последовательностями:

>ПОСЛЕДОВАТЕЛЬНОСТЬ_1MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFВЕНЕЙКАЛВАЕЛЕКЕНЕЕРРЛКДПНКПЭХКIPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL>ПОСЛЕДОВАТЕЛЬНОСТЬ_2SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

Идентификаторы NCBI

NCBI определил стандарт для уникального идентификатора, используемого для последовательности (SeqID) в строке заголовка. Это позволяет последовательности, полученной из базы данных, быть помеченной ссылкой на ее запись в базе данных. Формат идентификатора базы данных понимается инструментами NCBI, такими как иmakeblastdb . table2asnВ следующем списке описывается формат, определенный NCBI FASTA для идентификаторов последовательностей. [9]

Вертикальные черты ("|") в приведенном выше списке не являются разделителями в смысле формы Бэкуса–Наура , но являются частью формата. Несколько идентификаторов могут быть объединены, также разделены вертикальными чертами.

Представление последовательности

После строки заголовка представлена ​​фактическая последовательность. Последовательности могут быть последовательностями белков или последовательностями нуклеиновых кислот , и они могут содержать пробелы или символы выравнивания (см. выравнивание последовательностей ). Ожидается, что последовательности будут представлены в стандартных кодах аминокислот и нуклеиновых кислот IUB/IUPAC , за следующими исключениями: строчные буквы принимаются и отображаются в верхнем регистре; для представления символа пробела может использоваться один дефис или тире; а в последовательностях аминокислот U и * являются приемлемыми буквами (см. ниже). Цифры не допускаются, но используются в некоторых базах данных для указания положения в последовательности. Поддерживаются следующие коды нуклеиновых кислот: [10] [11] [12]

Поддерживаемые коды аминокислот (22 аминокислоты и 3 специальных кода):

FASTA-файл

Расширение имени файла

Не существует стандартного расширения имени файла для текстового файла, содержащего последовательности в формате FASTA. В таблице ниже показано каждое расширение и его соответствующее значение.

Сжатие

Сжатие файлов FASTA требует специального компрессора для обработки обоих каналов информации: идентификаторов и последовательности. Для улучшения результатов сжатия они в основном делятся на два потока, где сжатие выполняется с учетом независимости. Например, алгоритм MFCompress [14] выполняет сжатие этих файлов без потерь, используя моделирование контекста и арифметическое кодирование. Genozip [15] — программный пакет для сжатия геномных файлов — использует расширяемую модель на основе контекста. Тесты алгоритмов сжатия файлов FASTA были опубликованы Хоссейни и др. в 2016 г. [16] и Крюковым и др. в 2020 г. [17].

Шифрование

Шифрование файлов FASTA может быть выполнено с помощью различных инструментов, включая Cryfa и Genozip. Cryfa использует шифрование AES, а также обеспечивает сжатие данных. [18] [19] Аналогично, Genozip может шифровать файлы FASTA с помощью AES-256 во время сжатия. [15]

Расширения

Формат FASTQ — это форма формата FASTA, расширенная для указания информации, связанной с секвенированием. Он создан Центром Сэнгера в Кембридже. [3]

A2M/A3M — это семейство форматов, производных от FASTA, используемых для выравнивания последовательностей . В последовательностях A2M/A3M строчные буквы используются для обозначения вставок, которые затем указываются в других последовательностях как точка (" . "). Точки можно отбрасывать для компактности без потери информации. Как и в типичных файлах FASTA, используемых для выравнивания, пробел (" - ") используется для обозначения ровно одной позиции. [20] A3M похож на A2M, с добавленным правилом, согласно которому пробелы, выровненные по вставкам, также могут быть отброшены. [21]

Работа с файлами FASTA

Множество удобных для пользователя скриптов доступны в сообществе для выполнения манипуляций с файлами FASTA. Также доступны онлайн-инструментарии, такие как FaBox [22] или FASTX-Toolkit на серверах Galaxy. [23] Их можно использовать для разделения заголовков/идентификаторов последовательностей, их переименования, сокращения или извлечения интересующих последовательностей из больших файлов FASTA на основе списка требуемых идентификаторов (среди других доступных функций). Древовидный подход к сортировке нескольких файлов FASTA (TREE2FASTA [24] ) также существует на основе раскрашивания и/или аннотации интересующих последовательностей в средстве просмотра FigTree. Кроме того, пакет Bioconductor Biostrings может использоваться для чтения и манипулирования файлами FASTA в R. [25]

Существует несколько онлайн-конвертеров форматов для быстрого переформатирования файлов multi-FASTA в другие форматы (например, NEXUS, PHYLIP) для использования с различными филогенетическими программами, например, конвертер, доступный на phylogeny.fr. [26]

Смотрите также

Ссылки

  1. ^ Lipman DJ, Pearson WR (март 1985). «Быстрый и чувствительный поиск сходства белков». Science . 227 (4693): 1435–41. Bibcode :1985Sci...227.1435L. doi :10.1126/science.2983426. PMID  2983426. Значок закрытого доступа
  2. ^ Pearson WR, Lipman DJ (апрель 1988 г.). «Улучшенные инструменты для сравнения биологических последовательностей». Труды Национальной академии наук Соединенных Штатов Америки . 85 (8): 2444–8. Bibcode : 1988PNAS ...85.2444P. doi : 10.1073/pnas.85.8.2444 . PMC 280013. PMID  3162770. 
  3. ^ ab Cock PJ, Fields CJ, Goto N, Heuer ML, Rice PM (апрель 2010 г.). «Формат файла Sanger FASTQ для последовательностей с оценками качества и варианты Solexa/Illumina FASTQ». Nucleic Acids Research . 38 (6): 1767–71. doi :10.1093/nar/gkp1137. PMC 2847217 . PMID  20015970. 
  4. ^ "Что такое формат FASTA?". Zhang Lab . Архивировано из оригинала 2022-12-04 . Получено 2022-12-04 .
  5. ^ Ландштайнер, mass:werk, Норберт (2019-02-20). "(Now Go Bang!) Растровая типографика CRT (согласно DEC)". Now Go Bang! — mass:werk / Блог . Получено 15.03.2024 .{{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )
  6. ^ "VT220 Built-in Glyphs". VT100 . Получено 2024-03-15 .
  7. ^ "Почему 80 символов — это "стандартный" предел ширины кода?". Software Engineering Stack Exchange . Получено 2024-03-15 .
  8. ^ «Формат базы данных FASTA» . www.loc.gov . 01.08.2023 . Проверено 15 марта 2024 г.
  9. ^ NCBI C++ Toolkit Book. Национальный центр биотехнологической информации . Получено 19 декабря 2018 г.
  10. ^ Тао Тао (2011-08-24). "Однобуквенные коды для нуклеотидов". [NCBI Learning Center] . Национальный центр биотехнологической информации . Архивировано из оригинала 2012-09-14 . Получено 2012-03-15 .
  11. ^ "Таблица кодов ИЮПАК". Банк ДНК NIAS. Архивировано из оригинала 2011-08-11.
  12. ^ "anysymbol". MAFFT - программа выравнивания множественных последовательностей .
  13. ^ "Форматы файлов выравнивания". 22 мая 2019 г. Получено 22 мая 2019 г.
  14. ^ Пиньо А.Дж., Пратас Д. (январь 2014 г.). «MFCompress: инструмент сжатия данных FASTA и multi-FASTA». Биоинформатика . 30 (1): 117–8. doi : 10.1093/биоинформатика/btt594. ПМЦ 3866555 . ПМИД  24132931. 
  15. ^ ab Lan, Divon; Tobler, Ray; Souilmi, Yassine; Llamas, Bastien (2021-02-15). «Genozip: универсальный расширяемый компрессор геномных данных». Биоинформатика . 37 (16): 2225–2230. doi :10.1093/bioinformatics/btab102. ISSN  1367-4803. PMC 8388020. PMID  33585897 . 
  16. ^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо Дж. (2016). «Обзор методов сжатия данных биологических последовательностей». Информация . 7 (4): 56. дои : 10.3390/info7040056 . ISSN  2078-2489.
  17. ^ Крюков К, Уэда МТ, Накагава С, Иманиши Т (июль 2020 г.). «База данных Sequence Compression Benchmark (SCB) — комплексная оценка компрессоров без ссылок для последовательностей в формате FASTA». GigaScience . 9 (7): giaa072. doi :10.1093/gigascience/giaa072. PMC 7336184 . PMID  32627830. 
  18. ^ Pratas D, Hosseini M, Pinho A (2017). "Cryfa: инструмент для сжатия и шифрования файлов FASTA". 11-я Международная конференция по практическим применениям вычислительной биологии и биоинформатики (PACBB) . Достижения в области интеллектуальных систем и вычислений. Том 616. Springer. стр. 305–312. doi :10.1007/978-3-319-60816-7_37. ISBN 978-3-319-60815-0.
  19. ^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо Дж. (01.01.2019). Бергер, Бонни (ред.). «Cryfa: безопасный инструмент шифрования геномных данных». Биоинформатика . 35 (1): 146–148. doi :10.1093/bioinformatics/bty645. ISSN  1367-4803. PMC 6298042. PMID 30020420  . 
  20. ^ "Описание формата выравнивания A2M". SAMtools . Архивировано из оригинала 2022-08-15.
  21. ^ "soedinglab/hh-suite: reformat.pl" . Гитхаб . 20 ноября 2022 г.
  22. ^ Villesen, P. (2007). «FaBox: онлайн-набор инструментов для последовательностей fasta». Molecular Ecology Notes . 7 (6): 965–968. doi :10.1111/j.1471-8286.2007.01821.x. ISSN  1471-8278.
  23. ^ Бланкенберг Д., Фон Кюстер Г., Бувье Э., Бейкер Д., Афган Э., Столер Н., Galaxy Team, Тейлор Дж., Некрутенко А. (2014). «Распространение научного программного обеспечения с помощью Galaxy ToolShed». Геномная биология . 15 (2): 403. doi : 10.1186/gb4161 . PMC 4038738. PMID  25001293. 
  24. ^ Sauvage T, Plouviez S, Schmidt WE, Fredericq S (март 2018 г.). "TREE2FASTA: гибкий скрипт Perl для пакетного извлечения последовательностей FASTA из исследовательских филогенетических деревьев". BMC Research Notes . 11 (1): 403. doi : 10.1186/s13104-018-3268-y . PMC 5838971. PMID  29506565 . 
  25. ^ Пажес, Х.; Абойун, П.; Джентльмен, Р.; ДебРой, С. (2018). «Биостроки: эффективное манипулирование биологическими строками». Bioconductor.org . Версия пакета R 2.48.0. doi : 10.18129/B9.bioc.Biostrings.
  26. ^ Dereeper A, Guignon V, Blanc G, Audic S, Buffet S, Chevenet F, Dufayard JF, Guindon S, Lefort V, Lescot M, Claverie JM, Gascuel O (июль 2008 г.). "Phylogeny.fr: надежный филогенетический анализ для неспециалистов". Nucleic Acids Research . 36 (выпуск веб-сервера): W465–9. doi :10.1093/nar/gkn180. PMC 2447785. PMID 18424797  . 

Внешние ссылки