BLAST — одна из наиболее широко используемых биоинформатических программ для поиска последовательностей. [4] Она решает фундаментальную проблему в биоинформатических исследованиях. Эвристический алгоритм, который она использует, намного быстрее других подходов, таких как вычисление оптимального выравнивания. Этот акцент на скорости жизненно важен для того, чтобы сделать алгоритм практичным для огромных баз данных геномов, доступных в настоящее время, хотя последующие алгоритмы могут быть еще быстрее.
Программа BLAST была разработана Юджином Майерсом, Стивеном Альтшулем, Уорреном Гишем, Дэвидом Дж. Липманом и Уэббом Миллером в NIH и была опубликована в J. Mol. Biol. в 1990 году. BLAST расширила работу по выравниванию ранее разработанной программы для поиска сходства последовательностей белков и ДНК, FASTA , добавив новую стохастическую модель, разработанную Сэмюэлем Карлином и Стивеном Альтшулем . [5] Они предложили «метод оценки сходства между известной последовательностью ДНК одного организма с последовательностью другого», [3] и их работа была описана как «статистическая основа для BLAST». [6] Впоследствии Альтшуль, Гиш, Миллер, Майерс и Липман разработали и реализовали программу BLAST, которая была опубликована в Journal of Molecular Biology в 1990 году и с тех пор цитировалась более 100 000 раз. [7]
Хотя BLAST быстрее любой реализации Смита-Уотермана в большинстве случаев, он не может «гарантировать оптимальное выравнивание последовательностей запроса и базы данных», как это делает алгоритм Смита-Уотермана. Алгоритм Смита-Уотермана был расширением предыдущего оптимального метода, алгоритма Нидлмана-Вунша , который был первым алгоритмом выравнивания последовательностей, который гарантировал нахождение наилучшего возможного выравнивания. Однако требования к времени и пространству этих оптимальных алгоритмов намного превышают требования BLAST.
BLAST более эффективен по времени, чем FASTA, поскольку ищет только наиболее значимые паттерны в последовательностях, но при этом обладает сравнительной чувствительностью. Это можно было бы осознать еще лучше, поняв алгоритм BLAST, представленный ниже.
Примеры других вопросов, для ответа на которые исследователи используют BLAST:
BLAST доступен в сети на сайте NCBI. Различные типы BLAST доступны в соответствии с последовательностями запросов и целевыми базами данных. Альтернативные реализации включают AB-BLAST (ранее известный как WU-BLAST), FSA-BLAST (последнее обновление в 2006 году) и ScalaBLAST. [8] [9]
Оригинальная статья Альтшуля и др. [7] была наиболее цитируемой статьей, опубликованной в 1990-х годах. [10]
Вход
Входные последовательности (в формате FASTA или Genbank ), база данных для поиска и другие дополнительные параметры, такие как матрица оценок. [ необходимо разъяснение ]
Выход
Вывод BLAST может быть доставлен в различных форматах. Эти форматы включают HTML , простой текст и форматирование XML . Для веб-страницы NCBI форматом вывода по умолчанию является HTML. При выполнении BLAST на NCBI результаты предоставляются в графическом формате, показывающем найденные совпадения, таблицу, показывающую идентификаторы последовательностей для совпадений с данными, связанными с оценкой, а также выравнивания для интересующей последовательности и полученные совпадения с соответствующими оценками BLAST для них. Самым простым для чтения и наиболее информативным из них, вероятно, является таблица.
Если кто-то пытается найти фирменную последовательность или просто ту, которая недоступна в базах данных, доступных широкой публике через такие источники, как NCBI, есть программа BLAST, доступная для бесплатной загрузки на любой компьютер. Ее можно найти на сайте BLAST+ executables. Существуют также коммерческие программы, доступные для покупки. Базы данных можно найти на сайте NCBI, а также на Index of BLAST databases (FTP).
Процесс
Используя эвристический метод, BLAST находит похожие последовательности, находя короткие совпадения между двумя последовательностями. Этот процесс поиска похожих последовательностей называется посевом. Именно после этого первого совпадения BLAST начинает делать локальные выравнивания. При попытке найти сходство в последовательностях, наборы общих букв, известные как слова, очень важны. Например, предположим, что последовательность содержит следующий отрезок букв, GLKFA. Если бы BLAST проводился в нормальных условиях, размер слова был бы 3 буквы. В этом случае, используя заданный отрезок букв, искомыми словами были бы GLK, LKF и KFA. Эвристический алгоритм BLAST находит все общие трехбуквенные слова между интересующей последовательностью и последовательностью или последовательностями хита из базы данных. Затем этот результат будет использоваться для построения выравнивания. После создания слов для интересующей последовательности, остальные слова также собираются. Эти слова должны удовлетворять требованию иметь оценку не менее порогового значения T при сравнении с использованием матрицы оценок.
Одной из часто используемых матриц оценок для поиска BLAST является BLOSUM62 [11] , хотя оптимальная матрица оценок зависит от сходства последовательностей. После того, как оба слова и соседние слова собраны и скомпилированы, они сравниваются с последовательностями в базе данных для поиска совпадений. Пороговая оценка T определяет, будет ли конкретное слово включено в выравнивание. После проведения посева выравнивание, которое состоит всего из 3 остатков, расширяется в обоих направлениях алгоритмом, используемым BLAST. Каждое расширение влияет на оценку выравнивания, увеличивая или уменьшая ее. Если эта оценка выше, чем предопределенная T , выравнивание будет включено в результаты, выдаваемые BLAST. Однако, если эта оценка ниже, чем предопределенная T , выравнивание прекратит расширяться, предотвращая включение областей плохого выравнивания в результаты BLAST. Обратите внимание, что увеличение показателя T ограничивает объем пространства, доступного для поиска, уменьшая количество соседних слов, и в то же время ускоряя процесс BLAST.
Алгоритм
Для запуска программного обеспечения BLAST требуется последовательность запроса для поиска и последовательность для поиска (также называемая целевой последовательностью) или база данных последовательностей, содержащая несколько таких последовательностей. BLAST найдет подпоследовательности в базе данных, которые похожи на подпоследовательности в запросе. При типичном использовании последовательность запроса намного меньше базы данных, например, запрос может содержать тысячу нуклеотидов, в то время как база данных содержит несколько миллиардов нуклеотидов.
Основная идея BLAST заключается в том, что часто существуют пары сегментов с высокой оценкой (HSP), содержащиеся в статистически значимом выравнивании. BLAST ищет выравнивания последовательностей с высокой оценкой между последовательностью запроса и существующими последовательностями в базе данных, используя эвристический подход, который приближается к алгоритму Смита-Уотермана . Однако исчерпывающий подход Смита-Уотермана слишком медленный для поиска в больших геномных базах данных, таких как GenBank . Поэтому алгоритм BLAST использует эвристический подход, который менее точен, чем алгоритм Смита-Уотермана, но более чем в 50 раз быстрее. [12] Скорость и относительно хорошая точность BLAST являются одними из ключевых технических инноваций программ BLAST.
Обзор алгоритма BLAST (поиск по белкам) выглядит следующим образом: [12]
Удалить области низкой сложности или повторы последовательности в последовательности запроса.
«Низкосложная область» означает область последовательности, состоящую из нескольких видов элементов. Эти области могут давать высокие баллы, которые запутывают программу при поиске фактических значимых последовательностей в базе данных, поэтому их следует отфильтровать. Области будут помечены X (белковые последовательности) или N (последовательности нуклеиновых кислот), а затем будут проигнорированы программой BLAST. Для фильтрации низкосложных областей программа SEG используется для белковых последовательностей, а программа DUST используется для ДНК-последовательностей. С другой стороны, программа XNU используется для маскировки тандемных повторов в белковых последовательностях.
Составьте список слов из k букв последовательности запроса.
Возьмем для примера k = 3, мы перечислим слова длиной 3 в последовательности белка запроса ( k обычно равен 11 для последовательности ДНК) "последовательно", пока не будет включена последняя буква последовательности запроса. Метод проиллюстрирован на рисунке 1.
Перечислите возможные совпадающие слова.
Этот шаг является одним из основных различий между BLAST и FASTA. FASTA заботится обо всех общих словах в базе данных и последовательностях запросов, которые перечислены на шаге 2; однако BLAST заботится только о словах с высокими баллами. Баллы создаются путем сравнения слова в списке на шаге 2 со всеми трехбуквенными словами. Используя матрицу баллов ( матрицу подстановки ) для оценки сравнения каждой пары остатков, существует 20^3 возможных баллов совпадения для трехбуквенного слова. Например, балл, полученный путем сравнения PQG с PEG и PQA, составляет соответственно 15 и 12 с весовой схемой BLOSUM62 . Для слов ДНК совпадение оценивается как +5, а несовпадение как -4 или как +2 и -3. После этого порог оценки соседнего слова T используется для уменьшения количества возможных совпадающих слов. Слова, баллы которых превышают пороговое значение T, останутся в списке возможных совпадающих слов, а слова с более низкими баллами будут отброшены. Например, PEG сохраняется, но PQA отбрасывается, когда T равен 13.
Организуйте оставшиеся высокорейтинговые слова в эффективное дерево поиска.
Это позволяет программе быстро сравнивать слова с наивысшими оценками с последовательностями в базе данных.
Повторите шаги 3–4 для каждого слова из k букв в последовательности запроса.
Просканируйте последовательности базы данных на предмет точных совпадений с оставшимися словами с высоким рейтингом.
Программа BLAST сканирует последовательности базы данных на предмет оставшегося высокорейтингового слова, например PEG, для каждой позиции. Если найдено точное совпадение, это совпадение используется для затравки возможного неразрывного выравнивания между последовательностями запроса и базы данных.
Расширить точные совпадения до пары сегментов с высоким рейтингом (HSP).
Первоначальная версия BLAST растягивает более длинное выравнивание между запросом и последовательностью базы данных в левом и правом направлениях, от позиции, где произошло точное совпадение. Расширение не останавливается, пока накопленный общий балл HSP не начнет уменьшаться. Упрощенный пример представлен на рисунке 2.
Чтобы сэкономить больше времени, была разработана более новая версия BLAST, называемая BLAST2 или gapped BLAST. BLAST2 использует более низкий порог оценки соседнего слова, чтобы поддерживать тот же уровень чувствительности для обнаружения сходства последовательностей. Поэтому список возможных совпадающих слов на шаге 3 становится длиннее. Затем точно совпадающие регионы, находящиеся на расстоянии A друг от друга на той же диагонали на рисунке 3, будут объединены в более длинный новый регион. Наконец, новые регионы затем расширяются тем же методом, что и в исходной версии BLAST, а затем создаются баллы HSP (пары сегментов с высокой оценкой) расширенных регионов с использованием матрицы подстановки, как и раньше.
Перечислите всех HSP в базе данных, чей балл достаточно высок, чтобы быть рассмотренным.
Мы перечислим HSP, баллы которых превышают эмпирически определенный пороговый балл S. Исследуя распределение баллов выравнивания, смоделированных путем сравнения случайных последовательностей, можно определить пороговый балл S таким образом, чтобы его значение было достаточно большим, чтобы гарантировать значимость оставшихся HSP.
Оцените значимость показателя HSP.
Затем BLAST оценивает статистическую значимость каждого показателя HSP, используя распределение экстремальных значений Гумбеля (EVD). (Доказано, что распределение оценок локального выравнивания Смита-Уотермана между двумя случайными последовательностями следует EVD Гумбеля. Для локальных выравниваний, содержащих пробелы, это не доказано.) В соответствии с EVD Гумбеля вероятность p наблюдения оценки S, равной или большей x, определяется уравнением
где
Статистические параметры и оцениваются путем подгонки распределения оценок локального выравнивания без пробелов, последовательности запроса и множества перетасованных версий (глобальное или локальное перемешивание) последовательности базы данных к распределению экстремальных значений Гумбеля. Обратите внимание, что и зависят от матрицы подстановки, штрафов за пробелы и состава последовательности (частот букв). и являются эффективными длинами последовательностей запроса и базы данных соответственно. Исходная длина последовательности сокращается до эффективной длины для компенсации эффекта края (начало выравнивания вблизи конца одной из последовательностей запроса или базы данных, вероятно, не будет иметь достаточной последовательности для построения оптимального выравнивания). Их можно рассчитать как
где — средняя ожидаемая оценка на выровненную пару остатков в выравнивании двух случайных последовательностей. Альтшул и Гиш дали типичные значения, , и , для локального выравнивания без пробелов, используя BLOSUM62 в качестве матрицы подстановки. Использование типичных значений для оценки значимости называется методом таблицы поиска; он не является точным. Ожидаемая оценка E сопоставления базы данных — это количество раз, когда несвязанная последовательность базы данных получит оценку S выше x случайно. Ожидание E, полученное при поиске в базе данных последовательностей D , определяется как
Более того, когда , E можно аппроксимировать распределением Пуассона как
Это ожидание или ожидаемое значение "E" (часто называемое E -баллом или E -значением или e -значением), оценивающее значимость балла HSP для локального выравнивания без пробелов, сообщается в результатах BLAST. Расчет, показанный здесь, изменяется, если отдельные HSP объединяются, например, при создании выравниваний с пробелами (описано ниже), из-за вариации статистических параметров.
Объедините два или более участков HSP в более длинное выравнивание.
Иногда мы находим два или более регионов HSP в одной последовательности базы данных, которые можно объединить в более длинное выравнивание. Это дает дополнительные доказательства связи между запросом и последовательностью базы данных. Существует два метода: метод Пуассона и метод суммы баллов, для сравнения значимости новых объединенных регионов HSP. Предположим, что есть два объединенных региона HSP с парами баллов (65, 40) и (52, 45) соответственно. Метод Пуассона придает большую значимость набору с максимально низким баллом (45>40). Однако метод суммы баллов предпочитает первый набор, потому что 65+40 (105) больше, чем 52+45(97). Исходный BLAST использует метод Пуассона; BLAST с разрывами и WU-BLAST используют метод суммы баллов.
Покажите локальные выравнивания Смита-Уотермана с пробелами для запроса и каждой из сопоставленных последовательностей базы данных.
Исходный BLAST генерирует только выравнивания без пробелов, включая изначально найденные HSP по отдельности, даже если в одной последовательности базы данных обнаружено более одного HSP.
BLAST2 производит единое выравнивание с пробелами, которое может включать все изначально найденные регионы HSP. Обратите внимание, что вычисление оценки и ее соответствующего значения E подразумевает использование адекватных штрафов за пробелы.
Сообщать о каждом матче , ожидаемый балл которого ниже порогового параметра E.
Типы BLAST
BLASTn (Нуклеотид BLAST)
BLASTn сравнивает одну или несколько нуклеотидных последовательностей с базой данных или другой последовательностью. Это полезно при попытке определить эволюционные связи между организмами. [14]
тБЛАСТн
tBLASTn используется для поиска белков в последовательностях, которые еще не были транслированы в белки. Он берет последовательность белка и сравнивает ее со всеми возможными трансляциями последовательности ДНК. Это полезно при поиске похожих областей кодирования белка в последовательностях ДНК, которые не были полностью аннотированы, таких как EST (короткие, одночтовые последовательности кДНК) и HTG (черновые последовательности генома). Поскольку эти последовательности не имеют известных трансляций белка, мы можем искать их только с помощью tBLASTn. [15]
BLASTx
BLASTx сравнивает последовательность нуклеотидного запроса, которая может быть переведена в шесть различных последовательностей белков, с базой данных известных последовательностей белков. Этот инструмент полезен, когда рамка считывания последовательности ДНК неопределенна или содержит ошибки, которые могут вызвать ошибки в кодировании белков. BLASTx предоставляет объединенную статистику для попаданий по всем рамкам, что делает его полезным для начального анализа новых последовательностей ДНК. [16]
BLASTp
BLASTp, или Protein BLAST, используется для сравнения последовательностей белков. Вы можете ввести одну или несколько последовательностей белков, которые вы хотите сравнить с одной последовательностью белков или базой данных последовательностей белков. Это полезно, когда вы пытаетесь идентифицировать белок, находя похожие последовательности в существующих базах данных белков. [17]
Параллельный BLAST
Параллельные версии BLAST разделенных баз данных реализованы с использованием MPI и Pthreads и были перенесены на различные платформы, включая Windows , Linux , Solaris , Mac OS X и AIX . Популярные подходы к распараллеливанию BLAST включают распределение запросов, сегментацию хэш-таблиц, распараллеливание вычислений и сегментацию (разделение) базы данных. Базы данных разделяются на части одинакового размера и хранятся локально на каждом узле. Каждый запрос выполняется на всех узлах параллельно, а полученные выходные файлы BLAST со всех узлов объединяются для получения окончательного вывода. Конкретные реализации включают MPIblast, ScalaBLAST, DCBLAST и т. д. [18]
MPIblast использует технологию сегментации базы данных для распараллеливания процесса вычислений. [19] Это позволяет значительно повысить производительность при проведении поиска BLAST по набору узлов в кластере. В некоторых сценариях достижимо сверхлинейное ускорение. Это делает MPIblast подходящим для обширных наборов геномных данных, которые обычно используются в биоинформатике.
BLAST обычно работает со скоростью O(n) , где n — размер базы данных. [20] Время выполнения поиска линейно увеличивается с увеличением размера базы данных. MPIblast использует параллельную обработку для ускорения поиска. Идеальная скорость для любого параллельного вычисления — это сложность O(n/p), где n — размер базы данных, а p — количество процессоров. Это будет означать, что задание равномерно распределено между p процессорами. Это визуализировано на включенном графике. Сверхлинейное ускорение, которое иногда может происходить с MPIblast, может иметь сложность лучше, чем O(n/p). Это происходит из-за того, что кэш-память может использоваться для уменьшения времени выполнения. [21]
Альтернативы BLAST
Предшественник BLAST, FASTA , также может использоваться для поиска сходства белков и ДНК. FASTA предоставляет аналогичный набор программ для сравнения белков с базами данных белков и ДНК, ДНК с ДНК и базами данных белков, а также включает дополнительные программы для работы с неупорядоченными короткими пептидами и последовательностями ДНК. Кроме того, пакет FASTA предоставляет SSEARCH, векторизованную реализацию строгого алгоритма Смита-Уотермана . FASTA медленнее BLAST, но предоставляет гораздо более широкий диапазон матриц оценки, что упрощает адаптацию поиска к определенному эволюционному расстоянию.
Чрезвычайно быстрая , но значительно менее чувствительная альтернатива BLAST — это BLAT ( B last Like A lignment Tool ). В то время как BLAST выполняет линейный поиск, BLAT полагается на индексацию базы данных k-mer и, таким образом, может часто находить семена быстрее. [22] Другая программная альтернатива, похожая на BLAT, — PatternHunter .
Достижения в области технологии секвенирования в конце 2000-х годов сделали поиск очень похожих совпадений нуклеотидов важной проблемой. Новые программы выравнивания, предназначенные для этого, обычно используют BWT -индексирование целевой базы данных (обычно генома). Затем входные последовательности можно очень быстро сопоставить, а выходные данные обычно имеют форму BAM-файла. Примерами программ выравнивания являются BWA , SOAP и Bowtie .
Альтернативой BLAST для сравнения двух банков последовательностей является PLAST. PLAST обеспечивает высокопроизводительный инструмент поиска сходства последовательностей между банками общего назначения, основанный на алгоритмах PLAST [23] и ORIS [24] . Результаты PLAST очень похожи на BLAST, но PLAST значительно быстрее и способен сравнивать большие наборы последовательностей с небольшим объемом памяти (например, ОЗУ).
Для приложений в метагеномике, где задача состоит в сравнении миллиардов коротких прочтений ДНК с десятками миллионов ссылок на белки, DIAMOND [25] работает в 20 000 раз быстрее BLASTX, сохраняя при этом высокий уровень чувствительности.
Программное обеспечение с открытым исходным кодом MMseqs является альтернативой BLAST/PSI-BLAST, которая улучшает текущие инструменты поиска по всему диапазону компромиссов скорости и чувствительности, достигая чувствительности, лучшей, чем у PSI-BLAST, при скорости, превышающей ее более чем в 400 раз. [26]
Оптические вычислительные подходы были предложены как многообещающие альтернативы текущим электрическим реализациям. OptCAM является примером таких подходов и, как показано, работает быстрее, чем BLAST. [27]
Сравнение BLAST и процесса Смита-Уотермана
Хотя и Смит-Уотерман , и BLAST используются для поиска гомологических последовательностей путем поиска и сравнения запрошенной последовательности с последовательностями в базах данных, у них есть свои различия.
В связи с тем, что BLAST основан на эвристическом алгоритме, результаты, полученные через BLAST, не будут включать все возможные совпадения в базе данных. BLAST пропускает труднонаходимые совпадения.
Альтернативой для поиска всех возможных совпадений было бы использование алгоритма Смита-Уотермана. Этот метод отличается от метода BLAST в двух областях: точности и скорости. Вариант Смита-Уотермана обеспечивает лучшую точность, поскольку он находит соответствия, которые BLAST не может найти, поскольку он не исключает никакой информации. Поэтому он необходим для удаленной гомологии. Однако по сравнению с BLAST он требует больше времени и больших объемов вычислительной мощности и памяти. Однако были достигнуты успехи в значительном ускорении процесса поиска Смита-Уотермана. Эти достижения включают чипы FPGA и технологию SIMD .
Для получения более полных результатов от BLAST настройки по умолчанию можно изменить. Однако оптимальные настройки для данной последовательности могут отличаться. Настройки, которые можно изменить, это E-Value, стоимость пробелов, фильтры, размер слова и матрица подстановки.
Обратите внимание, что алгоритм, используемый для BLAST, был разработан на основе алгоритма, используемого для Smith-Waterman. BLAST использует выравнивание, которое находит «локальные выравнивания между последовательностями путем поиска коротких совпадений, и из этих начальных совпадений создаются (локальные) выравнивания». [28]
Визуализация выходных данных BLAST
Чтобы помочь пользователям интерпретировать результаты BLAST, доступно различное программное обеспечение. В зависимости от установки и использования, функций анализа и технологии, вот некоторые доступные инструменты: [29]
Служба NCBI BLAST
общие интерпретаторы выходных данных BLAST, на основе графического интерфейса: JAMBLAST, Blast Viewer, BLASTGrabber
Интегрированные среды BLAST: PLAN, BlastStation-Free, SequenceServer
специализированные инструменты, связанные с BLAST: MEGAN, BLAST2GENE, BOV, Circoletto
Примеры визуализации результатов BLAST показаны на рисунках 4 и 5.
Использование BLAST
BLAST можно использовать для различных целей. К ним относятся идентификация видов, локализация доменов, установление филогении, картирование ДНК и сравнение.
Определение видов
Используя BLAST, вы, возможно, сможете правильно идентифицировать вид или найти гомологичные виды. Это может быть полезно, например, когда вы работаете с последовательностью ДНК неизвестного вида.
Поиск доменов
При работе с последовательностью белка вы можете ввести ее в BLAST, чтобы найти известные домены в интересующей вас последовательности.
Установление филогении
Используя результаты, полученные через BLAST, вы можете создать филогенетическое дерево с помощью веб-страницы BLAST. Филогении, основанные только на BLAST, менее надежны, чем другие специально созданные вычислительные филогенетические методы, поэтому на них следует полагаться только для филогенетического анализа «первого прохода».
ДНК-картирование
При работе с известным видом и попытке секвенировать ген в неизвестном месте BLAST может сравнить хромосомное положение интересующей последовательности с соответствующими последовательностями в базе данных. Для этой цели у NCBI есть инструмент «Magic-BLAST», созданный на основе BLAST. [30]
Сравнение
При работе с генами BLAST может находить общие гены у двух родственных видов и может использоваться для сопоставления аннотаций от одного организма к другому.
Классифицирующая таксономия
BLAST может использовать генетические последовательности для сравнения нескольких таксонов с известными таксономическими данными. Делая это, он может предоставить картину эволюционных отношений между различными видами (рис. 6). Это полезный способ идентификации генов-сирот , поскольку если ген появляется в организме за пределами предковой линии, то он не будет классифицирован как ген-сирота.
^ Примечания к выпуску BLAST. Национальный центр биотехнологической информации (США). 24 июня 2024 г.
^ "Информация о разработчике BLAST". blast.ncbi.nlm.nih.gov .
^ ab Дуглас Мартин (21 февраля 2008 г.). «Сэмюэль Карлин, разносторонний математик, умер в возрасте 83 лет». The New York Times .
^ RM Casey (2005). «Последовательности BLAST помогают в геномике и протеомике». Business Intelligence Network.
^ "Темы BLAST".
↑ Дэн Стобер (16 января 2008 г.). «Сэм Карлин, математик, улучшивший анализ ДНК, умер в возрасте 83 лет». Stanford.edu . Архивировано из оригинала 12 июня 2016 г. . Получено 16 июля 2019 г. .
^ Oehmen, C.; Nieplocha, J. (2006). "ScalaBLAST: масштабируемая реализация BLAST для высокопроизводительного анализа биоинформатики с интенсивным использованием данных". IEEE Transactions on Parallel and Distributed Systems . 17 (8): 740. doi :10.1109/TPDS.2006.112. S2CID 11122366.
^ Oehmen, CS; Baxter, DJ (2013). «ScalaBLAST 2.0: Быстрые и надежные вычисления BLAST на многопроцессорных системах». Биоинформатика . 29 (6): 797–798. doi :10.1093/bioinformatics/btt013. PMC 3597145. PMID 23361326 .
^ "Sense from Sequences: Stephen F. Altschul on Bettering BLAST". ScienceWatch. Июль–август 2000 г. Архивировано из оригинала 7 октября 2007 г.
^ Lavenier, D. (2009). "Алгоритм упорядоченного индекса seed для интенсивного сравнения последовательностей ДНК" (PDF) . 2008 IEEE International Symposium on Parallel and Distributed Processing (PDF) . стр. 1–8. CiteSeerX 10.1.1.155.3633 . doi :10.1109/IPDPS.2008.4536172. ISBN978-1-4244-1693-6. S2CID 10804289.
^ Бухфинк, Кси и Хасон (2015). «Быстрое и чувствительное выравнивание белков с использованием DIAMOND». Nature Methods . 12 (1): 59–60. doi :10.1038/nmeth.3176. PMID 25402007. S2CID 5346781.
^ Steinegger, Martin; Soeding, Johannes (2017-10-16). «MMseqs2 обеспечивает чувствительный поиск белковых последовательностей для анализа больших наборов данных». Nature Biotechnology . 35 (11): 1026–1028. doi :10.1038/nbt.3988. hdl : 11858/00-001M-0000-002E-1967-3 . PMID 29035372. S2CID 402352.
^ Малеки, Эхсан; Кухи, Сомайе; Кавехваш, Захра; Машаги, Алиреза (2020). «OptCAM: сверхбыстрая полностью оптическая архитектура для обнаружения вариантов ДНК». Журнал биофотоники . 13 (1): e201900227. дои : 10.1002/jbio.201900227 . ПМИД 31397961.
^ «Объяснение биоинформатики: BLAST против Смита-Уотермана» (PDF) . 4 июля 2007 г.
^ Ньюман, Кумар и Шалчиан-Табризи (2014). «Визуализация выходных данных BLAST в новую эру секвенирования». Briefings in Bioinformatics . 15 (4): 484–503. doi : 10.1093/bib/bbt009 . PMID 23603091.
^ "NCBI Magic-BLAST". ncbi.github.io . Получено 16 мая 2019 г. .