Множественное выравнивание последовательностей ( MSA ) — это процесс или результат выравнивания последовательностей трех или более биологических последовательностей , как правило, белков , ДНК или РНК . Эти выравнивания используются для вывода эволюционных связей с помощью филогенетического анализа и могут выделить гомологичные черты между последовательностями. Выравнивания выделяют мутационные события, такие как точечные мутации (изменения одной аминокислоты или нуклеотида ), мутации вставки и мутации делеции , а выравнивания используются для оценки сохранения последовательностей и вывода наличия и активности доменов белка , третичных структур , вторичных структур и отдельных аминокислот или нуклеотидов.
Множественные выравнивания последовательностей требуют более сложных методологий, чем парные выравнивания , поскольку они более сложны в вычислительном отношении . Большинство программ множественного выравнивания последовательностей используют эвристические методы, а не глобальную оптимизацию , поскольку определение оптимального выравнивания между несколькими последовательностями умеренной длины является недопустимо затратным в вычислительном отношении. Однако эвристические методы, как правило, не могут гарантировать высококачественные решения и, как было показано, не дают почти оптимальных решений в контрольных тестовых случаях. [1] [2] [3]
Даны последовательности , подобные приведенной ниже форме:
Множественное выравнивание последовательностей выполняется из этого набора последовательностей путем вставки любого количества необходимых пробелов в каждую из последовательностей до тех пор, пока все измененные последовательности, , не будут соответствовать длине и ни одно значение в последовательностях того же столбца не будет состоять только из пробелов. Математическая форма MSA для вышеуказанного набора последовательностей показана ниже:
Чтобы вернуться из каждой конкретной последовательности в , удалите все пробелы.
Общий подход при вычислении множественных выравниваний последовательностей заключается в использовании графов для идентификации всех различных выравниваний. При поиске выравниваний с помощью графа полное выравнивание создается в взвешенном графе, содержащем набор вершин и набор ребер. Каждое из ребер графа имеет вес, основанный на определенной эвристике, которая помогает оценить каждое выравнивание или подмножество исходного графа.
При определении наиболее подходящих выравниваний для каждого MSA обычно генерируется трасса . Трасса — это набор реализованных или соответствующих и выровненных вершин, имеющих определенный вес на основе ребер, выбранных между соответствующими вершинами. При выборе трасс для набора последовательностей необходимо выбрать трассу с максимальным весом, чтобы получить наилучшее выравнивание последовательностей.
Существуют различные методы выравнивания, используемые в нескольких последовательностях для максимизации оценок и правильности выравниваний. Каждый из них обычно основан на определенной эвристике с пониманием эволюционного процесса. Большинство пытаются воспроизвести эволюцию, чтобы получить максимально реалистичное выравнивание для наилучшего прогнозирования отношений между последовательностями.
Прямой метод получения MSA использует метод динамического программирования для определения глобально оптимального решения для выравнивания. Для белков этот метод обычно включает два набора параметров: штраф за пробел и матрицу замещения, назначающую баллы или вероятности выравниванию каждой возможной пары аминокислот на основе сходства химических свойств аминокислот и эволюционной вероятности мутации. Для нуклеотидных последовательностей используется аналогичный штраф за пробел, но типична гораздо более простая матрица замещения, в которой учитываются только идентичные совпадения и несовпадения. Баллы в матрице замещения могут быть либо полностью положительными, либо смесью положительных и отрицательных в случае глобального выравнивания, но должны быть как положительными, так и отрицательными в случае локального выравнивания. [4]
Для n отдельных последовательностей наивный метод требует построения n -мерного эквивалента матрицы, сформированной в стандартном попарном выравнивании последовательностей . Таким образом, пространство поиска увеличивается экспоненциально с ростом n и также сильно зависит от длины последовательности. Выраженное с помощью большой нотации O, обычно используемой для измерения вычислительной сложности , наивный MSA занимает O(Длина Nseqs ) времени для создания. Было показано, что нахождение глобального оптимума для n последовательностей таким способом является NP-полной задачей. [5] [6] [7] В 1989 году на основе алгоритма Каррильо-Липмана [8] Альтшуль представил практический метод, который использует попарные выравнивания для ограничения n-мерного пространства поиска. [9] В этом подходе попарные динамические программные выравнивания выполняются для каждой пары последовательностей в наборе запроса, и только пространство вблизи n-мерного пересечения этих выравниваний ищется для n-стороннего выравнивания. Программа MSA оптимизирует сумму всех пар символов в каждой позиции в выравнивании (так называемая сумма парных оценок) и была реализована в программном обеспечении для построения множественных выравниваний последовательностей. [10] В 2019 году Хоссейнинасаб и ван Хув показали, что с помощью диаграмм решений MSA можно моделировать в полиномиальном пространстве сложности. [3]
Наиболее широко используемый подход к множественным выравниваниям последовательностей использует эвристический поиск, известный как прогрессивный метод (также известный как иерархический или древовидный метод), разработанный Да-Фэй Фэном и Дулитлом в 1987 году. [11] Прогрессивное выравнивание создает окончательный MSA путем объединения попарных выравниваний, начиная с наиболее похожей пары и продвигаясь к наиболее отдаленно связанной. Все методы прогрессивного выравнивания требуют двух этапов: первый этап, на котором отношения между последовательностями представлены в виде филогенетического дерева , называемого направляющим деревом , и второй этап, на котором MSA строится путем последовательного добавления последовательностей к растущему MSA в соответствии с направляющим деревом. Начальное направляющее дерево определяется эффективным методом кластеризации , таким как метод объединения соседей или невзвешенный метод парной группы со средним арифметическим ( UPGMA ), и может использовать расстояния, основанные на количестве идентичных двухбуквенных подпоследовательностей (как в FASTA , а не динамическом программном выравнивании). [12]
Прогрессивные выравнивания не гарантируют глобальной оптимальности. Основная проблема заключается в том, что когда на любом этапе выращивания MSA допускаются ошибки, эти ошибки затем распространяются на конечный результат. Производительность также особенно плоха, когда все последовательности в наборе довольно отдаленно связаны. Большинство современных прогрессивных методов изменяют свою функцию подсчета с помощью вторичной весовой функции, которая назначает коэффициенты масштабирования отдельным членам набора запроса нелинейным образом на основе их филогенетического расстояния от ближайших соседей. Это исправляет неслучайный выбор последовательностей, заданных для программы выравнивания. [12]
Методы прогрессивного выравнивания достаточно эффективны для внедрения в больших масштабах для многих последовательностей (от сотен до тысяч). Популярным методом прогрессивного выравнивания является семейство Clustal . [13] [14] Clustal W широко используется для построения филогенетического дерева, несмотря на явные предупреждения автора о том, что неотредактированные выравнивания не следует использовать в таких исследованиях и в качестве входных данных для прогнозирования структуры белка с помощью моделирования гомологии. Европейский институт биоинформатики (EMBL-EBI) объявил, что срок действия CLustalW2 истекает в августе 2015 года. Они рекомендуют Clustal Omega, который работает на основе направляющих деревьев с семенами и методов HMM profile-profile для выравнивания белков. Альтернативным инструментом для прогрессивного выравнивания ДНК является множественное выравнивание с использованием быстрого преобразования Фурье ( MAFFT ). [15]
Другой распространенный метод прогрессивного выравнивания, называемый T-Coffee [16] , медленнее, чем Clustal и его производные, но, как правило, производит более точные выравнивания для наборов отдаленно связанных последовательностей. T-Coffee вычисляет попарные выравнивания, комбинируя прямое выравнивание пары с косвенными выравниваниями, которые выравнивают каждую последовательность пары с третьей последовательностью. Он использует выходные данные Clustal, а также другую программу локального выравнивания LALIGN, которая находит несколько областей локального выравнивания между двумя последовательностями. Полученное выравнивание и филогенетическое дерево используются в качестве руководства для создания новых и более точных весовых коэффициентов.
Поскольку прогрессивные методы являются эвристиками, которые не гарантированно сходятся к глобальному оптимуму, качество выравнивания может быть трудно оценить, а их истинное биологическое значение может быть неясным. Полупрогрессивный метод, который улучшает качество выравнивания и не использует эвристику с потерями при работе в полиномиальном времени, был реализован в программе PSAlign. [17]
Набор методов для создания MSA, одновременно уменьшая ошибки, присущие прогрессивным методам, классифицируется как «итеративный», поскольку они работают аналогично прогрессивным методам, но многократно перестраивают исходные последовательности, а также добавляют новые последовательности к растущей MSA. Одной из причин, по которой прогрессивные методы так сильно зависят от высококачественного начального выравнивания, является тот факт, что эти выравнивания всегда включаются в конечный результат — то есть, как только последовательность была выровнена в MSA, ее выравнивание далее не рассматривается. Это приближение повышает эффективность за счет точности. Напротив, итеративные методы могут возвращаться к ранее рассчитанным парным выравниваниям или под-MSA, включающим подмножества последовательности запроса в качестве средства оптимизации общей целевой функции, такой как поиск высококачественной оценки выравнивания. [12]
Множество тонко различающихся методов итерации были реализованы и стали доступны в программных пакетах; обзоры и сравнения были полезны, но, как правило, воздерживаются от выбора «лучшей» методики. [18] Программный пакет PRRN/PRRP использует алгоритм восхождения на вершину для оптимизации своей оценки выравнивания MSA [19] и итеративно корректирует как веса выравнивания, так и локально расходящиеся или «разрывные» области растущей MSA. [12] PRRP работает лучше всего при уточнении выравнивания, ранее построенного более быстрым методом. [12]
Другая итеративная программа, DIALIGN, использует необычный подход, фокусируясь только на локальных выравниваниях между подсегментами или мотивами последовательностей без введения штрафа за пробелы. [20] Затем выравнивание отдельных мотивов достигается с помощью матричного представления, похожего на точечно-матричный график в парном выравнивании. Альтернативный метод, который использует быстрые локальные выравнивания в качестве опорных точек или семян для более медленной процедуры глобального выравнивания, реализован в наборе CHAOS/DIALIGN. [20]
Третий популярный метод, основанный на итерациях, называемый MUSCLE (множественное выравнивание последовательностей с помощью логарифмического ожидания), улучшает прогрессивные методы с помощью более точной меры расстояния для оценки родства двух последовательностей. [21] Мера расстояния обновляется между этапами итерации (хотя в своей первоначальной форме MUSCLE содержал только 2-3 итерации в зависимости от того, было ли включено уточнение).
Методы консенсуса пытаются найти оптимальное множественное выравнивание последовательностей, учитывая несколько различных выравниваний одного и того же набора последовательностей. Существует два широко используемых метода консенсуса: M-COFFEE и MergeAlign. [22] M-COFFEE использует множественные выравнивания последовательностей, созданные семью различными методами, для создания консенсусных выравниваний. MergeAlign способен генерировать консенсусные выравнивания из любого количества входных выравниваний, созданных с использованием различных моделей эволюции последовательностей или различных методов множественного выравнивания последовательностей. Параметр по умолчанию для MergeAlign — вывести консенсусное выравнивание с использованием выравниваний, созданных с использованием 91 различных моделей эволюции последовательностей белков.
Скрытая марковская модель (HMM) — вероятностная модель, которая может назначать вероятности всем возможным комбинациям пробелов, совпадений и несовпадений, чтобы определить наиболее вероятный MSA или набор возможных MSA. HMM могут производить один выход с наивысшей оценкой, но также могут генерировать семейство возможных выравниваний, которые затем могут быть оценены на предмет биологической значимости. HMM могут производить как глобальные, так и локальные выравнивания. Хотя методы на основе HMM были разработаны относительно недавно, они предлагают значительные улучшения в скорости вычислений, особенно для последовательностей, которые содержат перекрывающиеся области. [12]
Типичные методы на основе HMM работают, представляя MSA как форму направленного ациклического графа, известного как граф частичного порядка, который состоит из ряда узлов, представляющих возможные записи в столбцах MSA. В этом представлении столбец, который является абсолютно консервативным (то есть, что все последовательности в MSA разделяют определенный символ в определенной позиции), кодируется как один узел с таким количеством исходящих соединений, сколько возможных символов в следующем столбце выравнивания. В терминах типичной скрытой марковской модели наблюдаемые состояния являются отдельными столбцами выравнивания, а «скрытые» состояния представляют предполагаемую предковую последовательность, от которой, как предполагается, произошли последовательности в наборе запроса. Эффективный поисковый вариант метода динамического программирования, называемый алгоритмом Витерби , обычно используется для последовательного выравнивания растущего MSA со следующей последовательностью в наборе запроса для создания нового MSA. [23] Это отличается от методов прогрессивного выравнивания, поскольку выравнивание предыдущих последовательностей обновляется при каждом добавлении новой последовательности. Однако, как и в случае с прогрессивными методами, на этот метод может влиять порядок, в котором последовательности в наборе запроса интегрируются в выравнивание, особенно когда последовательности имеют отдаленное родство. [12]
Доступно несколько программ, в которых реализованы варианты методов на основе HMM, и которые известны своей масштабируемостью и эффективностью, хотя правильное использование метода HMM сложнее, чем использование более распространенных прогрессивных методов. Самым простым является выравнивание частичного порядка (POA), [24] и аналогичный более общий метод реализован в программном пакете Sequence Alignment and Modeling System (SAM). [25] и HMMER . [26] SAM использовался в качестве источника выравниваний для предсказания структуры белка для участия в эксперименте по предсказанию структуры Critical Assessment of Structure Prediction ( CASP ) и для разработки базы данных предсказанных белков в дрожжах вида S. cerevisiae . HHsearch [27] — это программный пакет для обнаружения отдаленно связанных последовательностей белков на основе попарного сравнения HMM. Сервер, на котором работает HHsearch ( HHpred ), был самым быстрым из 10 серверов автоматического предсказания структуры в соревнованиях по предсказанию структуры CASP7 и CASP8. [28]
Большинство методов выравнивания множественных последовательностей пытаются минимизировать количество вставок/делеций (пробелов) и, как следствие, производить компактные выравнивания. Это вызывает несколько проблем, если последовательности, которые должны быть выровнены, содержат негомологичные области , если пробелы информативны в анализе филогении . Эти проблемы распространены в недавно созданных последовательностях, которые плохо аннотированы и могут содержать сдвиги рамки считывания , неправильные домены или негомологичные сплайсированные экзоны . Первый такой метод был разработан в 2005 году Лёйтинойей и Голдманом. [29] Те же авторы выпустили программный пакет под названием PRANK в 2008 году. [30] PRANK улучшает выравнивания при наличии вставок. Тем не менее, он работает медленно по сравнению с прогрессивными и/или итеративными методами, которые разрабатывались в течение нескольких лет.
В 2012 году появились два новых инструмента, учитывающих филогению. Один из них называется PAGAN и был разработан той же командой, что и PRANK. [31] Другой — ProGraphMSA , разработанный Шалковски. [32] Оба пакета программного обеспечения были разработаны независимо, но имеют общие черты, в частности, использование графовых алгоритмов для улучшения распознавания негомологичных регионов и улучшение кода, делающее это программное обеспечение быстрее PRANK.
Поиск мотивов, также известный как профильный анализ, представляет собой метод обнаружения мотивов последовательностей в глобальных MSA, который является как средством создания лучшего MSA, так и средством создания матрицы оценки для использования при поиске других последовательностей для похожих мотивов. Было разработано множество методов изоляции мотивов, но все они основаны на идентификации коротких высококонсервативных шаблонов в пределах большего выравнивания и построении матрицы, аналогичной матрице замены, которая отражает аминокислотный или нуклеотидный состав каждой позиции в предполагаемом мотиве. Затем выравнивание можно уточнить с помощью этих матриц. В стандартном профильном анализе матрица включает записи для каждого возможного символа, а также записи для пробелов. [12] В качестве альтернативы статистические алгоритмы поиска шаблонов могут идентифицировать мотивы как предшественника MSA, а не как производное. Во многих случаях, когда набор запросов содержит только небольшое количество последовательностей или содержит только высокосвязанные последовательности, добавляются псевдосчетчики для нормализации распределения, отраженного в матрице оценок. В частности, это исправляет записи с нулевой вероятностью в матрице до значений, которые являются малыми, но ненулевыми.
Анализ блоков — это метод поиска мотивов, который ограничивает мотивы непропущенными областями в выравнивании. Блоки могут быть сгенерированы из MSA или могут быть извлечены из невыровненных последовательностей с использованием предварительно рассчитанного набора общих мотивов, ранее сгенерированных из известных семейств генов. [33] Оценка блоков обычно основана на интервалах между высокочастотными символами, а не на расчете явной матрицы замещения.
Статистическое сопоставление шаблонов было реализовано с использованием как алгоритма максимизации ожиданий, так и сэмплера Гиббса . Один из наиболее распространенных инструментов поиска мотивов, называемый Multiple EM for Motif Elicitation (MEME), использует максимизацию ожиданий и скрытые методы Маркова для генерации мотивов, которые затем используются в качестве инструментов поиска его компаньоном MAST в объединенном наборе MEME/MAST. [34] [35]
Некодирующие области ДНК, особенно сайты связывания факторов транскрипции (TFBS), являются консервативными, но не обязательно эволюционно связанными и могли конвергировать от необщих предков. Таким образом, предположения, используемые для выравнивания последовательностей белков и кодирующих областей ДНК, по своей сути отличаются от тех, которые справедливы для последовательностей TFBS. Хотя выравнивание кодирующих областей ДНК для гомологичных последовательностей с использованием операторов мутации имеет смысл, выравнивание последовательностей сайтов связывания для одного и того же фактора транскрипции не может полагаться на эволюционно связанные операции мутации. Аналогично, эволюционный оператор точечных мутаций может использоваться для определения расстояния редактирования для кодирующих последовательностей, но это имеет мало смысла для последовательностей TFBS, поскольку любая вариация последовательности должна поддерживать определенный уровень специфичности для функционирования сайта связывания. Это становится особенно важным при попытке выравнивания известных последовательностей TFBS для построения контролируемых моделей для прогнозирования неизвестных местоположений тех же TFBS. Следовательно, методы множественного выравнивания последовательностей должны корректировать базовую эволюционную гипотезу и операторы, используемые, как в опубликованной работе, включающей соседнюю базовую термодинамическую информацию [36], чтобы выровнять сайты связывания, находя самое низкое термодинамическое выравнивание, сохраняющее специфичность сайта связывания.
Стандартные методы оптимизации в компьютерной науке — оба из которых были вдохновлены, но не воспроизводят напрямую физические процессы — также использовались в попытке более эффективно производить качественные MSA. Один из таких методов, генетические алгоритмы , использовался для производства MSA в попытке широко имитировать предполагаемый эволюционный процесс, который привел к расхождению в наборе запросов. Метод работает путем разбиения ряда возможных MSA на фрагменты и многократной перестановки этих фрагментов с введением пробелов в различных позициях. Общая целевая функция оптимизируется во время моделирования, в основном это функция максимизации «суммы пар», введенная в методах MSA на основе динамического программирования. Метод для последовательностей белков был реализован в программном обеспечении SAGA (Sequence Alignment by Genetic Algorithm) [37] , а его эквивалент в РНК называется RAGA. [38]
Метод имитации отжига , при котором существующий MSA, полученный другим методом, совершенствуется серией перестроек, разработанных для поиска лучших областей пространства выравнивания, чем та, которую уже занимает входное выравнивание. Как и метод генетического алгоритма, имитация отжига максимизирует целевую функцию, такую как функция суммы пар. Имитация отжига использует метафорический «температурный фактор», который определяет скорость, с которой происходят перестройки, и вероятность каждой перестройки; типичное использование чередует периоды высоких скоростей перестройки с относительно низкой вероятностью (для исследования более отдаленных областей пространства выравнивания) с периодами более низких скоростей и более высоких вероятностей для более тщательного исследования локальных минимумов вблизи недавно «колонизированных» областей. Этот подход был реализован в программе MSASA (Multiple Sequence Alignment by Simulated Annealing). [39]
Математическое программирование и, в частности, модели смешанного целочисленного программирования являются еще одним подходом к решению задач MSA. Преимущество таких моделей оптимизации заключается в том, что их можно использовать для поиска оптимального решения MSA более эффективно по сравнению с традиционным подходом DP. Это отчасти связано с применимостью методов декомпозиции для математических программ, где модель MSA разлагается на более мелкие части и итеративно решается до тех пор, пока не будет найдено оптимальное решение. Примеры алгоритмов, используемых для решения моделей смешанного целочисленного программирования MSA, включают в себя ветвь и цену [40] и декомпозицию Бендерса . [3] Хотя точные подходы вычислительно медленны по сравнению с эвристическими алгоритмами для MSA, они гарантированно достигают оптимального решения в конечном итоге, даже для задач большого размера.
В январе 2017 года компания D-Wave Systems объявила, что ее программное обеспечение для квантовых вычислений с открытым исходным кодом qbsolv было успешно использовано для поиска более быстрого решения проблемы MSA. [41]
Необходимое использование эвристики для множественного выравнивания означает, что для произвольного набора белков всегда есть большая вероятность того, что выравнивание будет содержать ошибки. Например, оценка нескольких ведущих программ выравнивания с использованием бенчмарка BAliBase показала, что по крайней мере 24% всех пар выровненных аминокислот были выровнены неправильно. [2] Эти ошибки могут возникать из-за уникальных вставок в один или несколько регионов последовательностей или из-за какого-то более сложного эволюционного процесса, приводящего к белкам, которые нелегко выравниваются только по последовательности. По мере увеличения количества последовательностей и их расхождения будет сделано еще больше ошибок просто из-за эвристической природы алгоритмов MSA. Просмотрщики множественных выравниваний последовательностей позволяют визуально просматривать выравнивания, часто путем проверки качества выравнивания для аннотированных функциональных участков на двух или более последовательностях. Многие также позволяют редактировать выравнивание, чтобы исправить эти (обычно незначительные) ошибки, чтобы получить оптимальное «курируемое» выравнивание, подходящее для использования в филогенетическом анализе или сравнительном моделировании. [42]
Однако по мере увеличения числа последовательностей, особенно в полногеномных исследованиях, включающих множество MSA, становится невозможно вручную курировать все выравнивания. Кроме того, ручное курирование субъективно. И, наконец, даже лучший эксперт не может уверенно выравнивать более неоднозначные случаи сильно расходящихся последовательностей. В таких случаях обычной практикой является использование автоматических процедур для исключения ненадежно выровненных областей из MSA. Для реконструкции филогении (см. ниже) программа Gblocks широко используется для удаления блоков выравнивания, подозреваемых в низком качестве, в соответствии с различными пороговыми значениями количества пропущенных последовательностей в столбцах выравнивания. [43] Однако эти критерии могут чрезмерно отфильтровывать области с событиями вставки/удаления, которые все еще могут быть надежно выровнены, и эти области могут быть желательны для других целей, таких как обнаружение положительного отбора. Несколько алгоритмов выравнивания выводят сайт-специфичные оценки, которые позволяют выбирать области с высокой степенью достоверности. Такая услуга была впервые предложена программой SOAP [44] , которая проверяет устойчивость каждого столбца к возмущению параметров популярной программы выравнивания CLUSTALW. Программа T-Coffee [45] использует библиотеку выравниваний при построении окончательного MSA, и ее выходной MSA окрашен в соответствии с оценками достоверности, которые отражают согласие между различными выравниваниями в библиотеке относительно каждого выровненного остатка. Ее расширение, Transitive Consistency Score (TCS), использует библиотеки парных выравниваний T-Coffee для оценки любого стороннего MSA. Парные проекции могут быть получены с использованием быстрых или медленных методов, что позволяет найти компромисс между скоростью и точностью. [46] [47] Другая программа выравнивания, которая может выводить MSA с оценками достоверности, — это FSA [48] , которая использует статистическую модель, позволяющую вычислять неопределенность в выравнивании. Оценка HoT (Heads-Or-Tails) может использоваться в качестве меры неопределенности выравнивания, специфичной для сайта, из-за существования нескольких кооптимальных решений. [49] Программа GUIDANCE [50] вычисляет похожую меру достоверности, специфичную для сайта, на основе надежности выравнивания к неопределенности в направляющем дереве, которое используется в программах прогрессивного выравнивания. Альтернативный, более статистически обоснованный подход к оценке неопределенности выравнивания — это использование вероятностных эволюционных моделей для совместной оценки филогении и выравнивания. Байесовский подход позволяет вычислять апостериорные вероятности оцененной филогении и выравнивания, что является мерой достоверности этих оценок. В этом случае апостериорную вероятность можно рассчитать для каждого сайта в выравнивании. Такой подход был реализован в программе BAli-Phy. [51]
Существуют бесплатные программы для визуализации множественных выравниваний последовательностей, например Jalview и UGENE .
Множественные выравнивания последовательностей могут быть использованы для создания филогенетического дерева . [52] Это стало возможным по двум причинам. Первая заключается в том, что функциональные домены, которые известны в аннотированных последовательностях, могут быть использованы для выравнивания в неаннотированных последовательностях. Другая заключается в том, что могут быть найдены консервативные области, которые, как известно, являются функционально важными. Это позволяет использовать множественные выравнивания последовательностей для анализа и поиска эволюционных связей через гомологию между последовательностями. Могут быть обнаружены точечные мутации и события вставки или удаления (называемые инделями).
Множественные выравнивания последовательностей также могут использоваться для идентификации функционально важных участков, таких как участки связывания, активные участки или участки, соответствующие другим ключевым функциям, путем поиска консервативных доменов. При рассмотрении множественных выравниваний последовательностей полезно учитывать различные аспекты последовательностей при сравнении последовательностей. Эти аспекты включают идентичность, сходство и гомологию. Идентичность означает, что последовательности имеют идентичные остатки в своих соответствующих положениях. С другой стороны, сходство связано с тем, что сравниваемые последовательности имеют схожие остатки количественно. Например, с точки зрения нуклеотидных последовательностей пиримидины считаются похожими друг на друга, как и пурины. Сходство в конечном итоге приводит к гомологии, в том смысле, что чем больше похожих последовательностей, тем ближе они к гомологичности. Это сходство в последовательностях затем может помочь найти общее происхождение. [52]
{{cite book}}
: |journal=
проигнорировано ( помощь )