stringtranslate.com

БЛОСУМ

Матрица BLOSUM62, аминокислоты сгруппированы и окрашены на основе схемы классификации Маргарет Дейхофф . Положительные и нулевые значения выделены.

В биоинформатике матрица BLOSUM ( BLO cks SU bstitution M atrix) представляет собой матрицу замещения , используемую для выравнивания последовательностей белков . Матрицы BLOSUM используются для оценки выравниваний между эволюционно расходящимися последовательностями белков . Они основаны на локальных выравниваниях. Матрицы BLOSUM были впервые представлены в статье Стивена Хеникоффа и Джорджи Хеникофф. [1] Они просканировали базу данных BLOCKS на предмет очень консервативных областей семейств белков (не имеющих пробелов в выравнивании последовательностей), а затем подсчитали относительные частоты аминокислот и вероятности их замещения. Затем они вычислили логарифмическую оценку шансов для каждой из 210 возможных пар замещений 20 стандартных аминокислот. Все матрицы BLOSUM основаны на наблюдаемых выравниваниях; они не экстраполируются из сравнений близкородственных белков, таких как матрицы PAM .

Биологическое происхождение

Генетические инструкции каждой реплицирующейся клетки в живом организме содержатся в ее ДНК. [2] На протяжении всей жизни клетки эта информация транскрибируется и реплицируется клеточными механизмами для производства белков или предоставления инструкций дочерним клеткам во время деления клетки , и существует вероятность того, что ДНК может быть изменена во время этих процессов. [2] [3] Это известно как мутация . На молекулярном уровне существуют регуляторные системы, которые исправляют большинство — но не все — этих изменений в ДНК до ее репликации. [3] [4]

Функциональность белка во многом зависит от его структуры. [5] Изменение одной аминокислоты в белке может снизить его способность выполнять эту функцию, или мутация может даже изменить функцию, которую выполняет белок. [3] Подобные изменения могут серьезно повлиять на важную функцию в клетке, потенциально вызывая гибель клетки — а в крайних случаях и организма. [6] И наоборот, изменение может позволить клетке продолжать функционировать, хотя и по-другому, и мутация может быть передана потомству организма. Если это изменение не приводит к какому-либо значительному физическому недостатку для потомства, существует вероятность того, что эта мутация сохранится в популяции. Существует также вероятность того, что изменение функции станет выгодным.

20 аминокислот, транслируемых генетическим кодом, сильно различаются по физическим и химическим свойствам их боковых цепей. [5] Однако эти аминокислоты можно разделить на группы со схожими физико-химическими свойствами. [5] Замена аминокислоты другой из той же категории, скорее всего, окажет меньшее влияние на структуру и функцию белка, чем замена аминокислотой из другой категории.

Выравнивание последовательностей является фундаментальным методом исследования для современной биологии. Наиболее распространенным выравниванием последовательностей для белков является поиск сходства между различными последовательностями для того, чтобы вывести функцию или установить эволюционные связи. Это помогает исследователям лучше понять происхождение и функцию генов через природу гомологии и сохранения . Матрицы замещения используются в алгоритмах для расчета сходства различных последовательностей белков; однако полезность матрицы Dayhoff PAM со временем снизилась из-за необходимости последовательностей со сходством более 85%. Чтобы заполнить этот пробел, Хеникофф и Хеникофф представили матрицу BLOSUM (BLOcks SUbstitution Matrix), которая привела к заметным улучшениям в выравниваниях и в поиске с использованием запросов из каждой из групп связанных белков. [1]

Терминология

БЛОСУМ
Матрица замещения блоков — матрица замещения, используемая для выравнивания последовательностей белков .
Метрики оценки (статистические и биологические)
При оценке выравнивания последовательности хотелось бы знать, насколько оно значимо. Для этого требуется матрица оценок или таблица значений, описывающая вероятность биологически значимой пары аминокислот или нуклеотидных остатков, встречающейся в выравнивании. Оценки для каждой позиции представляют собой полученные частоты замен в блоках локальных выравниваний последовательностей белков. [7]
БЛОСУМ р
Матрица, построенная из блоков с менее чем r% сходства
  • Например, BLOSUM62 — это матрица, построенная с использованием последовательностей со сходством менее 62% (последовательности с идентичностью ≥ 62% были кластеризованы).
  • Примечание: BLOSUM 62 — это матрица по умолчанию для белков BLAST. Эксперименты показали, что матрица BLOSUM-62 является одной из лучших для обнаружения большинства слабых сходств белков. [1]

Существует несколько наборов матриц BLOSUM, использующих различные базы данных выравнивания, названные с помощью номеров. Матрицы BLOSUM с большими номерами предназначены для сравнения близкородственных последовательностей, в то время как матрицы с малыми номерами предназначены для сравнения отдаленно родственных последовательностей. Например, BLOSUM80 используется для близкородственных выравниваний, а BLOSUM45 используется для более отдаленно родственных выравниваний. Матрицы были созданы путем слияния (кластеризации) всех последовательностей, которые были более похожи, чем заданный процент, в одну единую последовательность, а затем сравнения только тех последовательностей (которые были более расходящимися, чем заданное процентное значение); таким образом, уменьшая вклад близкородственных последовательностей. Используемый процент был добавлен к имени, что дало BLOSUM80, например, где были кластеризованы последовательности, которые были более чем на 80% идентичны.

Построение матриц BLOSUM

Матрицы BLOSUM получаются путем использования блоков схожих аминокислотных последовательностей в качестве данных, а затем применения статистических методов к данным для получения оценок сходства. Этапы статистических методов: [8]

Устранение последовательностей

Устранить последовательности, которые идентичны более чем на r%. Существует два способа устранения последовательностей. Это можно сделать либо путем удаления последовательностей из блока, либо просто путем поиска похожих последовательностей и замены их новыми последовательностями, которые могли бы представлять кластер. Устранение выполняется для удаления последовательностей белков, которые похожи больше, чем указанный порог.

Расчет частоты и вероятности

База данных, хранящая выравнивания последовательностей наиболее консервативных областей семейств белков. Эти выравнивания используются для получения матриц BLOSUM. Используются только последовательности с процентом идентичности ниже порогового значения. С помощью блока подсчитываются пары аминокислот в каждом столбце множественного выравнивания.

Логарифм отношения шансов

Он дает отношение встречаемости каждой комбинации аминокислот в наблюдаемых данных к ожидаемому значению встречаемости пары. Он округляется и используется в матрице замен.

где — вероятность наблюдения пары, а — ожидаемая вероятность появления такой пары, учитывая фоновые вероятности каждой аминокислоты.

Матрицы BLOSUM

Коэффициенты родства рассчитываются из логарифма отношения шансов, которые затем округляются для получения матриц подстановки (матриц BLOSUM).

Оценка матриц BLOSUM

Матрица оценок или таблица значений требуются для оценки значимости выравнивания последовательностей, например, описания вероятности появления биологически значимой пары аминокислотных или нуклеотидных остатков в выравнивании. Обычно, когда сравниваются две нуклеотидные последовательности, все, что оценивается, это то, являются ли два основания одинаковыми в одной позиции. Всем совпадениям и несовпадениям соответственно присваивается одинаковая оценка (обычно +1 или +5 для совпадений и -1 или -4 для несовпадений). [9] Но для белков все по-другому. Матрицы замен для аминокислот более сложны и неявно учитывают все, что может повлиять на частоту, с которой любая аминокислота заменяется другой. Цель состоит в том, чтобы обеспечить относительно высокий штраф за выравнивание двух остатков вместе, если они имеют низкую вероятность быть гомологичными (правильно выровненными эволюционным путем). Две основные силы отдаляют показатели замены аминокислот от единообразия: замены происходят с разной частотой и менее функционально переносимы, чем другие. Таким образом, замены выбираются против. [7]

Обычно используемые матрицы замен включают матрицы блоков замен (BLOSUM) [1] и точечных принятых мутаций (PAM) [10] [11] . Обе основаны на взятии наборов высоконадежных выравниваний многих гомологичных белков и оценке частот всех замен, но они вычисляются с использованием разных методов. [7]

Баллы в BLOSUM являются логарифмическими баллами, которые измеряют в выравнивании логарифм отношения вероятности появления двух аминокислот с биологическим смыслом и вероятности появления тех же аминокислот случайно. Матрицы основаны на минимальном проценте идентичности выровненной последовательности белка, используемом при их расчете. [12] Каждой возможной идентичности или замене присваивается балл на основе ее наблюдаемых частот в выравнивании родственных белков. [13] Положительный балл дается более вероятным заменам, в то время как отрицательный балл дается менее вероятным заменам.

Для расчета матрицы BLOSUM используется следующее уравнение:

Здесь — вероятность замены двух аминокислот и друг друга в гомологичной последовательности, а и — фоновые вероятности нахождения аминокислот и в любой белковой последовательности. Фактор — масштабирующий множитель, заданный таким образом, что матрица содержит легко вычисляемые целые значения.

Пример - BLOSUM62

BLOSUM80: больше родственных белков

BLOSUM62: средний диапазон

BLOSUM45: отдаленно родственные белки

Статья в Nature Biotechnology [14] показала, что BLOSUM62, используемый в течение многих лет в качестве стандарта, не совсем точен в соответствии с алгоритмом, описанным Хеникоффом и Хеникоффом. [1] Удивительно, но неправильно рассчитанный BLOSUM62 улучшает производительность поиска. [14]

Матрица BLOSUM62 с аминокислотами в таблице, сгруппированными в соответствии с химией боковой цепи, как в (a). Каждое значение в матрице вычисляется путем деления частоты встречаемости пары аминокислот в базе данных BLOCKS, сгруппированной на уровне 62%, на вероятность того, что те же две аминокислоты могут выровняться случайно. Затем отношение преобразуется в логарифм и выражается как оценка логарифма шансов, как для PAM. Матрицы BLOSUM обычно масштабируются в полубитовых единицах. Оценка, равная нулю, указывает на то, что частота, с которой данные две аминокислоты были найдены выровненными в базе данных, была ожидаемой случайностью, в то время как положительная оценка указывает на то, что выравнивание было найдено чаще, чем случайно, а отрицательная оценка указывает на то, что выравнивание было найдено реже, чем случайно.

Некоторые применения в биоинформатике

Исследовательские приложения

Оценки BLOSUM использовались для прогнозирования и понимания вариантов поверхностных генов среди носителей вируса гепатита В [15] и эпитопов Т-клеток. [16]

Варианты поверхностных генов среди носителей вируса гепатита В

Последовательности ДНК HBsAg были получены от 180 пациентов, среди которых 51 был хроническим носителем HBV и 129 недавно диагностированных пациентов, и сравнены с консенсусными последовательностями, построенными с 168 последовательностями HBV, импортированными из GenBank. Обзор литературы и оценки BLOSUM были использованы для определения потенциально измененной антигенности. [15]

Надежное предсказание эпитопов Т-клеток

Разработано новое представление входных данных, состоящее из комбинации разреженного кодирования, кодирования Blosum и входных данных, полученных из скрытых марковских моделей. Этот метод предсказывает эпитопы Т-клеток для генома вируса гепатита С и обсуждает возможные применения метода прогнозирования для руководства процессом рациональной разработки вакцины. [16]

Использовать в BLAST

Матрицы BLOSUM также используются в качестве матрицы подсчета при сравнении последовательностей ДНК или белковых последовательностей для оценки качества выравнивания. Эта форма системы подсчета используется широким спектром программного обеспечения для выравнивания, включая BLAST . [17]

Сравнение PAM и BLOSUM

В дополнение к матрицам BLOSUM можно использовать ранее разработанную матрицу подсчета очков. Она известна как PAM . Оба дают одинаковый результат подсчета очков, но используют разные методологии. BLOSUM напрямую смотрит на мутации в мотивах родственных последовательностей, в то время как PAM экстраполирует эволюционную информацию на основе тесно связанных последовательностей. [1]

Поскольку PAM и BLOSUM представляют собой разные методы отображения одной и той же информации об оценке, их можно сравнивать, но из-за совершенно разного метода получения этой оценки PAM100 не равен BLOSUM100. [18]

Взаимосвязь между PAM и BLOSUM
Различия между PAM и BLOSUM
Пакеты программного обеспечения

Существует несколько пакетов программного обеспечения на разных языках программирования, которые позволяют легко использовать матрицы Blosum.

Примерами являются модуль blosum для Python или библиотека BioJava для Java .

Смотрите также

Ссылки

  1. ^ abcdef Хеникофф, С.; Хеникофф, Дж. Г. (1992). «Матрицы аминокислотных замен из белковых блоков». PNAS . 89 (22): 10915–10919. Bibcode :1992PNAS...8910915H. doi : 10.1073/pnas.89.22.10915 . PMC  50453 . PMID  1438297.
  2. ^ ab Campbell NA; Reece JB; Meyers N; Urry LA; Cain ML; Wasserman SA; Minorsky PV; Jackson RB (2009). «Молекулярная основа наследования». Биология: Австралийская версия (8-е изд.). Pearson Education Australia. стр. 307–325. ISBN 9781442502215.
  3. ^ abc Campbell NA; Reece JB; Meyers N; Urry LA; Cain ML; Wasserman SA; Minorsky PV; Jackson RB (2009). «От гена к белку». Биология: Австралийская версия (8-е изд.). Pearson Education Australia. стр. 327–350. ISBN 9781442502215.
  4. ^ Pal JK, Ghaskadbi SS (2009). «Повреждение ДНК, восстановление и рекомбинация». Основы молекулярной биологии (1-е изд.). Oxford University Press. С. 187–203. ISBN 9780195697810.
  5. ^ abc Campbell NA; Reece JB; Meyers N; Urry LA; Cain ML; Wasserman SA; Minorsky PV; Jackson RB (2009). «Структура и функции больших биологических молекул». Биология: Австралийская версия (8-е изд.). Pearson Education Australia. стр. 68–89. ISBN 9781442502215.
  6. ^ Лобо, Ингрид (2008). "Mendelian Ratios and Lethal Genes". Nature . Получено 19 октября 2013 г. .
  7. ^ abc pertsemlidis A.; Fondon JW.3rd (сентябрь 2001 г.). «Иметь BLAST с биоинформатикой (и избегать BLASTphemy)». Genome Biology . 2 (10): reviews2002.1–2002.10. doi : 10.1186/gb-2001-2-10-reviews2002 . PMC 138974. PMID  11597340 . {{cite journal}}: CS1 maint: числовые имена: список авторов ( ссылка )
  8. ^ «МАТРИЦЫ БЛОССУМА: Введение в БИОИНФОРМАТИКУ» (PDF) . УНИВЕРСИТЕТ ТЕХНОЛОГИЙ МАЛАЙЗИИ . 2009 . Проверено 9 сентября 2014 г.[ постоянная мертвая ссылка ]
  9. ^ Мурали Шиварамакришнан; Огнен Перишич; Шаши Ранджан. «CS#594 — Группа 13 (Инструменты и программное обеспечение)» (PDF) . Университет Иллинойса в Чикаго – UIC . Проверено 9 сентября 2014 г.
  10. ^ Маргарет О., Дейхофф (1978). "22". Атлас последовательности и структуры белков . Том 5. Вашингтон, округ Колумбия: Национальный фонд биомедицинских исследований. С. 345–352.
  11. ^ States DJ.; Gish W.; Altschul SF. (1991). «Повышенная чувствительность поиска в базе данных нуклеиновых кислот с использованием матриц оценки, специфичных для приложений». Методы: дополнение к методам в энзимологии . 3 : 66–70. CiteSeerX 10.1.1.114.8183 . doi :10.1016/s1046-2023(05)80165-3. ISSN  1046-2023. 
  12. ^ Альберт И. Зомайя (2006). Справочник по вдохновленным природой и инновационным вычислениям. Нью-Йорк, Нью-Йорк: Springer. ISBN 978-0-387-40532-2.страница 673
  13. ^ NIH "Системы подсчета очков"
  14. ^ ab Mark P Styczynski; Kyle L Jensen; Isidore Rigoutsos; Gregory Stephanopoulos (2008). «Ошибочные расчеты BLOSUM62 улучшают производительность поиска». Nat. Biotechnol . 26 (3): 274–275. doi :10.1038/nbt0308-274. PMID  18327232. S2CID  205266180.
  15. ^ ab Roque-Afonso AM, Ferey MP, Ly TD (2007). «Вирусные и клинические факторы, связанные с вариантами поверхностных генов среди носителей вируса гепатита B». Antivir Ther . 12 (8): 1255–1263. doi : 10.1177/135965350701200801 . PMID  18240865. S2CID  9822759.
  16. ^ ab Nielsen M, Lundegaard C, Worning P, et al. (2003). «Надежное предсказание эпитопов Т-клеток с использованием нейронных сетей с новыми представлениями последовательностей» (PDF) . Protein Science . 12 (5): 1007–1017. doi :10.1110/ps.0239403. PMC 2323871 . PMID  12717023. 
  17. ^ "Статистика оценок сходства последовательностей". Национальный центр биотехнологической информации . Получено 20 октября 2013 г.
  18. ^ Сауд, Омама (2009). "Матрицы подстановки PAM и BLOSUM". Birec . Архивировано из оригинала 9 марта 2013 года . Получено 20 октября 2013 года .
  19. ^ "Искусство выравнивания белковых последовательностей. Часть 1. Матрицы". Dai hoc Can Tho - Университет Кантхо . Архивировано из оригинала 11 сентября 2014 года . Получено 7 сентября 2014 года .

Внешние ссылки