Секвенирование белка — это практический процесс определения аминокислотной последовательности всего или части белка или пептида . Это может служить для идентификации белка или характеристики его посттрансляционных модификаций . Обычно частичное секвенирование белка предоставляет достаточную информацию (одну или несколько меток последовательности) для его идентификации со ссылкой на базы данных последовательностей белков, полученных в результате концептуальной трансляции генов .
Двумя основными прямыми методами секвенирования белков являются масс-спектрометрия и деградация по Эдману с использованием секвенатора белков (секвенатора). Методы масс-спектрометрии в настоящее время наиболее широко используются для секвенирования и идентификации белков, но деградация по Эдману остается ценным инструментом для характеристики N -конца белка .
Часто желательно знать неупорядоченный аминокислотный состав белка, прежде чем пытаться найти упорядоченную последовательность, поскольку эти знания можно использовать для облегчения обнаружения ошибок в процессе секвенирования или для различения неоднозначных результатов. Знание частоты встречаемости определенных аминокислот также можно использовать для выбора протеазы , которую следует использовать для переваривания белка. Также может быть определено неправильное включение низких уровней нестандартных аминокислот (например, норлейцина) в белки. [1] Обобщенный метод определения частоты аминокислот, часто называемый аминокислотным анализом [2], заключается в следующем:
Гидролиз осуществляется путем нагревания образца белка в 6 М соляной кислоте до 100–110 °C в течение 24 часов или дольше. Белки со многими объемистыми гидрофобными группами могут потребовать более длительного нагревания. Однако эти условия настолько энергичны, что некоторые аминокислоты ( серин , треонин , тирозин , триптофан , глутамин и цистеин ) разрушаются. Чтобы обойти эту проблему, Biochemistry Online предлагает нагревать отдельные образцы в течение разного времени, анализировать каждый полученный раствор и экстраполировать обратно к нулю времени гидролиза. Расталл предлагает различные реагенты для предотвращения или уменьшения разложения, такие как тиоловые реагенты или фенол для защиты триптофана и тирозина от воздействия хлора, а также предварительное окисление цистеина. Он также предлагает измерить количество выделившегося аммиака , чтобы определить степень гидролиза амида .
Аминокислоты можно разделить с помощью ионообменной хроматографии, а затем дериватизировать для облегчения их обнаружения. Чаще всего аминокислоты подвергают дериватизации, а затем разделяют с помощью обращенно-фазовой ВЭЖХ .
Пример ионообменной хроматографии дан NTRC с использованием сульфированного полистирола в качестве матрицы, добавлением аминокислот в кислом растворе и пропусканием через колонку буфера с постоянно возрастающим pH . Аминокислоты элюируются, когда pH достигает соответствующих изоэлектрических точек . После разделения аминокислот их соответствующие количества определяют путем добавления реагента, который образует окрашенное производное. Если количества аминокислот превышают 10 нмоль, для этого можно использовать нингидрин ; он дает желтый цвет при реакции с пролином и ярко-фиолетовый цвет с другими аминокислотами. Концентрация аминокислоты пропорциональна оптической плотности полученного раствора. При очень небольших количествах, до 10 пмоль, флуоресцентные производные можно получить с использованием таких реагентов, как ортофтальдегид (OPA) или флуорескамин .
При дериватизации перед колонкой можно использовать реагент Эдмана для получения производного, которое обнаруживается с помощью УФ-света. Большая чувствительность достигается при использовании реагента, образующего флуоресцентное производное. Производные аминокислоты подвергают обращенно-фазовой хроматографии, обычно с использованием колонки с силикагелем C8 или C18 и оптимизированного градиента элюирования . Элюирующиеся аминокислоты обнаруживаются с помощью УФ- или флуоресцентного детектора, а площади пиков сравниваются с площадями дериватизированных стандартов для количественного определения каждой аминокислоты в образце.
Определение того, какая аминокислота образует N -конец пептидной цепи, полезно по двум причинам: для облегчения упорядочения последовательностей отдельных пептидных фрагментов в целую цепь и потому, что первый раунд деградации по Эдману часто загрязнен примесями и, следовательно, не не дают точного определения N -концевой аминокислоты. Обобщенный метод анализа N -концевых аминокислот следующий:
Существует множество различных реагентов, которые можно использовать для мечения концевых аминокислот. Все они реагируют с аминогруппами и, следовательно, также связываются с аминогруппами в боковых цепях аминокислот, таких как лизин. По этой причине необходимо проявлять осторожность при интерпретации хроматограмм, чтобы убедиться, что выбрано правильное место. Двумя наиболее распространенными реагентами являются реагент Сэнгера ( 1-фтор-2,4-динитробензол ) и производные дансила, такие как дансилхлорид . Также можно использовать фенилизотиоцианат , реагент для разложения по Эдману. Здесь применяются те же вопросы, что и при определении аминокислотного состава, за исключением того, что окрашивание не требуется, поскольку реагенты дают окрашенные производные и требуется только качественный анализ. Таким образом, аминокислоту не нужно элюировать из хроматографической колонки, достаточно просто сравнить ее со стандартом. Еще одно соображение, которое следует принять во внимание, заключается в том, что, поскольку любые аминогруппы вступят в реакцию с меченым реагентом, ионообменную хроматографию использовать нельзя, а вместо этого следует использовать тонкослойную хроматографию или жидкостную хроматографию высокого давления .
Количество доступных методов анализа С-концевых аминокислот намного меньше, чем количество доступных методов N-концевого анализа. Самый распространенный метод — добавить карбоксипептидазы к раствору белка, брать образцы через регулярные промежутки времени и определять концевую аминокислоту путем анализа графика зависимости концентрации аминокислот от времени. Этот метод будет очень полезен в случае полипептидов и N-концов, заблокированных белками. С-концевое секвенирование могло бы очень помочь в проверке первичных структур белков, предсказанных на основе последовательностей ДНК, и в обнаружении любого посттрансляционного процессинга генных продуктов из известных последовательностей кодонов.
Деградация по Эдману — очень важная реакция для секвенирования белков, поскольку она позволяет обнаружить упорядоченный аминокислотный состав белка. В настоящее время широко используются автоматизированные секвенаторы Эдмана, которые способны секвенировать пептиды длиной примерно до 50 аминокислот. Ниже приведена схема реакции секвенирования белка путем деградации по Эдману; некоторые этапы будут подробно описаны позднее.
Пептиды длиной более 50–70 аминокислот не могут быть надежно секвенированы путем деградации по Эдману. Из-за этого длинные белковые цепи необходимо разбивать на небольшие фрагменты, которые затем можно секвенировать индивидуально. Пищеварение осуществляется либо эндопептидазами , такими как трипсин или пепсин , либо химическими реагентами, такими как бромциан . Различные ферменты дают разные модели расщепления, и перекрывание фрагментов можно использовать для построения общей последовательности.
Пептид, подлежащий секвенированию, адсорбируется на твердой поверхности. Одной из распространенных подложек является стекловолокно, покрытое полибреном , катионным полимером . Реактив Эдмана, фенилизотиоцианат (PITC), добавляют к адсорбированному пептиду вместе со слабоосновным буферным раствором 12% триметиламина . Он реагирует с аминогруппой N-концевой аминокислоты.
Концевую аминокислоту затем можно избирательно отсоединить путем добавления безводной кислоты. Производное затем изомеризуется с образованием замещенного фенилтиогидантоина, который можно отмыть и идентифицировать с помощью хроматографии, и цикл можно повторить. Эффективность каждого этапа составляет около 98%, что позволяет достоверно определить около 50 аминокислот.
Секвенатор белков [3] представляет собой машину, выполняющую деградацию по Эдману в автоматическом режиме. Образец белка или пептида иммобилизуют в реакционном сосуде секвенатора белков и проводят деградацию по Эдману. Каждый цикл высвобождает и дериватизирует одну аминокислоту с N -конца белка или пептида, а высвободившееся производное аминокислоты затем идентифицируют с помощью ВЭЖХ. Процесс секвенирования повторяется для всего полипептида до тех пор, пока не будет установлена вся измеримая последовательность, или в течение заранее определенного количества циклов.
Идентификация белка — это процесс присвоения имени интересующему белку (POI) на основе его аминокислотной последовательности. Обычно только часть последовательности белка необходимо определить экспериментально, чтобы идентифицировать белок со ссылкой на базы данных последовательностей белков, выведенных из последовательностей ДНК их генов. Дальнейшая характеристика белка может включать подтверждение действительных N- и C-концев POI, определение вариантов последовательности и идентификацию любых присутствующих посттрансляционных модификаций.
Описана общая схема идентификации белков. [4] [5]
Характер фрагментации пептида позволяет напрямую определить его последовательность путем секвенирования de novo . Эту последовательность можно использовать для сопоставления баз данных белковых последовательностей или для исследования посттрансляционных или химических модификаций. Это может предоставить дополнительные доказательства идентификации белков, выполненной, как указано выше.
Пептиды, совпадающие во время идентификации белка, не обязательно включают N- или C-концы, предсказанные для совпадающего белка. Это может быть результатом того, что N- или C-концевые пептиды трудно идентифицировать с помощью MS (например, они слишком короткие или слишком длинные), они посттрансляционно модифицированы (например, N-концевое ацетилирование) или действительно отличаются от предсказанных. Посттрансляционные модификации или усеченные концы могут быть идентифицированы путем более тщательного изучения данных (т.е. секвенирования de novo ). Также может оказаться полезным повторный гидролиз с использованием протеазы различной специфичности.
Хотя для определения посттрансляционных модификаций можно использовать детальное сравнение данных МС с предсказаниями, основанными на известной последовательности белка, также можно использовать целевые подходы к сбору данных. Например, специфическое обогащение фосфопептидами может помочь в идентификации сайтов фосфорилирования в белке. Альтернативные методы фрагментации пептида в масс-спектрометре, такие как ETD или ECD , могут дать информацию о комплементарной последовательности.
Полная масса белка представляет собой сумму масс его аминокислотных остатков плюс массу молекулы воды с учетом любых посттрансляционных модификаций. Хотя белки ионизируются хуже, чем полученные из них пептиды, белок в растворе можно подвергнуть ESI-MS и измерить его массу с точностью 1 часть на 20 000 или выше. Этого часто бывает достаточно, чтобы подтвердить концы (таким образом, измеренная масса белка соответствует предсказанной на основе его последовательности) и сделать вывод о наличии или отсутствии многих посттрансляционных модификаций.
Протеолиз не всегда дает набор легко анализируемых пептидов, охватывающих всю последовательность POI. Фрагментация пептидов в масс-спектрометре часто не дает ионов, соответствующих расщеплению по каждой пептидной связи. Таким образом, выведенная последовательность для каждого пептида не обязательно является полной. Стандартные методы фрагментации не различают остатки лейцина и изолейцина, поскольку они изомерны.
Поскольку деградация по Эдману происходит с N-конца белка, она не будет работать, если N-конец был химически модифицирован (например, путем ацетилирования или образования пироглутаминовой кислоты). Деградация по Эдману обычно бесполезна для определения положения дисульфидных мостиков. Для получения заметных результатов также требуется количество пептидов 1 пикомоль или выше, что делает его менее чувствительным, чем масс-спектрометрия.
В биологии белки производятся путем трансляции информационной РНК (мРНК) с последовательностью белка, происходящей из последовательности кодонов в мРНК. мРНК сама образуется в результате транскрипции генов и может быть дополнительно модифицирована. Эти процессы достаточно понятны, чтобы использовать компьютерные алгоритмы для автоматизации предсказания белковых последовательностей на основе последовательностей ДНК, например, в проектах полногеномного секвенирования ДНК, и привели к созданию больших баз данных белковых последовательностей, таких как UniProt . Предсказанные белковые последовательности являются важным ресурсом для идентификации белков с помощью масс-спектрометрии.
Исторически сложилось так, что короткие белковые последовательности (от 10 до 15 остатков), определенные в результате деградации по Эдману, обратно транслировались в последовательности ДНК, которые можно было использовать в качестве зондов или праймеров для выделения молекулярных клонов соответствующего гена или комплементарной ДНК. Затем была определена последовательность клонированной ДНК и использована для определения полной аминокислотной последовательности белка.
Существуют инструменты биоинформатики , помогающие интерпретировать масс-спектры (см. Секвенирование пептидов de novo ), сравнивать или анализировать белковые последовательности (см. Анализ последовательностей ) или осуществлять поиск в базах данных с использованием последовательностей пептидов или белков (см. BLAST ).
Сложность секвенирования белков недавно была предложена в качестве основы для создания программ k-времени — программ, которые запускаются ровно k раз, прежде чем самоуничтожятся. Подобную вещь невозможно создать исключительно в программном обеспечении, поскольку любое программное обеспечение по своей сути можно клонировать неограниченное количество раз.