Секвенирование белков

Секвенирование белка — это практический процесс определения аминокислотной последовательности всего или части белка или пептида . Это может служить для идентификации белка или характеристики его посттрансляционных модификаций . Обычно частичное секвенирование белка предоставляет достаточную информацию (одну или несколько меток последовательности) для его идентификации со ссылкой на базы данных последовательностей белков, полученных в результате концептуальной трансляции генов .

Двумя основными прямыми методами секвенирования белков являются масс-спектрометрия и деградация по Эдману с использованием секвенатора белков (секвенатора). Методы масс-спектрометрии в настоящее время наиболее широко используются для секвенирования и идентификации белков, но деградация по Эдману остается ценным инструментом для характеристики N -конца белка .

Определение аминокислотного состава

Часто желательно знать неупорядоченный аминокислотный состав белка, прежде чем пытаться найти упорядоченную последовательность, поскольку эти знания можно использовать для облегчения обнаружения ошибок в процессе секвенирования или для различения неоднозначных результатов. Знание частоты встречаемости определенных аминокислот также можно использовать для выбора протеазы , которую следует использовать для переваривания белка. Также может быть определено неправильное включение низких уровней нестандартных аминокислот (например, норлейцина) в белки. ^[1] Обобщенный метод определения частоты аминокислот, часто называемый аминокислотным анализом ^[2], заключается в следующем:

Гидролизовать известное количество белка до составляющих его аминокислот.
Разделите и определите каким-либо образом аминокислоты.

Гидролиз

Гидролиз осуществляется путем нагревания образца белка в 6 М соляной кислоте до 100–110 °C в течение 24 часов или дольше. Белки со многими объемистыми гидрофобными группами могут потребовать более длительного нагревания. Однако эти условия настолько энергичны, что некоторые аминокислоты ( серин , треонин , тирозин , триптофан , глутамин и цистеин ) разрушаются. Чтобы обойти эту проблему, Biochemistry Online предлагает нагревать отдельные образцы в течение разного времени, анализировать каждый полученный раствор и экстраполировать обратно к нулю времени гидролиза. Расталл предлагает различные реагенты для предотвращения или уменьшения разложения, такие как тиоловые реагенты или фенол для защиты триптофана и тирозина от воздействия хлора, а также предварительное окисление цистеина. Он также предлагает измерить количество выделившегося аммиака , чтобы определить степень гидролиза амида .

Разделение и количественный анализ

Аминокислоты можно разделить с помощью ионообменной хроматографии, а затем дериватизировать для облегчения их обнаружения. Чаще всего аминокислоты подвергают дериватизации, а затем разделяют с помощью обращенно-фазовой ВЭЖХ .

Пример ионообменной хроматографии дан NTRC с использованием сульфированного полистирола в качестве матрицы, добавлением аминокислот в кислом растворе и пропусканием через колонку буфера с постоянно возрастающим pH . Аминокислоты элюируются, когда pH достигает соответствующих изоэлектрических точек . После разделения аминокислот их соответствующие количества определяют путем добавления реагента, который образует окрашенное производное. Если количества аминокислот превышают 10 нмоль, для этого можно использовать нингидрин ; он дает желтый цвет при реакции с пролином и ярко-фиолетовый цвет с другими аминокислотами. Концентрация аминокислоты пропорциональна оптической плотности полученного раствора. При очень небольших количествах, до 10 пмоль, флуоресцентные производные можно получить с использованием таких реагентов, как ортофтальдегид (OPA) или флуорескамин .

При дериватизации перед колонкой можно использовать реагент Эдмана для получения производного, которое обнаруживается с помощью УФ-света. Большая чувствительность достигается при использовании реагента, образующего флуоресцентное производное. Производные аминокислоты подвергают обращенно-фазовой хроматографии, обычно с использованием колонки с силикагелем C8 или C18 и оптимизированного градиента элюирования . Элюирующиеся аминокислоты обнаруживаются с помощью УФ- или флуоресцентного детектора, а площади пиков сравниваются с площадями дериватизированных стандартов для количественного определения каждой аминокислоты в образце.

N -концевой аминокислотный анализ

Определение того, какая аминокислота образует N -конец пептидной цепи, полезно по двум причинам: для облегчения упорядочения последовательностей отдельных пептидных фрагментов в целую цепь и потому, что первый раунд деградации по Эдману часто загрязнен примесями и, следовательно, не не дают точного определения N -концевой аминокислоты. Обобщенный метод анализа N -концевых аминокислот следующий:

Взаимодействуйте с пептидом с реагентом, который избирательно метит концевую аминокислоту.
Гидролизуйте белок.
Определите аминокислоту методом хроматографии и сравнения со стандартами.

Существует множество различных реагентов, которые можно использовать для мечения концевых аминокислот. Все они реагируют с аминогруппами и, следовательно, также связываются с аминогруппами в боковых цепях аминокислот, таких как лизин. По этой причине необходимо проявлять осторожность при интерпретации хроматограмм, чтобы убедиться, что выбрано правильное место. Двумя наиболее распространенными реагентами являются реагент Сэнгера ( 1-фтор-2,4-динитробензол ) и производные дансила, такие как дансилхлорид . Также можно использовать фенилизотиоцианат , реагент для разложения по Эдману. Здесь применяются те же вопросы, что и при определении аминокислотного состава, за исключением того, что окрашивание не требуется, поскольку реагенты дают окрашенные производные и требуется только качественный анализ. Таким образом, аминокислоту не нужно элюировать из хроматографической колонки, достаточно просто сравнить ее со стандартом. Еще одно соображение, которое следует принять во внимание, заключается в том, что, поскольку любые аминогруппы вступят в реакцию с меченым реагентом, ионообменную хроматографию использовать нельзя, а вместо этого следует использовать тонкослойную хроматографию или жидкостную хроматографию высокого давления .

Анализ C-концевых аминокислот

Количество доступных методов анализа С-концевых аминокислот намного меньше, чем количество доступных методов N-концевого анализа. Самый распространенный метод — добавить карбоксипептидазы к раствору белка, брать образцы через регулярные промежутки времени и определять концевую аминокислоту путем анализа графика зависимости концентрации аминокислот от времени. Этот метод будет очень полезен в случае полипептидов и N-концов, заблокированных белками. С-концевое секвенирование могло бы очень помочь в проверке первичных структур белков, предсказанных на основе последовательностей ДНК, и в обнаружении любого посттрансляционного процессинга генных продуктов из известных последовательностей кодонов.

Деградация Эдмана

Деградация по Эдману — очень важная реакция для секвенирования белков, поскольку она позволяет обнаружить упорядоченный аминокислотный состав белка. В настоящее время широко используются автоматизированные секвенаторы Эдмана, которые способны секвенировать пептиды длиной примерно до 50 аминокислот. Ниже приведена схема реакции секвенирования белка путем деградации по Эдману; некоторые этапы будут подробно описаны позднее.

Разорвите любые дисульфидные мостики в белке с помощью восстановителя, такого как 2-меркаптоэтанол . Для предотвращения повторного образования связей может потребоваться защитная группа , такая как йодоуксусная кислота .
Разделите и очистите отдельные цепи белкового комплекса, если их больше одной.
Определите аминокислотный состав каждой цепи.
Определите концевые аминокислоты каждой цепи.
Разбейте каждую цепь на фрагменты длиной до 50 аминокислот.
Отделите и очистите фрагменты.
Определите последовательность каждого фрагмента.
Повторите то же самое с другим рисунком декольте.
Постройте последовательность общего белка.

Расщепление на пептидные фрагменты

Пептиды длиной более 50–70 аминокислот не могут быть надежно секвенированы путем деградации по Эдману. Из-за этого длинные белковые цепи необходимо разбивать на небольшие фрагменты, которые затем можно секвенировать индивидуально. Пищеварение осуществляется либо эндопептидазами , такими как трипсин или пепсин , либо химическими реагентами, такими как бромциан . Различные ферменты дают разные модели расщепления, и перекрывание фрагментов можно использовать для построения общей последовательности.

Реакция

Пептид, подлежащий секвенированию, адсорбируется на твердой поверхности. Одной из распространенных подложек является стекловолокно, покрытое полибреном , катионным полимером . Реактив Эдмана, фенилизотиоцианат (PITC), добавляют к адсорбированному пептиду вместе со слабоосновным буферным раствором 12% триметиламина . Он реагирует с аминогруппой N-концевой аминокислоты.

Концевую аминокислоту затем можно избирательно отсоединить путем добавления безводной кислоты. Производное затем изомеризуется с образованием замещенного фенилтиогидантоина, который можно отмыть и идентифицировать с помощью хроматографии, и цикл можно повторить. Эффективность каждого этапа составляет около 98%, что позволяет достоверно определить около 50 аминокислот.

Секвенатор белков

Секвенатор белков ^[3] представляет собой машину, выполняющую деградацию по Эдману в автоматическом режиме. Образец белка или пептида иммобилизуют в реакционном сосуде секвенатора белков и проводят деградацию по Эдману. Каждый цикл высвобождает и дериватизирует одну аминокислоту с N -конца белка или пептида, а высвободившееся производное аминокислоты затем идентифицируют с помощью ВЭЖХ. Процесс секвенирования повторяется для всего полипептида до тех пор, пока не будет установлена вся измеримая последовательность, или в течение заранее определенного количества циклов.

Идентификация методом масс-спектрометрии

Идентификация белка — это процесс присвоения имени интересующему белку (POI) на основе его аминокислотной последовательности. Обычно только часть последовательности белка необходимо определить экспериментально, чтобы идентифицировать белок со ссылкой на базы данных последовательностей белков, выведенных из последовательностей ДНК их генов. Дальнейшая характеристика белка может включать подтверждение действительных N- и C-концев POI, определение вариантов последовательности и идентификацию любых присутствующих посттрансляционных модификаций.

Протеолитические гидролизаты

Описана общая схема идентификации белков. ^[4]^[5]

POI выделяют, как правило, с помощью SDS-PAGE или хроматографии .
Выделенный POI может быть химически модифицирован для стабилизации остатков цистеина (например, S-амидометилирование или S-карбоксиметилирование).
POI переваривается специальной протеазой для образования пептидов. Трипсин , который избирательно расщепляет на С-концевой стороне остатки лизина или аргинина, является наиболее часто используемой протеазой. К его преимуществам относятся: i) частота остатков Lys и Arg в белках, ii) высокая специфичность фермента, iii) стабильность фермента и iv) пригодность триптических пептидов для масс-спектрометрии.
Пептиды можно обессолить для удаления ионизируемых примесей и подвергнуть масс-спектрометрии MALDI-TOF . Прямое измерение массы пептидов может предоставить достаточную информацию для идентификации белка (см. «Снятие отпечатков пальцев массы пептидов »), но для получения информации о последовательностях пептидов часто используется дальнейшая фрагментация пептидов внутри масс-спектрометра. Альтернативно, пептиды можно обессолить, разделить с помощью обращенно-фазовой ВЭЖХ и ввести в масс-спектрометр через источник ESI . LC-ESI-MS может предоставить больше информации, чем MALDI-MS, для идентификации белков, но требует больше инструментального времени.
В зависимости от типа масс-спектрометра фрагментация пептидных ионов может происходить с помощью различных механизмов, таких как диссоциация, вызванная столкновением (CID) или распад после источника (PSD). В каждом случае характер фрагментных ионов пептида дает информацию о его последовательности.
Информация, включающая измеренную массу предполагаемых пептидных ионов и их фрагментных ионов, затем сопоставляется с расчетными значениями массы, полученными в результате концептуального (in-silico) протеолиза и фрагментации баз данных белковых последовательностей. Успешное совпадение будет найдено, если его оценка превышает порог, основанный на параметрах анализа. Даже если реальный белок не представлен в базе данных, устойчивое к ошибкам сопоставление позволяет предполагаемую идентификацию белка на основе сходства с гомологичными белками. Для выполнения этого анализа доступны различные пакеты программного обеспечения.
Пакеты программного обеспечения обычно генерируют отчет, показывающий идентичность (код доступа) каждого идентифицированного белка, его оценку соответствия и обеспечивают измерение относительной силы соответствия, когда идентифицировано несколько белков.
Диаграмма совпадающих пептидов в последовательности идентифицированного белка часто используется для отображения покрытия последовательности (% белка, обнаруженного как пептиды). Если считается, что POI значительно меньше соответствующего белка, диаграмма может указывать на то, является ли POI N- или C-концевым фрагментом идентифицированного белка.

Секвенирование de novo

Характер фрагментации пептида позволяет напрямую определить его последовательность путем секвенирования de novo . Эту последовательность можно использовать для сопоставления баз данных белковых последовательностей или для исследования посттрансляционных или химических модификаций. Это может предоставить дополнительные доказательства идентификации белков, выполненной, как указано выше.

N- и C-концы

Пептиды, совпадающие во время идентификации белка, не обязательно включают N- или C-концы, предсказанные для совпадающего белка. Это может быть результатом того, что N- или C-концевые пептиды трудно идентифицировать с помощью MS (например, они слишком короткие или слишком длинные), они посттрансляционно модифицированы (например, N-концевое ацетилирование) или действительно отличаются от предсказанных. Посттрансляционные модификации или усеченные концы могут быть идентифицированы путем более тщательного изучения данных (т.е. секвенирования de novo ). Также может оказаться полезным повторный гидролиз с использованием протеазы различной специфичности.

Посттрансляционные модификации

Хотя для определения посттрансляционных модификаций можно использовать детальное сравнение данных МС с предсказаниями, основанными на известной последовательности белка, также можно использовать целевые подходы к сбору данных. Например, специфическое обогащение фосфопептидами может помочь в идентификации сайтов фосфорилирования в белке. Альтернативные методы фрагментации пептида в масс-спектрометре, такие как ETD или ECD , могут дать информацию о комплементарной последовательности.

Всемассовая решимость

Полная масса белка представляет собой сумму масс его аминокислотных остатков плюс массу молекулы воды с учетом любых посттрансляционных модификаций. Хотя белки ионизируются хуже, чем полученные из них пептиды, белок в растворе можно подвергнуть ESI-MS и измерить его массу с точностью 1 часть на 20 000 или выше. Этого часто бывает достаточно, чтобы подтвердить концы (таким образом, измеренная масса белка соответствует предсказанной на основе его последовательности) и сделать вывод о наличии или отсутствии многих посттрансляционных модификаций.

Ограничения

Протеолиз не всегда дает набор легко анализируемых пептидов, охватывающих всю последовательность POI. Фрагментация пептидов в масс-спектрометре часто не дает ионов, соответствующих расщеплению по каждой пептидной связи. Таким образом, выведенная последовательность для каждого пептида не обязательно является полной. Стандартные методы фрагментации не различают остатки лейцина и изолейцина, поскольку они изомерны.

Поскольку деградация по Эдману происходит с N-конца белка, она не будет работать, если N-конец был химически модифицирован (например, путем ацетилирования или образования пироглутаминовой кислоты). Деградация по Эдману обычно бесполезна для определения положения дисульфидных мостиков. Для получения заметных результатов также требуется количество пептидов 1 пикомоль или выше, что делает его менее чувствительным, чем масс-спектрометрия.

Прогнозирование на основе последовательностей ДНК/РНК

В биологии белки производятся путем трансляции информационной РНК (мРНК) с последовательностью белка, происходящей из последовательности кодонов в мРНК. мРНК сама образуется в результате транскрипции генов и может быть дополнительно модифицирована. Эти процессы достаточно понятны, чтобы использовать компьютерные алгоритмы для автоматизации предсказания белковых последовательностей на основе последовательностей ДНК, например, в проектах полногеномного секвенирования ДНК, и привели к созданию больших баз данных белковых последовательностей, таких как UniProt . Предсказанные белковые последовательности являются важным ресурсом для идентификации белков с помощью масс-спектрометрии.

Исторически сложилось так, что короткие белковые последовательности (от 10 до 15 остатков), определенные в результате деградации по Эдману, обратно транслировались в последовательности ДНК, которые можно было использовать в качестве зондов или праймеров для выделения молекулярных клонов соответствующего гена или комплементарной ДНК. Затем была определена последовательность клонированной ДНК и использована для определения полной аминокислотной последовательности белка.

Инструменты биоинформатики

Существуют инструменты биоинформатики , помогающие интерпретировать масс-спектры (см. Секвенирование пептидов de novo ), сравнивать или анализировать белковые последовательности (см. Анализ последовательностей ) или осуществлять поиск в базах данных с использованием последовательностей пептидов или белков (см. BLAST ).

Приложения к криптографии

Сложность секвенирования белков недавно была предложена в качестве основы для создания программ k-времени — программ, которые запускаются ровно k раз, прежде чем самоуничтожятся. Подобную вещь невозможно создать исключительно в программном обеспечении, поскольку любое программное обеспечение по своей сути можно клонировать неограниченное количество раз.

Смотрите также

дальнейшее чтение

Стин Х., Манн М. (сентябрь 2004 г.). «Азбука (и XYZ) секвенирования пептидов». Nature Reviews Молекулярно-клеточная биология . 5 (9): 699–711. дои : 10.1038/nrm1468. PMID 15340378. S2CID 5176895.