Секвенирование белка — это практический процесс определения аминокислотной последовательности всего или части белка или пептида . Это может служить для идентификации белка или характеристики его посттрансляционных модификаций . Обычно частичное секвенирование белка предоставляет достаточную информацию (один или несколько тегов последовательности) для его идентификации со ссылкой на базы данных последовательностей белка , полученных из концептуальной трансляции генов .
Два основных прямых метода секвенирования белков — это масс-спектрометрия и деградация Эдмана с использованием секвенатора белков (секвенатора). Методы масс-спектрометрии в настоящее время наиболее широко используются для секвенирования и идентификации белков, но деградация Эдмана остается ценным инструментом для характеристики N -конца белка .
Часто желательно знать неупорядоченный аминокислотный состав белка до того, как пытаться найти упорядоченную последовательность, так как это знание может быть использовано для облегчения обнаружения ошибок в процессе секвенирования или для различения неоднозначных результатов. Знание частоты определенных аминокислот может также использоваться для выбора протеазы , которую следует использовать для переваривания белка. Также может быть определено неправильное включение низких уровней нестандартных аминокислот (например, норлейцина) в белки. [1] Обобщенный метод, часто называемый аминокислотным анализом [2], для определения частоты аминокислот выглядит следующим образом:
Гидролиз осуществляется путем нагревания образца белка в 6 М соляной кислоте до 100–110 °C в течение 24 часов или дольше. Белки со множеством объемных гидрофобных групп могут потребовать более длительного нагрева. Однако эти условия настолько интенсивны, что некоторые аминокислоты ( серин , треонин , тирозин , триптофан , глутамин и цистеин ) разрушаются. Чтобы обойти эту проблему, Biochemistry Online предлагает нагревать отдельные образцы в течение разного времени, анализировать каждый полученный раствор и экстраполировать обратно к нулевому времени гидролиза. Расталл предлагает различные реагенты для предотвращения или уменьшения деградации, такие как тиоловые реагенты или фенол для защиты триптофана и тирозина от воздействия хлора и предварительное окисление цистеина. Он также предлагает измерять количество выделяющегося аммиака для определения степени гидролиза амида .
Аминокислоты могут быть разделены с помощью ионообменной хроматографии, а затем дериватизированы для облегчения их обнаружения. Чаще всего аминокислоты дериватизируются, а затем разделяются с помощью обращенно-фазовой ВЭЖХ .
Пример ионообменной хроматографии приводит NTRC с использованием сульфированного полистирола в качестве матрицы, добавлением аминокислот в кислом растворе и пропусканием буфера с постоянно увеличивающимся pH через колонку. Аминокислоты элюируются, когда pH достигает их соответствующих изоэлектрических точек . После разделения аминокислот их соответствующие количества определяются путем добавления реагента, который образует окрашенное производное. Если количество аминокислот превышает 10 нмоль, для этого можно использовать нингидрин ; он дает желтый цвет при реакции с пролином и яркий фиолетовый с другими аминокислотами. Концентрация аминокислоты пропорциональна поглощению полученного раствора. При очень малых количествах, вплоть до 10 пмоль, флуоресцентные производные могут быть образованы с использованием таких реагентов, как орто-фталальдегид (OPA) или флуорескамин .
Предколоночная дериватизация может использовать реагент Эдмана для получения производного, которое обнаруживается УФ-светом. Более высокая чувствительность достигается при использовании реагента, который генерирует флуоресцентное производное. Дериватизированные аминокислоты подвергаются обращенно-фазовой хроматографии, как правило, с использованием колонки с силикагелем C8 или C18 и оптимизированного градиента элюирования . Элюирующие аминокислоты обнаруживаются с помощью УФ- или флуоресцентного детектора, а площади пиков сравниваются с площадями пиков для дериватизированных стандартов для количественного определения каждой аминокислоты в образце.
Определение того, какая аминокислота образует N -конец пептидной цепи , полезно по двум причинам: для облегчения упорядочения последовательностей отдельных пептидных фрагментов в целую цепь, и потому что первый раунд деградации Эдмана часто загрязнен примесями и, следовательно, не дает точного определения N -концевой аминокислоты. Обобщенный метод анализа N -концевых аминокислот следующий:
Существует множество различных реагентов, которые можно использовать для маркировки терминальных аминокислот. Все они реагируют с аминогруппами и, следовательно, также связываются с аминогруппами в боковых цепях аминокислот, таких как лизин, — по этой причине необходимо быть осторожным при интерпретации хроматограмм, чтобы убедиться, что выбрано правильное место. Два из наиболее распространенных реагентов — это реагент Сэнгера ( 1-фтор-2,4-динитробензол ) и производные дансила, такие как дансилхлорид . Фенилизотиоцианат , реагент для деградации Эдмана, также можно использовать. Здесь применимы те же вопросы, что и при определении аминокислотного состава, за исключением того, что окрашивание не требуется, поскольку реагенты производят окрашенные производные, и требуется только качественный анализ. Таким образом, аминокислоту не нужно элюировать из хроматографической колонки, достаточно просто сравнить со стандартом. Еще одно соображение, которое следует учитывать, заключается в том, что поскольку все аминогруппы прореагируют с реагентом для маркировки, ионообменную хроматографию использовать нельзя, вместо этого следует использовать тонкослойную хроматографию или жидкостную хроматографию высокого давления .
Число методов, доступных для анализа аминокислот C-конца, намного меньше числа доступных методов анализа N-конца. Наиболее распространенный метод заключается в добавлении карбоксипептидаз к раствору белка, взятии образцов через регулярные интервалы времени и определении терминальной аминокислоты путем анализа графика концентрации аминокислот в зависимости от времени. Этот метод будет очень полезен в случае полипептидов и заблокированных белком N-концов. Секвенирование C-конца может значительно помочь в проверке первичных структур белков, предсказанных из последовательностей ДНК, и в обнаружении любой посттрансляционной обработки продуктов генов из известных последовательностей кодонов.
Деградация Эдмана является очень важной реакцией для секвенирования белка, поскольку она позволяет обнаружить упорядоченный аминокислотный состав белка. Автоматизированные секвенаторы Эдмана в настоящее время широко используются и способны секвенировать пептиды длиной до примерно 50 аминокислот. Ниже приведена схема реакции для секвенирования белка с помощью деградации Эдмана; некоторые из шагов подробно описаны далее.
Пептиды длиной более 50–70 аминокислот не могут быть надежно секвенированы методом деградации Эдмана. Из-за этого длинные белковые цепи необходимо разбить на небольшие фрагменты, которые затем можно секвенировать по отдельности. Переваривание осуществляется либо эндопептидазами, такими как трипсин или пепсин , либо химическими реагентами, такими как бромциан . Различные ферменты дают разные схемы расщепления, и перекрытие между фрагментами можно использовать для построения общей последовательности.
Пептид, который необходимо секвенировать, адсорбируется на твердой поверхности. Одним из распространенных субстратов является стекловолокно, покрытое полибреном , катионным полимером . Реагент Эдмана, фенилизотиоцианат (PITC), добавляется к адсорбированному пептиду вместе с умеренно основным буферным раствором 12% триметиламина . Он реагирует с аминогруппой N-концевой аминокислоты.
Концевую аминокислоту затем можно селективно отсоединить путем добавления безводной кислоты. Затем производное изомеризуется, давая замещенный фенилтиогидантоин, который можно смыть и идентифицировать с помощью хроматографии, и цикл можно повторить. Эффективность каждого шага составляет около 98%, что позволяет надежно определить около 50 аминокислот.
Секвенатор белка [3] — это машина, которая выполняет деградацию Эдмана в автоматическом режиме. Образец белка или пептида иммобилизуется в реакционном сосуде секвенатора белка, и выполняется деградация Эдмана. Каждый цикл высвобождает и дериватизирует одну аминокислоту из N -конца белка или пептида, а затем высвобождаемое производное аминокислоты идентифицируется с помощью ВЭЖХ. Процесс секвенирования выполняется повторно для всего полипептида до тех пор, пока не будет установлена вся измеряемая последовательность или для заранее определенного количества циклов.
Идентификация белка — это процесс присвоения имени интересующему белку (POI) на основе его аминокислотной последовательности. Обычно для идентификации белка с использованием баз данных последовательностей белков, выведенных из последовательностей ДНК их генов, экспериментально требуется определить только часть последовательности белка. Дальнейшая характеристика белка может включать подтверждение фактических N- и C-концов POI, определение вариантов последовательности и идентификацию любых присутствующих посттрансляционных модификаций.
Описана общая схема идентификации белков. [4] [5]
Паттерн фрагментации пептида позволяет напрямую определить его последовательность с помощью секвенирования de novo . Эта последовательность может быть использована для сопоставления баз данных последовательностей белков или для исследования посттрансляционных или химических модификаций. Она может предоставить дополнительные доказательства для идентификации белков, выполненной, как указано выше.
Пептиды, сопоставленные во время идентификации белка, не обязательно включают N- или C-концы, предсказанные для сопоставленного белка. Это может быть результатом того, что N- или C-концевые пептиды трудно идентифицировать с помощью MS (например, слишком короткие или слишком длинные), посттрансляционно модифицированы (например, N-концевое ацетилирование) или действительно отличаются от предсказания. Посттрансляционные модификации или укороченные концы могут быть идентифицированы путем более тщательного изучения данных (например, de novo секвенирование). Повторный перевар с использованием протеазы другой специфичности также может быть полезен.
В то время как детальное сравнение данных MS с прогнозами, основанными на известной последовательности белка, может использоваться для определения посттрансляционных модификаций, также могут использоваться целевые подходы к получению данных. Например, специфическое обогащение фосфопептидов может помочь в идентификации участков фосфорилирования в белке. Альтернативные методы фрагментации пептидов в масс-спектрометре, такие как ETD или ECD , могут дать дополнительную информацию о последовательности.
Полная масса белка представляет собой сумму масс его аминокислотных остатков плюс масса молекулы воды и скорректирована с учетом любых посттрансляционных модификаций. Хотя белки ионизируются хуже, чем полученные из них пептиды, белок в растворе может быть подвергнут ESI-MS и его масса может быть измерена с точностью 1 часть на 20 000 или лучше. Этого часто достаточно, чтобы подтвердить концы (таким образом, что измеренная масса белка совпадает с предсказанной из его последовательности) и сделать вывод о наличии или отсутствии многих посттрансляционных модификаций.
Протеолиз не всегда дает набор легко анализируемых пептидов, охватывающих всю последовательность POI. Фрагментация пептидов в масс-спектрометре часто не дает ионов, соответствующих расщеплению каждой пептидной связи. Таким образом, выведенная последовательность для каждого пептида не обязательно является полной. Стандартные методы фрагментации не различают остатки лейцина и изолейцина, поскольку они изомерны.
Поскольку деградация Эдмана происходит с N-конца белка, она не будет работать, если N-конец был химически модифицирован (например, путем ацетилирования или образования пироглутаминовой кислоты). Деградация Эдмана, как правило, бесполезна для определения положений дисульфидных мостиков. Для нее также требуются количества пептидов в 1 пикомоль или выше для различимых результатов, что делает ее менее чувствительной, чем масс-спектрометрия.
В биологии белки производятся путем трансляции матричной РНК (мРНК) с последовательностью белка, полученной из последовательности кодонов в мРНК. Сама мРНК формируется путем транскрипции генов и может быть дополнительно модифицирована. Эти процессы достаточно изучены, чтобы использовать компьютерные алгоритмы для автоматизации предсказаний последовательностей белков из последовательностей ДНК, например, из проектов по секвенированию ДНК всего генома, и привели к созданию больших баз данных последовательностей белков, таких как UniProt . Предсказанные последовательности белков являются важным ресурсом для идентификации белков методом масс-спектрометрии.
Исторически короткие белковые последовательности (от 10 до 15 остатков), определенные деградацией Эдмана, были обратно транслированы в последовательности ДНК, которые могли быть использованы в качестве зондов или праймеров для выделения молекулярных клонов соответствующего гена или комплементарной ДНК. Затем определялась последовательность клонированной ДНК и использовалась для выведения полной аминокислотной последовательности белка.
Существуют инструменты биоинформатики, помогающие в интерпретации масс-спектров (см. секвенирование пептидов de novo ), для сравнения или анализа последовательностей белков (см. анализ последовательностей ) или для поиска в базах данных с использованием последовательностей пептидов или белков (см. BLAST ).
Сложность секвенирования белка была недавно предложена в качестве основы для создания программ k-time, программ, которые запускаются ровно k раз перед самоуничтожением. Такое невозможно построить исключительно в программном обеспечении, поскольку все программное обеспечение по своей сути клонируемо неограниченное количество раз.