Первичная структура белка — это линейная последовательность аминокислот в пептиде или белке . [1] По соглашению первичная структура белка описывается, начиная с аминоконца (N) до карбоксильного конца (C). Биосинтез белка чаще всего осуществляется рибосомами в клетках. Пептиды также могут быть синтезированы в лаборатории. Первичные структуры белка могут быть напрямую секвенированы или выведены из последовательностей ДНК .
Аминокислоты полимеризуются через пептидные связи, образуя длинный остов , с различными боковыми цепями аминокислот, выступающими вдоль него. В биологических системах белки производятся во время трансляции рибосомами клетки . Некоторые организмы также могут производить короткие пептиды путем нерибосомального пептидного синтеза , который часто использует аминокислоты, отличные от стандартных 20, и может быть циклизован, модифицирован и сшит.
Пептиды могут быть синтезированы химически с помощью ряда лабораторных методов. Химические методы обычно синтезируют пептиды в порядке, обратном биологическому синтезу белка (начиная с N-конца) (начиная с C-конца).
Последовательность белка обычно обозначается как строка букв, перечисляющая аминокислоты, начиная с амино -терминального конца до карбоксильного конца. Для представления 22 природных аминокислот, а также смесей или неоднозначных аминокислот (аналогично обозначению нуклеиновых кислот ) можно использовать как трехбуквенный код, так и однобуквенный код . [1] [2] [3]
Пептиды могут быть напрямую секвенированы или выведены из последовательностей ДНК . В настоящее время существуют большие базы данных последовательностей , которые сопоставляют известные последовательности белков.
В целом, полипептиды являются неразветвленными полимерами, поэтому их первичная структура часто может быть определена последовательностью аминокислот вдоль их остова. Однако белки могут стать сшитыми, чаще всего дисульфидными связями , и первичная структура также требует указания сшивающих атомов, например, указания цистеинов, участвующих в дисульфидных связях белка. Другие сшивки включают десмозин .
Хиральные центры полипептидной цепи могут подвергаться рацемизации . Хотя это не меняет последовательность, это влияет на химические свойства последовательности. В частности, L -аминокислоты, обычно встречающиеся в белках, могут спонтанно изомеризоваться у атома, образуя D -аминокислоты, которые не могут быть расщеплены большинством протеаз . Кроме того, пролин может образовывать стабильные транс-изомеры у пептидной связи.
Кроме того, белок может подвергаться различным посттрансляционным модификациям , которые кратко описаны здесь.
N-концевая аминогруппа полипептида может быть модифицирована ковалентно, например,
С-концевая карбоксилатная группа полипептида также может быть модифицирована, например,
Наконец, боковые цепи пептида также могут быть модифицированы ковалентно, например,
Большинство перечисленных выше модификаций полипептидов происходят посттрансляционно , то есть после того, как белок синтезирован на рибосоме , что обычно происходит в эндоплазматическом ретикулуме — субклеточной органелле эукариотической клетки.
Химики применяли к белкам и многие другие химические реакции (например, цианирование), хотя в биологических системах они не встречаются.
Помимо перечисленных выше, наиболее важной модификацией первичной структуры является расщепление пептида (химическим гидролизом или протеазами ). Белки часто синтезируются в неактивной форме предшественника; как правило, N-концевой или C-концевой сегмент блокирует активный сайт белка, подавляя его функцию. Белок активируется путем отщепления ингибирующего пептида.
Некоторые белки даже обладают способностью расщеплять себя. Обычно гидроксильная группа серина (реже треонина) или тиоловая группа остатка цистеина атакуют карбонильный углерод предыдущей пептидной связи, образуя тетраэдрически связанный промежуточный продукт [классифицируемый как гидроксиоксазолидиновый (Ser/Thr) или гидрокситиазолидиновый (Cys) промежуточный продукт]. Этот промежуточный продукт имеет тенденцию возвращаться в амидную форму, вытесняя атакующую группу, поскольку амидная форма обычно благоприятствует свободной энергии (предположительно из-за сильной резонансной стабилизации пептидной группы). Однако дополнительные молекулярные взаимодействия могут сделать амидную форму менее стабильной; вместо этого вытесняется аминогруппа, в результате чего вместо пептидной связи образуется эфирная (Ser/Thr) или тиоэфирная (Cys) связь. Эта химическая реакция называется ацильным сдвигом NO.
Связь эфир/тиоэфир может быть разделена несколькими способами:
Сжатие аминокислотных последовательностей является сравнительно сложной задачей. Существующие специализированные компрессоры аминокислотных последовательностей являются низкими по сравнению с компрессорами последовательностей ДНК, в основном из-за характеристик данных. Например, моделирование инверсий сложнее из-за обратной потери информации (от аминокислот к последовательности ДНК). Текущий компрессор данных без потерь, который обеспечивает более высокое сжатие, — это AC2. [5] AC2 смешивает различные контекстные модели с использованием нейронных сетей и кодирует данные с использованием арифметического кодирования.
Предложение о том, что белки представляют собой линейные цепи α-аминокислот, было сделано почти одновременно двумя учеными на одной и той же конференции в 1902 году, 74-м заседании Общества немецких ученых и врачей, состоявшемся в Карлсбаде. Франц Хофмейстер сделал предложение утром, основываясь на своих наблюдениях за биуретовой реакцией в белках. За Хофмейстером несколько часов спустя последовал Эмиль Фишер , который собрал множество химических данных, подтверждающих модель пептидной связи. Для полноты картины, предложение о том, что белки содержат амидные связи, было сделано еще в 1882 году французским химиком Э. Гримо. [6]
Несмотря на эти данные и более поздние доказательства того, что протеолитически переваренные белки дают только олигопептиды, идея о том, что белки являются линейными, неразветвленными полимерами аминокислот, не была принята сразу. Некоторые уважаемые ученые, такие как Уильям Эстбери, сомневались, что ковалентные связи были достаточно прочными, чтобы удерживать вместе такие длинные молекулы; они боялись, что тепловые колебания разорвут такие длинные молекулы на части. Герман Штаудингер столкнулся с похожими предрассудками в 1920-х годах, когда он утверждал, что каучук состоит из макромолекул . [6]
Таким образом, возникло несколько альтернативных гипотез. Гипотеза коллоидного белка утверждала, что белки представляют собой коллоидные сборки более мелких молекул. Эта гипотеза была опровергнута в 1920-х годах ультрацентрифугированием Теодора Сведберга , показавшим, что белки имеют четко определенную, воспроизводимую молекулярную массу, и электрофоретическими измерениями Арне Тиселиуса , указывающими на то, что белки представляют собой отдельные молекулы. Вторая гипотеза, гипотеза циклола , выдвинутая Дороти Вринч , предполагала, что линейный полипептид претерпевает химическую циклол-перегруппировку C=O + HN C(OH)-N, которая сшивает его амидные группы основной цепи, образуя двумерную структуру . Другие первичные структуры белков были предложены различными исследователями, такими как дикетопиперазиновая модель Эмиля Абдерхальдена и пиррол/пиперидиновая модель Троенсегаарда в 1942 году. Хотя этим альтернативным моделям никогда не придавалось большого значения, они были окончательно опровергнуты, когда Фредерик Сэнгер успешно секвенировал инсулин [ когда? ] и кристаллографическим определением миоглобина и гемоглобина Максом Перуцем и Джоном Кендрю [ когда? ] .
Можно сказать, что любой линейный гетерополимер имеет «первичную структуру» по аналогии с использованием термина для белков, но это использование редко по сравнению с чрезвычайно распространенным использованием в отношении белков. В РНК , которая также имеет обширную вторичную структуру , линейная цепь оснований обычно просто упоминается как «последовательность», как и в ДНК (которая обычно образует линейную двойную спираль с небольшой вторичной структурой). Другие биологические полимеры, такие как полисахариды, также можно считать имеющими первичную структуру, хотя использование не является стандартным.
Первичная структура биологического полимера в значительной степени определяет трехмерную форму ( третичную структуру ). Последовательность белка может быть использована для прогнозирования локальных особенностей , таких как сегменты вторичной структуры или трансмембранные области. Однако сложность сворачивания белка в настоящее время не позволяет прогнозировать третичную структуру белка только по его последовательности. Знание структуры аналогичной гомологичной последовательности (например, члена того же семейства белков ) позволяет с высокой точностью прогнозировать третичную структуру с помощью моделирования гомологии . Если доступна полноразмерная последовательность белка, можно оценить его общие биофизические свойства , такие как его изоэлектрическая точка .
Семейства последовательностей часто определяются путем кластеризации последовательностей , а проекты структурной геномики направлены на создание набора репрезентативных структур, охватывающих пространство последовательностей возможных неизбыточных последовательностей.
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )