stringtranslate.com

Генная номенклатура

Генная номенклатура — это научное обозначение генов , единиц наследственности в живых организмах . Он также тесно связан с номенклатурой белков , поскольку гены и белки, которые они кодируют, обычно имеют схожую номенклатуру. Международный комитет опубликовал рекомендации по генетическим символам и номенклатуре в 1957 году. [1] Необходимость разработки официальных руководств по названиям и символам человеческих генов была признана в 1960-х годах, а полные рекомендации были выпущены в 1979 году (Эдинбургское совещание по геному человека). [2] Некоторые другие исследовательские сообщества, специализирующиеся на конкретных родах (например, плодовые мухи -дрозофилы , мыши Mus ), также приняли номенклатурные стандарты и опубликовали их на соответствующих веб-сайтах модельных организмов и в научных журналах, включая « Тенденции в генетике» « Генетическая номенклатура». Гид. [3] [4] Ученые, знакомые с конкретным семейством генов, могут работать вместе, чтобы пересмотреть номенклатуру всего набора генов, когда станет доступна новая информация. [5] Для многих генов и соответствующих им белков в научной литературе и общедоступных биологических базах данных используется множество альтернативных названий , что создает проблему для эффективной организации и обмена биологической информацией. [6] Таким образом, стандартизация номенклатуры направлена ​​на достижение преимуществ контроля словарного запаса и библиографического контроля , хотя соблюдение является добровольным. Наступление информационного века привело к появлению онтологии генов , которая в некотором смысле является следующим шагом в номенклатуре генов, поскольку ее целью является унификация представления атрибутов генов и генных продуктов для всех видов.

Связь с номенклатурой белков

Номенклатура генов и номенклатура белков не являются отдельными направлениями деятельности; они являются аспектами одного и того же целого. Любое имя или символ, используемый для белка, потенциально может также использоваться для гена, который его кодирует, и наоборот. Но из-за особенностей развития науки (знания открывались постепенно на протяжении десятилетий) белки и соответствующие им гены не всегда открывались одновременно (и не всегда физиологически понимались при открытии), что является основной причиной того, почему белки и названия генов не всегда совпадают, или почему ученые склонны отдавать предпочтение одному символу или названию белка, а другому — гену. Другая причина заключается в том, что многие механизмы жизни одинаковы или очень похожи между видами , родами, отрядами и типами (посредством гомологии, аналогии или того и другого ), так что данный белок может производиться во многих видах организмов. ; и поэтому ученые, естественно, часто используют один и тот же символ и название для данного белка у одного вида (например, мышей), как и у другого вида (например, человека). Что касается первой двойственности (один и тот же символ и название для гена или белка), контекст обычно проясняет смысл научным читателям, а номенклатурные системы также обеспечивают некоторую конкретность, используя курсив для символа, когда имеется в виду ген, и простой (римский шрифт) ) для тех случаев, когда имеется в виду белок. Что касается второй двойственности (данный белок является эндогенным во многих видах организмов), номенклатурные системы также предусматривают, по крайней мере, специфичность человека по сравнению с нечеловеческим путем использования различных заглавных букв , хотя ученые часто игнорируют это различие, учитывая, что оно часто биологически нерелевантно. .

Кроме того, в силу характера развития научных знаний белки и соответствующие им гены часто имеют несколько синонимичных названий и символов . Некоторые из более ранних версий могут быть отменены в пользу более новых, хотя такое прекращение поддержки является добровольным. Некоторые старые имена и символы продолжают жить просто потому, что они широко использовались в научной литературе (в том числе до того, как были придуманы новые) и хорошо зарекомендовали себя среди пользователей. Например, упоминания HER2 и ERBB2 являются синонимами .

Наконец, корреляция между генами и белками не всегда однозначна (в любом направлении); в некоторых случаях это соотношение «несколько к одному» или «один к нескольким», и тогда имена и символы могут быть в некоторой степени специфичными для гена или белка или частично перекрываться в использовании:

Рекомендации для конкретных видов

Комитет по генной номенклатуре HUGO отвечает за предоставление руководящих принципов по присвоению имен генам человека и утверждение новых, уникальных названий и символов генов человека (короткие идентификаторы , обычно создаваемые путем сокращения). Для некоторых видов, не относящихся к человеку, базы данных модельных организмов служат центральными хранилищами руководств и вспомогательных ресурсов, включая рекомендации кураторов и номенклатурных комитетов. В дополнение к базам данных по конкретным видам утвержденные названия генов и символы для многих видов могут быть расположены в базе данных «Entrez Gene» [7] Национального центра биотехнологической информации .

Бактериальная генетическая номенклатура

Существуют общепринятые правила и соглашения, используемые для наименования генов бактерий . Стандарты были предложены в 1966 году Демереком и др. [8]

Основные правила

Каждый бактериальный ген обозначается мнемосхемой из трех строчных букв, обозначающих путь или процесс, в котором участвует продукт гена, за которыми следует заглавная буква, обозначающая фактический ген. В некоторых случаях за буквой гена может следовать номер аллеля . Все буквы и цифры подчеркнуты или выделены курсивом. Например, leuA — один из генов пути биосинтеза лейцина , а leuA273 — особый аллель этого гена.

Если известен реальный белок, кодируемый геном, он может стать частью основы мнемоники, например:

Некоторые обозначения генов относятся к известной общей функции:

Предсказанные гены

В анализе генома E. coli в 1998 году большому количеству генов с неизвестной функцией были присвоены имена, начинающиеся с буквы y , за которой следовали последовательно сгенерированные буквы без мнемонического значения (например, ydiO и ydbK ). [9] После того, как некоторые y-гены были обозначены, была подтверждена их функция, [10] и в знак признания этого им было присвоено синонимическое (альтернативное) название. Однако, поскольку y-гены не всегда переименовываются после дальнейшей характеристики, это обозначение не является надежным индикатором значимости гена. [10]

Общая мнемоника

Биосинтетические гены

Потеря активности генов приводит к потребности в питании ( ауксотрофии ), не свойственной дикому типу ( прототрофии ).

Аминокислоты:

Некоторые пути производят метаболиты, которые являются предшественниками более чем одного пути. Следовательно, потеря одного из этих ферментов приведет к потребности в более чем одной аминокислоте. Например:

Нуклеотиды:

Витамины:

Катаболические гены

Потеря активности гена приводит к потере способности катаболизировать (использовать) соединение.

Гены устойчивости к лекарствам и бактериофагам

Нонсенс-супрессорные мутации

Номенклатура мутантов

Если рассматриваемый ген является диким типом, используется надстрочный знак «+»:

Если ген мутантный, это обозначается верхним индексом «-»:

По соглашению, если ни один из них не используется, он считается мутантным.

Существуют дополнительные верхние и нижние индексы, которые предоставляют дополнительную информацию о мутации:

Другие модификаторы:

Номенклатура фенотипов

При упоминании генотипа (гена) мнемоника выделяется курсивом, а не заглавной буквой. При упоминании генного продукта или фенотипа мнемоника пишется с заглавной буквы, а не курсивом ( например, DnaA – белок, продуцируемый геном dnaA ; LeuA – фенотип мутанта leuA ; Amp R – фенотип устойчивости к ампициллину ген β-лактамазы bla ).

Номенклатура названий бактериальных белков

Названия белков такие же, как названия генов, но названия белков не выделяются курсивом, а первая буква пишется заглавной буквой. Например, название РНК - полимеразы — RpoB, и этот белок кодируется геном rpoB . [11]

Соглашения о символах генов и белков позвоночных

Исследовательские сообщества модельных организмов позвоночных приняли правила, согласно которым генам этих видов, когда это возможно, присваиваются те же имена, что и их человеческим ортологам . Использование префиксов к символам генов для обозначения вида (например, «Z» для рыбок данио) не рекомендуется. Рекомендуемый формат печатных символов генов и белков варьируется в зависимости от вида.

Символ и название

Гены и белки позвоночных имеют имена (обычно строки слов) и символы, которые представляют собой короткие идентификаторы (обычно от 3 до 8 символов). Например, ген белка 4, ассоциированного с цитотоксическими Т-лимфоцитами, имеет символ HGNC CTLA4 . Эти символы обычно, но не всегда, создаются путем сокращения или аббревиатуры названия. Однако это псевдоаббревиатуры в том смысле, что они сами по себе являются полными идентификаторами — по сути, короткими именами. Они являются синонимами (а не обозначают) названия гена/белка (или любого из его псевдонимов), независимо от того, «совпадают» ли начальные буквы. Например, символ гомолога 1 вирусного онкогена тимомы мыши v-akt, которым является AKT1 , нельзя назвать аббревиатурой названия, как и любой из его различных синонимов, которые включают AKT , PKB , PRKBA , и РАК . Таким образом, связь символа гена с именем гена функционально является связью прозвища с формальным именем (оба являются полными идентификаторами ), а не связью аббревиатуры с ее расширением. В этом смысле они похожи на символы единиц измерения в системе СИ (например, км вместо километра ), поскольку их можно рассматривать как настоящие логограммы , а не просто сокращения. Иногда различие носит академический характер, но не всегда. Хотя не будет ошибкой сказать, что «VEGFA» — это аббревиатура, означающая « фактор роста эндотелия сосудов А », точно так же, как не является ошибкой то, что «км» — это сокращение от «километр», в символах есть нечто большее, чем формальность. чем отражают эти заявления.

Корневая часть символов семейства генов (например, корень SERPIN в SERPIN1 , SERPIN2 , SERPIN3 и т . д.) называется корневым символом. [12]

Человек

Комитет по генной номенклатуре HUGO отвечает за предоставление руководящих принципов по присвоению имен генам человека и утверждение новых, уникальных названий и символов генов человека (короткие идентификаторы , обычно создаваемые путем сокращения). Все названия и символы генов человека можно найти в Интернете на сайте HGNC [13] , там же доступны рекомендации по их формированию. [14] Руководящие принципы для людей логически вписываются в более широкий круг позвоночных в целом, а компетенция HGNC недавно расширилась до присвоения символов всем видам позвоночных без существующего номенклатурного комитета, чтобы гарантировать, что гены позвоночных называются в соответствии с их человеческими названиями. ортологи/паралоги. Символы генов человека обычно выделяются курсивом, а все буквы в верхнем регистре (например, SHHзвуковой ёж ). В генных каталогах курсив необязателен. Обозначения белков такие же, как и символы гена, за исключением того, что они не выделены курсивом. Как и символ гена, они написаны заглавными буквами , поскольку являются человеческими (специфичными для человека или гомологами человека). мРНК и кДНК используют те же правила форматирования, что и символ гена. [5] Для обозначения семейств генов HGNC рекомендует использовать «корневой символ» [15] в качестве корня для различных символов генов. Например, для семейства пероксиредоксинов PRDX является корневым символом, а членами семейства являются PRDX1 , PRDX2 , PRDX3 , PRDX4 , PRDX5 и PRDX6 .

Мышь и крыса

Символы генов обычно выделяются курсивом, причем только первая буква в верхнем регистре, а остальные буквы в нижнем регистре ( Shh ). На веб-страницах курсив не требуется. Обозначения белков такие же, как у символа гена, но не выделены курсивом и все написаны заглавными буквами (SHH). [16]

Курица ( Gallus sp.)

Номенклатура обычно соответствует соглашениям человеческой номенклатуры. Символы генов обычно выделяются курсивом, причем все буквы в верхнем регистре (например, NLGN1 для нейролигина1). Обозначения белков такие же, как у символа гена, но не выделены курсивом; все буквы в верхнем регистре (NLGN1). мРНК и кДНК используют те же правила форматирования, что и символ гена. [17]

Ящерица анол ( Anolis sp.)

Символы генов выделены курсивом, а все буквы — строчными ( shh ). Обозначения белков отличаются от символа их гена; они не выделены курсивом, и все буквы написаны заглавными буквами (SHH). [18]

Лягушка ( Xenopus sp.)

Символы генов выделены курсивом, а все буквы написаны строчными буквами ( shh ). Обозначения белков такие же, как у символа гена, но не выделены курсивом; первая буква в верхнем регистре, а остальные буквы в нижнем регистре (Тсс). [19]

данио

Символы генов выделены курсивом, все буквы в нижнем регистре ( shh ). Обозначения белков такие же, как у символа гена, но не выделены курсивом; первая буква в верхнем регистре, а остальные буквы в нижнем регистре (Тсс). [20]

Символ и описание гена и белка в редактировании

«Расширение» (глянцевание)

Почти универсальное правило при редактировании статей для медицинских журналов и других научных публикаций в области здравоохранения заключается в том, что аббревиатуры и аббревиатуры должны быть расширены при первом использовании, чтобы обеспечить поясняющее объяснение. Обычно никаких исключений не допускается, за исключением небольших списков особенно известных терминов (таких как ДНК или ВИЧ ). Хотя читателям с высоким уровнем знаний в предметной области не нужна большая часть этих расширений, они вполне подойдут читателям со средним или (особенно) низким уровнем знаний.

Единственное осложнение, которое символы генов и белков привносят в это общее правило, заключается в том, что они, строго говоря, не являются аббревиатурами или акронимами, несмотря на то, что многие из них изначально были придуманы посредством аббревиатуры или акронимической этимологии. Это псевдоаббревиатуры (как и SAT и KFC ), поскольку они не «означают» какого-либо расширения. Скорее, связь символа гена с именем гена функционально является связью прозвища с формальным именем (оба являются полными идентификаторами ), а не связью аббревиатуры с ее расширением. Фактически, многие официальные пары символов генов и названий генов даже не имеют общих последовательностей начальных букв (хотя некоторые из них имеют). Тем не менее, символы генов и белков «выглядят точно так же, как» аббревиатуры и акронимы, что представляет собой проблему, заключающуюся в том, что «неспособность» их «расширить» (хотя на самом деле это не является неудачей и нет никаких истинных расширений) создает видимость нарушения Правило прописания всех аббревиатур.

Один из распространенных способов примирить эти две противоположные силы — просто исключить все генные и белковые символы из правила толкования. Это, безусловно, быстро и легко сделать, а в узкоспециализированных журналах это оправдано еще и тем, что вся целевая читательская аудитория обладает высокой компетентностью в предметной области. (Экспертов не смущает наличие символов (известных или новых), и они знают, где в случае необходимости найти их в Интернете для получения более подробной информации.) Но для журналов с более широкой и более общей целевой читательской аудиторией это действие оставляет читателей без каких-либо пояснительную аннотацию и может заставить их задуматься, что означает это очевидное сокращение и почему оно не было объяснено. Поэтому хорошим альтернативным решением является просто поместить в круглые скобки либо официальное название гена, либо подходящее краткое описание (псевдоним гена/другое обозначение) после первого использования официального символа гена/белка. Это отвечает как формальному требованию (наличие глоссы), так и функциональному требованию (помогает читателю понять, к чему относится данный символ). То же правило применяется к сокращенным именам вариантов последовательности; АМА утверждает: «В общих медицинских публикациях текстовые пояснения должны сопровождать сокращенные термины при первом упоминании». [21] Таким образом, «188del11» интерпретируется как «делеция длиной 11 пар оснований в нуклеотиде 188». Это последующее правило (которое является дополнением к правилу «все по буквам») часто также следует стилю расширения «с использованием сокращений», который становится все более распространенным в последние годы. Традиционно при первом использовании аббревиатура всегда следовала за полностью развернутой формой в скобках. Это по-прежнему общее правило. Но для определенных классов сокращений или акронимов (таких как аббревиатуры клинических исследований [например, ECOG ] или стандартизированные схемы полихимиотерапии [например, CHOP ]) эта закономерность может быть обратной, поскольку более широко используется короткая форма, а расширение является просто скобками. к обсуждаемому вопросу. То же самое относится и к символам генов/белков.

Синонимы и предыдущие символы и названия

Комитет по генной номенклатуре HUGO (HGNC) поддерживает официальный символ и название для каждого человеческого гена, а также список синонимов и предыдущих символов и названий. Например, для AFF1 (семейство AF4/FMR2, член 1) предыдущими символами и названиями являются MLLT2 («миелоидный/лимфоидный лейкоз или лейкоз смешанного происхождения (гомолог триторакса (дрозофилы)); транслоцировано в, 2») и PBM1 («пре -В-клеточный партнер по моноцитарному лейкозу 1"), а синонимами являются AF-4 и AF4 . Авторы журнальных статей часто используют последний официальный символ и название, но столь же часто они используют синонимы и предыдущие символы и названия, которые хорошо известны благодаря более раннему использованию в литературе. Стиль АМА заключается в том, что «авторы должны использовать самый современный термин» [22] и что «при любом обсуждении гена рекомендуется в какой-то момент упоминать одобренный символ гена, предпочтительно в названии и аннотации». если это актуально». [22] Поскольку от редакторов не ожидается и не разрешается переписывать номенклатуру генов и белков по всей рукописи (за исключением редких прямых инструкций по конкретным заданиям), золотой серединой в рукописях, использующих синонимы или старые символы, является то, что редактор будет добавлять упоминание о текущий официальный символ, по крайней мере, в качестве пояснения в скобках при первом упоминании гена или белка и запроса подтверждения.

Стиль

Некоторые базовые соглашения, такие как (1) пары гомологов (ортологов) животное/человек различаются по регистру букв ( регистр названия и все заглавные буквы соответственно) и (2) что символ выделяется курсивом при упоминании гена, но не курсивом при упоминании гена. белка, часто не отслеживаются авторами медицинских журналов. Многие журналы просят редакторов изменить оформление и форматирование, насколько это возможно, хотя в сложных дискуссиях по генетике только профильные эксперты (SME) могут без труда проанализировать их все. Одним из примеров, который иллюстрирует потенциальную двусмысленность среди предприятий, не относящихся к МСП, является то, что в некоторых официальных названиях генов есть слово «белок», поэтому фразы «мозговой белок I3 ( BRI3 )» (относится к гену) и «мозговой белок I3» (относится к гену) и «мозговой белок I3» BRI3)» (относительно белка) оба действительны. В Руководстве АМА приводится еще один пример: как «ген TH», так и « ген TH » можно действительно проанализировать как правильные («ген тирозингидроксилазы»), поскольку в первом упоминается псевдоним (описание), а во втором упоминается символ. . На первый взгляд это кажется запутанным, хотя это легче понять, если объяснить следующее: в случае этого гена, как и во многих других, псевдоним (описание) «использует ту же строку букв», что и символ. (Сочетание букв, конечно, имеет аббревиатуру по своему происхождению, и, таким образом, фраза «случайно» подразумевает больше совпадений, чем есть на самом деле; но такая формулировка помогает сделать объяснение более ясным.) Для компаний, не относящихся к МСП, такой возможности нет. знать, что это относится к любой конкретной строке букв, не просматривая каждый ген из рукописи в базе данных, такой как NCBI Gene, просматривая список его символов, имени и псевдонимов, а также делая в уме перекрестные ссылки и двойную проверку (плюс это помогает иметь биохимические знания). Большинство медицинских журналов не оплачивают (в некоторых случаях не могут) оплачивать такой уровень проверки фактов в рамках своего уровня услуг по редактированию; следовательно, ответственность остается за автором. Однако, как указывалось ранее, многие авторы мало пытаются следовать правилам использования буквенного регистра или курсива; а что касается белковых символов, они часто вообще не используют официальный символ. Например, хотя в рекомендациях белок p53 будет называться «TP53» у людей или «Trp53» у мышей, большинство авторов называют его «p53» в обоих случаях (и даже отказываются называть его «TP53», если это пытаются сделать правки или запросы), а не По крайней мере, из-за биологического принципа, согласно которому многие белки представляют собой по существу или совершенно одни и те же молекулы независимо от вида млекопитающих. Что касается гена, авторы обычно предпочитают называть его, используя свой человеческий символ и заглавную букву, TP53 .и может даже сделать это без запроса. Но конечным результатом всех этих факторов является то, что публикуемая литература часто не полностью соответствует рекомендациям по номенклатуре.

Рекомендации

  1. ^ Танака Ю. (1957). «Отчет Международного комитета по генетическим символам и номенклатуре». Международный союз биологических наук Б. 30 : 1–6.
  2. ^ «О Комитете по номенклатуре генов HGNC - HUGO» .
  3. ^ Руководство по генетической номенклатуре (1995). Тенденции Жене .
  4. ^ Руководство по номенклатуре тенденций в генетике . Кембридж: Эльзевир. 1998.
  5. ^ ab «Руководство HGNC -». Комитет по генной номенклатуре Хьюго .
  6. ^ Фундел К., Циммер Р. (август 2006 г.). «Номенклатура генов и белков в общедоступных базах данных». БМК Биоинформатика . 7 : 372. дои : 10.1186/1471-2105-7-372 . ПМК 1560172 . ПМИД  16899134. 
  7. ^ "Дом - Джин - NCBI" .
  8. ^ Демерек М., Адельберг Э.А., Кларк А.Дж., Хартман П.Е. (июль 1966 г.). «Предложение о единой номенклатуре в генетике бактерий». Генетика . 54 (1): 61–76. дои : 10.1093/генетика/54.1.61. ПМЦ 1211113 . ПМИД  5961488. 
  9. ^ Радд К.Э. (сентябрь 1998 г.). «Карта сцепления Escherichia coli K-12, издание 10: физическая карта». Обзоры микробиологии и молекулярной биологии . 62 (3): 985–1019. дои :10.1128/MMBR.62.3.985-1019.1998. ПМК 98937 . ПМИД  9729612. 
  10. ^ Аб Гатак С., Кинг З.А., Састри А., Палссон Б.О. (март 2019 г.). «Y-ome определяет 35% генов Escherichia coli, функционирование которых не подтверждено экспериментально». Исследования нуклеиновых кислот . 47 (5): 2446–2454. дои : 10.1093/nar/gkz030. ПМК 6412132 . ПМИД  30698741. 
  11. ^ Кэтрин А (30 января 2014 г.). «Рекомендации по форматированию названий генов и белков». Писатели-биологи . Проверено 6 февраля 2016 г. Бактерии : символы генов обычно состоят из трех строчных букв, выделенных курсивом, которые служат аббревиатурой процесса или пути, в котором участвует продукт гена (например, гены rpo кодируют РНК - полимеразу ). Чтобы различать разные аллели, за аббревиатурой следует прописная буква (например, ген rpoB кодирует β-субъединицу РНК-полимеразы). Символы белков не выделяются курсивом, а первая буква заглавная (например, RpoB).
  12. ^ HGNC , Индекс генных семей , получено 11 апреля 2016 г.
  13. ^ «База данных HGNC названий генов человека - Комитет по генной номенклатуре HUGO» .
  14. ^ «Руководство HGNC - Комитет по генной номенклатуре HUGO» .
  15. ^ HGNC , Помощь семей генов , получено 13 октября 2015 г.
  16. ^ «Рекомендации MGI по номенклатуре генов, генетических маркеров, аллелей и мутаций у мышей и крыс».
  17. ^ Берт Д.В., Карре В., Фелл М., Лоу А.С., Антин П.Б., Маглотт Д.Р. и др. (июль 2009 г.). «Отчет Комитета по номенклатуре куриных генов». БМК Геномика . 10 (Дополнение 2): S5. дои : 10.1186/1471-2164-10-S2-S5 . ПМЦ 2966335 . ПМИД  19607656. 
  18. ^ Кусуми К., Кулатинал Р.Дж., Абжанов А., Буассино С., Кроуфорд Н.Г., Faircloth BC и др. (ноябрь 2011 г.). «Разработка общественной генетической номенклатуры ящериц-аноли». БМК Геномика . 12 :554. дои : 10.1186/1471-2164-12-554 . ПМЦ 3248570 . ПМИД  22077994. 
  19. ^ "Xenbase - ресурс Xenopus laevis и Xenopus тропический" .
  20. ^ "Номенклатура данио ZFIN" .
  21. ^ Айверсон С., Кристиансен С., Гласс Р.М., Фланагин А., Фонтанароас П.Б., ред. (2007). «15.6.1 Нуклеиновые кислоты и аминокислоты». Руководство по стилю АМА (10-е изд.). Оксфорд, Оксфордшир: Издательство Оксфордского университета . ISBN 978-0-19-517633-9.
  22. ^ аб Айверсон С., Кристиансен С., Гласс Р.М., Фланагин А., Фонтанароас П.Б., ред. (2007). «15.6.2 Номенклатура генов человека». Руководство по стилю АМА (10-е изд.). Оксфорд, Оксфордшир: Издательство Оксфордского университета . ISBN 978-0-19-517633-9.

Внешние ссылки