stringtranslate.com

Номенклатура генов

Номенклатура генов — это научное наименование генов , единиц наследственности в живых организмах. Она также тесно связана с номенклатурой белков , поскольку гены и кодируемые ими белки обычно имеют схожую номенклатуру. Международный комитет опубликовал рекомендации по генетическим символам и номенклатуре в 1957 году. [1] Необходимость разработки формальных руководств по названиям и символам генов человека была признана в 1960-х годах, а полные руководящие принципы были выпущены в 1979 году (Edinburgh Human Genome Meeting). [2] Несколько других исследовательских сообществ, занимающихся конкретными родами (например, плодовые мушки Drosophila , мыши Mus ), также приняли стандарты номенклатуры и опубликовали их на соответствующих веб-сайтах модельных организмов и в научных журналах, включая Trends in Genetics Genetic Nomenclature Guide. [3] [4] Ученые, знакомые с определенным семейством генов, могут работать вместе, чтобы пересмотреть номенклатуру для всего набора генов, когда станет доступна новая информация. [5] Для многих генов и соответствующих им белков в научной литературе и общедоступных биологических базах данных используется набор альтернативных названий , что создает проблему для эффективной организации и обмена биологической информацией. [6] Таким образом, стандартизация номенклатуры пытается достичь преимуществ контроля словаря и библиографического контроля , хотя соблюдение является добровольным. Наступление информационного века принесло с собой онтологию генов , которая в некотором роде является следующим шагом номенклатуры генов, поскольку она направлена ​​на унификацию представления атрибутов генов и генных продуктов для всех видов.

Связь с номенклатурой белков

Номенклатура генов и номенклатура белков — это не отдельные начинания; это аспекты одного целого. Любое название или символ, используемый для белка, потенциально может также использоваться для гена, который его кодирует, и наоборот. [ требуется цитата ] Но из-за особенностей развития науки (знания по крупицам раскрываются на протяжении десятилетий), белки и соответствующие им гены не всегда открывались одновременно (и не всегда физиологически понимались при открытии), что является главной причиной того, почему названия белков и генов не всегда совпадают или почему ученые склонны отдавать предпочтение одному символу или названию для белка и другому для гена. [ требуется цитата ] Другая причина заключается в том, что многие механизмы жизни одинаковы или очень похожи у разных видов , родов, отрядов и типов (благодаря гомологии, аналогии или тому и другому ), так что данный белок может вырабатываться во многих видах организмов; и поэтому ученые, естественно, часто используют один и тот же символ и название для данного белка у одного вида (например, у мышей) и у другого вида (например, у людей). Что касается первой дуальности (один и тот же символ и название для гена или белка), то контекст обычно делает смысл понятным для научных читателей, а номенклатурные системы также предусматривают некоторую специфичность, используя курсив для символа, когда имеется в виду ген, и обычный (латинский) шрифт, когда имеется в виду белок. [ необходима цитата ] Что касается второй дуальности (данный белок является эндогенным во многих видах организмов), то номенклатурные системы также предусматривают, по крайней мере, специфичность для человека и не-человека, используя разную заглавную букву , [ необходима цитата ] хотя ученые часто игнорируют это различие, учитывая, что оно часто биологически не имеет значения. [ необходима цитата ]

Также из-за характера того, как развивались научные знания, белки и соответствующие им гены часто имеют несколько названий и символов, которые являются синонимами . Некоторые из более ранних названий могут быть отменены в пользу более новых, хотя такое отклонение является добровольным. Некоторые старые названия и символы продолжают жить просто потому, что они широко использовались в научной литературе (в том числе до того, как были придуманы более новые) и хорошо зарекомендовали себя среди пользователей. Например, упоминания HER2 и ERBB2 являются синонимами .

Наконец, корреляция между генами и белками не всегда один к одному (в любом направлении); в некоторых случаях она составляет несколько к одному или один к нескольким, и тогда названия и символы могут быть в некоторой степени специфичными для генов или белков или перекрываться в использовании:

Руководства по видам

Комитет по номенклатуре генов HUGO отвечает за предоставление руководств по наименованию генов человека и утверждение новых уникальных названий и символов генов человека (короткие идентификаторы , обычно создаваемые путем сокращения). Для некоторых видов, не относящихся к человеку, базы данных модельных организмов служат центральными хранилищами руководств и справочных ресурсов, включая советы кураторов и номенклатурных комитетов. В дополнение к видоспецифичным базам данных, утвержденные названия генов и символы для многих видов можно найти в базе данных «Entrez Gene» [7] Национального центра биотехнологической информации .

Бактериальная генетическая номенклатура

Существуют общепринятые правила и соглашения, используемые для наименования генов у бактерий . Стандарты были предложены в 1966 году Демереком и др. [8]

Общие правила

Каждый бактериальный ген обозначается мнемоническим кодом из трех строчных букв, которые указывают путь или процесс, в котором участвует ген-продукт, за которыми следует заглавная буква, обозначающая фактический ген. В некоторых случаях за буквой гена может следовать номер аллеля . Все буквы и цифры подчеркнуты или выделены курсивом. Например, leuA — один из генов пути биосинтеза лейцина , а leuA273 — конкретный аллель этого гена.

Если известен реальный белок, кодируемый геном, то он может стать частью основы мнемоники, например:

Некоторые обозначения генов относятся к известной общей функции:

Предсказанные гены

В анализе генома E. coli в 1998 году большое количество генов с неизвестной функцией были обозначены именами, начинающимися с буквы y , за которой следовали последовательно сгенерированные буквы без мнемонического значения (например, ydiO и ydbK ). [9] После обозначения было подтверждено, что некоторые y-гены имеют функцию, [10] и им было присвоено синонимическое (альтернативное) название в знак признания этого. Однако, поскольку y-гены не всегда переименовываются после дальнейшей характеристики, это обозначение не является надежным индикатором значимости гена. [10]

Распространенные мнемоники

Биосинтетические гены

Потеря активности гена приводит к потребности в питании ( ауксотрофии ), которая не проявляется у дикого типа ( прототрофии ).

Аминокислоты:

Некоторые пути производят метаболиты, которые являются предшественниками более чем одного пути. Следовательно, потеря одного из этих ферментов приведет к потребности в более чем одной аминокислоте. Например:

Нуклеотиды:

Витамины:

Катаболические гены

Потеря активности гена приводит к потере способности катаболизировать (использовать) соединение.

Гены устойчивости к лекарствам и бактериофагам

Бессмысленные супрессорные мутации

Номенклатура мутантов

Если рассматриваемый ген является диким типом, используется верхний индекс «+»:

Если ген мутантный, это обозначается верхним индексом «-»:

По соглашению, если ни один из них не используется, то он считается мутантным.

Имеются дополнительные надстрочные и подстрочные индексы, которые предоставляют дополнительную информацию о мутации:

Другие модификаторы:

Номенклатура фенотипов

При ссылке на генотип (ген) мнемоника пишется курсивом, а не заглавными буквами. При ссылке на продукт гена или фенотип мнемоника пишется с заглавной буквы, а не курсивом ( например, DnaA — белок, продуцируемый геном dnaA ; LeuA — фенотип мутанта leuA ; Amp R — фенотип устойчивости к ампициллину гена β-лактамазы bla ).

Номенклатура названий бактериальных белков

Названия белков обычно совпадают с названиями генов, но названия белков не выделяются курсивом, а первая буква заглавная. Например, название РНК - полимеразы — RpoB, и этот белок кодируется геном rpoB . [11]

Условные обозначения генов и белков позвоночных

Исследовательские сообщества модельных организмов позвоночных приняли руководящие принципы, согласно которым генам этих видов даются, когда это возможно, те же названия, что и их ортологам у людей . Использование префиксов в символах генов для обозначения видов (например, "Z" для данио-рерио) не приветствуется. Рекомендуемое форматирование печатных символов генов и белков различается в зависимости от вида.

Символ и имя

Гены и белки позвоночных имеют названия (обычно строки слов) и символы, которые являются короткими идентификаторами (обычно от 3 до 8 символов). Например, ген цитотоксического Т-лимфоцит-ассоциированного белка 4 имеет символ HGNC CTLA4 . Эти символы обычно, но не всегда, придуманы путем сокращения или акронимического сокращения названия. Однако они являются псевдоакронимами в том смысле, что они сами по себе являются полными идентификаторами — по сути, короткими названиями. Они являются синонимами (а не обозначают) названия гена/белка (или любого из его псевдонимов), независимо от того, «совпадают» ли начальные буквы. Например, символ для гена v-akt мышиного тимомного вирусного онкогена гомолога 1, который является AKT1 , нельзя назвать акронимом названия, как и любой из его различных синонимов, включая AKT , PKB , PRKBA и RAC . Таким образом, связь символа гена с именем гена функционально является связью прозвища с формальным именем (оба являются полными идентификаторами ) — это не связь акронима с его расширением. В этом смысле они похожи на символы для единиц измерения в системе СИ (например, км для километра ), в том смысле, что их можно рассматривать как настоящие логограммы , а не просто аббревиатуры. Иногда это различие является академическим, но не всегда. Хотя не будет ошибкой сказать, что «VEGFA» — это аббревиатура, обозначающая « фактор роста эндотелия сосудов А », так же как не будет ошибкой сказать, что «км» — это аббревиатура для «километра», в формальности символов есть нечто большее, чем эти утверждения отражают.

Корневая часть символов для семейства генов (например, корень « SERPIN » в SERPIN1 , SERPIN2 , SERPIN3 и т. д.) называется корневым символом. [12 ]

Человек

Комитет по номенклатуре генов HUGO отвечает за предоставление руководств по наименованию генов человека и утверждение новых уникальных названий и символов генов человека (короткие идентификаторы , обычно создаваемые путем сокращения). Все названия и символы генов человека можно найти в Интернете на веб-сайте HGNC [13] , а также там доступны руководства по их формированию. [14] Руководства для людей логически вписываются в более широкий спектр позвоночных в целом, и полномочия HGNC недавно расширились до назначения символов всем видам позвоночных без существующего комитета по номенклатуре, чтобы гарантировать, что гены позвоночных названы в соответствии с их ортологами/паралогами человека. Символы генов человека, как правило, выделяются курсивом, со всеми буквами в верхнем регистре (например, SHH для sonic hedgehog ). Курсив не обязателен в каталогах генов. Обозначения белков такие же, как и символ гена, за исключением того, что они не выделяются курсивом. Как и символ гена, они написаны заглавными буквами, потому что человеческие (специфичные для человека или гомолог человека). мРНК и кДНК используют те же соглашения о форматировании, что и символ гена. [5] Для наименования семейств генов HGNC рекомендует использовать «корневой символ» [15] в качестве корня для различных символов генов. Например, для семейства пероксиредоксинов корневым символом является PRDX , а членами семейства являются PRDX1 , PRDX2 , PRDX3 , PRDX4 , PRDX5 и PRDX6 .

Мышь и крыса

Символы генов обычно выделяются курсивом, только первая буква заглавная, а остальные строчные ( Shh ). Курсив не требуется на веб-страницах. Обозначения белков такие же, как и символ гена, но не выделяются курсивом и все заглавные (SHH). [16]

Курица (Галлсп.)

Номенклатура обычно следует соглашениям человеческой номенклатуры. Символы генов обычно выделяются курсивом, все буквы заглавные (например, NLGN1 для нейролигина1). Обозначения белков такие же, как символ гена, но не выделяются курсивом; все буквы заглавные (NLGN1). мРНК и кДНК используют те же соглашения о форматировании, что и символ гена. [17]

Ящерица анолис (Анолиссп.)

Символы генов выделены курсивом, и все буквы в нижнем регистре ( shh ). Обозначения белков отличаются от их символа гена; они не выделены курсивом, и все буквы в верхнем регистре (SHH). [18]

Лягушка (Ксенопуссп.)

Символы генов выделены курсивом, а все буквы строчные ( shh ). Обозначения белков такие же, как и символ гена, но не выделены курсивом; первая буква заглавная, а остальные буквы строчные (Shh). [19]

Зебрафиш

Символы генов выделены курсивом, все буквы строчные ( shh ). Обозначения белков такие же, как и символ гена, но не выделены курсивом; первая буква заглавная, а остальные буквы строчные (Shh). [20]

Символ и описание гена и белка в редактировании

«Расширение» (глоссирование)

Почти универсальное правило при копирайтинге статей для медицинских журналов и других публикаций по здравоохранению заключается в том, что аббревиатуры и сокращения должны быть расширены при первом использовании, чтобы обеспечить пояснительный тип объяснения. Обычно не допускается никаких исключений, за исключением небольших списков особенно известных терминов (таких как ДНК или ВИЧ ). Хотя читателям с высокой степенью компетентности в предметной области не нужна большая часть этих расширений, читателям со средней или (особенно) низкой квалификацией они вполне подходят.

Одной из сложностей, которую символы генов и белков привносят в это общее правило, является то, что они, строго говоря, не являются сокращениями или акронимами, несмотря на то, что многие из них изначально были придуманы посредством сокращения или акронимической этимологии. Они являются псевдоакронимами (как и SAT и KFC ), потому что они не «обозначают» никакого расширения. Скорее, связь символа гена с именем гена функционально является связью прозвища с формальным именем (оба являются полными идентификаторами ) — это не связь акронима с его расширением. Фактически, многие официальные пары символ гена — имя гена даже не разделяют свои начальные буквенные последовательности (хотя некоторые разделяют). Тем не менее, символы генов и белков «выглядят так же, как» аббревиатуры и акронимы, что представляет собой проблему, заключающуюся в том, что «неспособность» «расширить» их (хотя на самом деле это не ошибка и нет никаких истинных расширений) создает видимость нарушения правила «выпишите все акронимы».

Один из распространенных способов примирения этих двух противоположных сил — просто исключить все символы генов и белков из правила глоссирования. Это, безусловно, быстро и легко сделать, а в узкоспециализированных журналах это также оправдано, поскольку вся целевая аудитория имеет высокую экспертизу в предметной области. (Экспертов не смущает наличие символов (известных или новых), и они знают, где искать их в Интернете для получения дополнительных подробностей, если это необходимо.) Но для журналов с более широкой и общей целевой аудиторией это действие оставляет читателей без какой-либо пояснительной аннотации и может заставить их задуматься, что означает очевидная аббревиатура и почему она не была объяснена. Поэтому хорошим альтернативным решением будет просто поместить либо официальное название гена, либо подходящее краткое описание (псевдоним гена/другое обозначение) в скобки после первого использования официального символа гена/белка. Это соответствует как формальному требованию (наличие глоссирования), так и функциональному требованию (помощь читателю узнать, к чему относится символ). То же правило применяется к сокращенным названиям для вариаций последовательностей; AMA говорит: «В общих медицинских публикациях текстовые пояснения должны сопровождать сокращенные термины при первом упоминании». [21] Таким образом, «188del11» интерпретируется как «делеция 11 пар оснований в нуклеотиде 188». Это правило следствия (которое является дополнением к правилу «все вычитать») часто также следует стилю расширения «ввода сокращений», который становится все более распространенным в последние годы. Традиционно сокращение всегда следовало за полностью развернутой формой в скобках при первом использовании. Это по-прежнему общее правило. Но для определенных классов сокращений или аббревиатур (таких как аббревиатуры клинических испытаний [например, ECOG ] или стандартизированные режимы полихимиотерапии [например, CHOP ]) эта схема может быть обратной, поскольку краткая форма используется более широко, а расширение просто вводится в скобки для обсуждения в данный момент. То же самое относится к символам генов/белков.

Синонимы и предыдущие символы и названия

Комитет по номенклатуре генов HUGO (HGNC) поддерживает официальный символ и название для каждого человеческого гена, а также список синонимов и предыдущих символов и названий. Например, для AFF1 (семейство AF4/FMR2, член 1) предыдущими символами и названиями являются MLLT2 («миелоидный/лимфоидный или смешанный лейкоз (гомолог trithorax (Drosophila)); транслоцированный в, 2») и PBM1 («партнер пре-B-клеточного моноцитарного лейкоза 1»), а синонимами являются AF-4 и AF4 . Авторы журнальных статей часто используют последний официальный символ и название, но так же часто они используют синонимы и предыдущие символы и названия, которые хорошо известны благодаря более раннему использованию в литературе. Стиль AMA заключается в том, что «авторы должны использовать самый современный термин» [22] и что «при любом обсуждении гена рекомендуется, чтобы одобренный символ гена упоминался в какой-то момент, желательно в названии и аннотации, если это уместно». [22] Поскольку редакторам не разрешается и не предполагается переписывать номенклатуру генов и белков по всей рукописи (за исключением редких прямых указаний по конкретным заданиям), в рукописях, использующих синонимы или старые символы, редактор добавляет упоминание текущего официального символа, по крайней мере, в качестве вводной пояснительной записки при первом упоминании гена или белка и запрашивает подтверждение.

Стайлинг

Некоторые основные соглашения, такие как (1) что пары гомологов (ортологов) животное/человек различаются регистром букв ( заглавные буквы и все заглавные буквы соответственно) и (2) что символ выделяется курсивом при ссылке на ген, но не курсивом при ссылке на белок, часто не соблюдаются авторами медицинских журналов. Во многих журналах редакторы-копирайтеры меняют регистр и форматирование, насколько это возможно, хотя в сложных генетических дискуссиях только эксперты по предметной области (SME) могут без труда разобрать их все. Одним из примеров, иллюстрирующих потенциальную неоднозначность среди не-SME, является то, что некоторые официальные названия генов содержат слово «белок», поэтому фразы «мозговой белок I3 ( BRI3 )» (относящиеся к гену) и «мозговой белок I3 (BRI3)» (относящиеся к белку) являются обеими допустимыми. В руководстве AMA приводится еще один пример: и «ген TH», и « ген TH » могут быть обоснованно проанализированы как правильные («ген тирозингидроксилазы»), поскольку в первом упоминается псевдоним (описание), а во втором — символ. На первый взгляд это кажется запутанным, хотя это легче понять, если объяснить следующим образом: в случае этого гена, как и во многих других, псевдоним (описание) «случайно использует ту же самую строку букв», что и символ. (Соответствие букв, конечно, имеет аббревиатуру по происхождению, и поэтому фраза «случается» подразумевает больше совпадений, чем есть на самом деле; но такая формулировка помогает сделать объяснение более понятным.) Не специалист по SME не может узнать, что это касается какой-либо конкретной строки букв, не просмотрев каждый ген из рукописи в базе данных, такой как NCBI Gene, не просмотрев список его символов, названий и псевдонимов, и не выполнив мысленные перекрестные ссылки и двойную проверку (плюс это помогает иметь биохимические знания). Большинство медицинских журналов не оплачивают (а в некоторых случаях не могут) этот уровень проверки фактов как часть своего уровня услуг по редактированию; поэтому это остается обязанностью автора. Однако, как указывалось ранее, многие авторы мало пытаются следовать правилам регистра букв или курсива; а что касается символов белков, они часто вообще не используют официальный символ. Например, хотя в руководствах белок p53 называется "TP53" у людей или "Trp53" у мышей, большинство авторов называют его "p53" в обоих случаях (и даже отказываются называть его "TP53", если это пытаются сделать правки или запросы), не в последнюю очередь из-за биологического принципа, что многие белки по сути или в точности являются теми же молекулами, независимо от вида млекопитающих. Что касается гена, авторы обычно готовы называть его его специфичным для человека символом и заглавными буквами, TP53, и даже может делать это без запроса. Но конечный результат всех этих факторов заключается в том, что опубликованная литература часто не полностью следует рекомендациям по номенклатуре.

Ссылки

  1. ^ Танака Y (1957). «Отчет Международного комитета по генетическим символам и номенклатуре». Международный союз биологических наук B. 30 : 1–6.
  2. ^ "О комитете по номенклатуре генов HGNC - HUGO". Архивировано из оригинала 2011-03-10 . Получено 2018-03-23 ​​.
  3. ^ Генетический справочник по номенклатуре (1995). Trends Genet .
  4. ^ Руководство по номенклатуре тенденций в генетике . Кембридж: Elsevier. 1998.
  5. ^ ab "HGNC Guidelines -". Комитет по номенклатуре генов HUGO . Архивировано из оригинала 21.12.2014 . Получено 23.03.2018 .
  6. ^ Fundel K, Zimmer R (август 2006 г.). «Номенклатура генов и белков в публичных базах данных». BMC Bioinformatics . 7 : 372. doi : 10.1186/1471-2105-7-372 . PMC 1560172. PMID  16899134 . 
  7. ^ "Главная - Джин - NCBI".
  8. ^ Demerec M, Adelberg EA, Clark AJ, Hartman PE (июль 1966 г.). «Предложение о единой номенклатуре в генетике бактерий». Genetics . 54 (1): 61–76. doi :10.1093/genetics/54.1.61. PMC 1211113 . PMID  5961488. 
  9. ^ Rudd KE (сентябрь 1998 г.). «Карта сцепления Escherichia coli K-12, издание 10: физическая карта». Microbiology and Molecular Biology Reviews . 62 (3): 985–1019. doi :10.1128/MMBR.62.3.985-1019.1998. PMC 98937 . PMID  9729612. 
  10. ^ ab Ghatak S, King ZA, Sastry A, Palsson BO (март 2019 г.). «Y-ome определяет 35% генов Escherichia coli, у которых отсутствуют экспериментальные доказательства функции». Nucleic Acids Research . 47 (5): 2446–2454. doi :10.1093/nar/gkz030. PMC 6412132. PMID  30698741 . 
  11. ^ Katherine A (2014-01-30). "Guidelines for Formatting Gene and Protein Names". BioScience Writers . Получено 2016-02-06 . Бактерии : Символы генов обычно состоят из трех строчных курсивных букв, которые служат аббревиатурой процесса или пути, в котором участвует продукт гена (например, гены rpo кодируют РНК - полимеразу ). Чтобы различать разные аллели, за аббревиатурой следует заглавная буква (например, ген rpoB кодирует β-субъединицу РНК-полимеразы). Символы белков не выделяются курсивом, а первая буква — заглавная (например, RpoB).
  12. ^ HGNC , Gene Families Index , получено 11 апреля 2016 г.
  13. ^ "База данных названий генов человека HGNC - Комитет по номенклатуре генов HUGO".
  14. ^ «Руководство HGNC — Комитет по номенклатуре генов HUGO».
  15. ^ HGNC , Генные семейства помогают , получено 13 октября 2015 г.
  16. ^ «MGI-Руководство по номенклатуре генов, генетических маркеров, аллелей и мутаций у мышей и крыс».
  17. ^ Burt DW, Carrë W, Fell M, Law AS, Antin PB, Maglott DR и др. (июль 2009 г.). «Отчет Комитета по номенклатуре генов курицы». BMC Genomics . 10 (Suppl 2): ​​S5. doi : 10.1186/1471-2164-10-S2-S5 . PMC 2966335. PMID  19607656 . 
  18. ^ Кусуми К, Кулатхинал Р. Дж., Абжанов А., Буассинот С., Кроуфорд Н. Г., Фэрклот Б. К. и др. (ноябрь 2011 г.). «Разработка генетической номенклатуры для ящериц-анолисов на основе сообщества». BMC Genomics . 12 : 554. doi : 10.1186/1471-2164-12-554 . PMC 3248570. PMID  22077994 . 
  19. ^ "Xenbase - Ресурс по Xenopus laevis и Xenopus tropicalis".
  20. ^ "Номенклатура данио ZFIN" .
  21. ^ Iverson C, Christiansen S, Glass RM, Flanagin A, Fontanaroas PB, ред. (2007). "15.6.1 Нуклеиновые кислоты и аминокислоты". AMA Manual of Style (10-е изд.). Оксфорд, Оксфордшир: Oxford University Press . ISBN 978-0-19-517633-9.
  22. ^ ab Iverson C, Christiansen S, Glass RM, Flanagin A, Fontanaroas PB, ред. (2007). "15.6.2 Номенклатура генов человека". AMA Manual of Style (10-е изд.). Оксфорд, Оксфордшир: Oxford University Press . ISBN 978-0-19-517633-9.

Внешние ссылки