В генетике экспрессируемая последовательность тега ( EST ) представляет собой короткую подпоследовательность последовательности кДНК . [1] EST могут использоваться для идентификации транскриптов генов и сыграли важную роль в открытии генов и определении последовательности генов. [2] Идентификация EST быстро продвигалась, и в настоящее время в общедоступных базах данных (например, GenBank 1 января 2013 г., все виды) доступно около 74,2 миллионов EST. Подходы EST в значительной степени были вытеснены секвенированием всего генома и транскриптома и секвенированием метагенома.
EST получается в результате одноразового секвенирования клонированной кДНК . КДНК, используемые для генерации EST, обычно представляют собой отдельные клоны из библиотеки кДНК . Полученная последовательность представляет собой относительно низкокачественный фрагмент, длина которого ограничена современной технологией приблизительно 500–800 нуклеотидами . Поскольку эти клоны состоят из ДНК, комплементарной мРНК, EST представляют собой части экспрессируемых генов. Они могут быть представлены в базах данных либо как последовательность кДНК/мРНК, либо как обратный комплемент мРНК, шаблонной цепи .
Можно сопоставить EST с определенными локациями хромосом, используя физические методы картирования, такие как гибридное картирование с излучением , картирование HAPPY или FISH . В качестве альтернативы, если геном организма, который создал EST, был секвенирован, можно выровнять последовательность EST с этим геномом, используя компьютер.
Текущее понимание набора генов человека (по состоянию на 2006 год [обновлять]) включает существование тысяч генов, основанных исключительно на доказательствах EST. В этом отношении EST стали инструментом для уточнения предсказанных транскриптов для этих генов, что приводит к предсказанию их белковых продуктов и, в конечном счете, их функции. Более того, ситуация, в которой эти EST получены (ткань, орган, болезненное состояние - например, рак ), дает информацию об условиях, в которых действует соответствующий ген. EST содержат достаточно информации, чтобы позволить разработать точные зонды для ДНК-микрочипов , которые затем могут быть использованы для определения профилей экспрессии генов .
Некоторые авторы используют термин «EST» для описания генов, о которых существует мало или вообще нет никакой дополнительной информации, кроме тега. [3]
В 1979 году группы ученых из Гарварда и Калифорнийского технологического института расширили основную идею создания копий ДНК мРНК in vitro, чтобы амплифицировать библиотеку таких копий в бактериальных плазмидах. [4]
В 1982 году Грег Сатклифф и его коллеги исследовали идею выбора случайных или полуслучайных клонов из такой библиотеки кДНК для секвенирования. [5]
В 1983 году Патни и др. секвенировали 178 клонов из библиотеки ДНК мышц кролика. [6]
В 1991 году Адамс и его коллеги ввели термин EST и инициировали более систематическое секвенирование в качестве проекта (начав с 600 кДНК мозга). [2]
dbEST — это подразделение Genbank, основанное в 1992 году. Что касается GenBank , данные в dbEST поступают напрямую из лабораторий по всему миру и не курируются.
Из-за способа секвенирования EST, многие отдельные экспрессированные теги последовательностей часто являются частичными последовательностями, которые соответствуют одной и той же мРНК организма. В попытке сократить количество экспрессированных тегов последовательностей для анализа обнаружения генов ниже по течению, несколько групп собрали экспрессированные теги последовательностей в контиги EST . Примеры ресурсов, которые предоставляют контиги EST, включают: индексы генов TIGR, [7] Unigene, [8] и STACK [9]
Построение контигов EST не является тривиальной задачей и может привести к появлению артефактов (контигов, содержащих два различных генных продукта). Когда доступна полная последовательность генома организма и транскрипты аннотированы, можно обойти сборку контигов и напрямую сопоставить транскрипты с EST. Этот подход используется в системе TissueInfo (см. ниже) и позволяет легко связать аннотации в геномной базе данных с информацией о тканях, предоставленной данными EST.
Высокопроизводительные анализы EST часто сталкиваются с аналогичными проблемами управления данными. Первая проблема заключается в том, что происхождение тканей библиотек EST описывается на простом английском языке в dbEST. [10] Это затрудняет написание программ, которые могут однозначно определить, что две библиотеки EST были секвенированы из одной и той же ткани. Аналогичным образом, состояния болезни для ткани не аннотируются в вычислительно-дружественной манере. Например, раковое происхождение библиотеки часто смешивается с названием ткани (например, название ткани « глиобластома » указывает на то, что библиотека EST была секвенирована из мозговой ткани, а состояние болезни — рак). [11] За исключением рака, состояние болезни часто не регистрируется в записях dbEST. Проект TissueInfo был начат в 2000 году, чтобы помочь с этими проблемами. Проект предоставляет тщательно отобранные данные (обновляемые ежедневно) для устранения неоднозначности происхождения ткани и состояния заболевания (рак/не рак), предлагает онтологию тканей, которая связывает ткани и органы отношениями «является частью» (т. е. формализует знание о том, что гипоталамус является частью мозга, а мозг является частью центральной нервной системы) и распространяет программное обеспечение с открытым исходным кодом для связывания аннотаций транскриптов из секвенированных геномов с профилями экспрессии тканей, рассчитанными с использованием данных в dbEST. [12]
Эта публикация предоставляется только для исторической справки, и информация может быть устаревшей.
{{cite journal}}
: CS1 maint: числовые имена: список авторов ( ссылка )Сервер для классификации EST из смешанных пулов EST (из растений, инфицированных грибком) с использованием кодонов
Кураторское происхождение тканей EST, онтология тканей, программное обеспечение с открытым исходным кодом