Геномные проекты — это научные усилия, целью которых в конечном итоге является определение полной последовательности генома организма (будь то животное , растение , гриб , бактерия , архей , протист или вирус ) и аннотирование генов , кодирующих белки , и других важные функции, закодированные в геноме. [1] Последовательность генома организма включает коллективные последовательности ДНК каждой хромосомы в организме. Для бактерии, содержащей одну хромосому, проект генома будет направлен на картирование последовательности этой хромосомы. Для человеческого вида, геном которого включает 22 пары аутосом и 2 половые хромосомы, полная последовательность генома будет включать 46 отдельных последовательностей хромосом.
Проект «Геном человека» является хорошо известным примером проекта генома. [2]
Сборка генома — это процесс взятия большого количества коротких последовательностей ДНК и их повторной сборки для создания представления об исходных хромосомах , из которых произошла ДНК. В проекте секвенирования методом дробовика вся ДНК из источника (обычно одного организма , от бактерии до млекопитающего ) сначала разбивается на миллионы мелких кусочков. Эти фрагменты затем «читаются» автоматическими секвенаторами. Алгоритм сборки генома работает, беря все части и выравнивая их друг с другом, а также обнаруживая все места, где две короткие последовательности или чтения перекрываются. Эти перекрывающиеся чтения можно объединить, и процесс продолжится.
Сборка генома — очень сложная вычислительная задача, которая усложняется тем, что многие геномы содержат большое количество идентичных последовательностей, известных как повторы . Эти повторы могут иметь длину в тысячи нуклеотидов и встречаться в разных местах, особенно в больших геномах растений и животных .
Результирующая (черновая) последовательность генома создается путем объединения секвенированных информационных контигов и последующего использования связывающей информации для создания каркасов. Каркасы расположены вдоль физической карты хромосом, создавая «золотой путь».
Первоначально большинство крупных центров секвенирования ДНК разработали собственное программное обеспечение для сборки получаемых ими последовательностей. Однако ситуация изменилась по мере усложнения программного обеспечения и увеличения количества центров секвенирования. Пример такого ассемблера «Короткий пакет анализа олигонуклеотидов» , разработанный BGI для сборки de novo геномов человеческого размера, выравнивания, обнаружения SNP , повторного секвенирования, обнаружения инделей и анализа структурных вариаций. [3] [4] [5]
С 1980-х годов молекулярная биология и биоинформатика создали потребность в аннотациях ДНК . Аннотация ДНК или аннотация генома — это процесс идентификации прикрепления биологической информации к последовательностям , в частности, определения местоположения генов и определения того, что эти гены делают.
При секвенировании генома обычно имеются участки, которые сложно секвенировать (часто участки с высокой повторяющейся ДНК ). Таким образом, «завершенные» последовательности генома редко когда-либо бывают полными, и такие термины, как «рабочий проект» или «практически завершенный», использовались для более точного описания статуса таких геномных проектов. Даже когда каждая пара оснований последовательности генома определена, все равно могут присутствовать ошибки, поскольку секвенирование ДНК не является абсолютно точным процессом. Можно также утверждать, что проект полного генома должен включать последовательности митохондрий и (для растений) хлоропластов, поскольку эти органеллы имеют свои собственные геномы.
Часто сообщается, что целью секвенирования генома является получение информации о полном наборе генов в этой конкретной последовательности генома. Доля генома, кодирующая гены, может быть очень небольшой (особенно у эукариот , таких как человек, у которых кодирующая ДНК может составлять лишь несколько процентов всей последовательности). Однако не всегда возможно (или желательно) секвенировать только кодирующие области отдельно. Кроме того, по мере того, как ученые будут лучше понимать роль этой некодирующей ДНК (часто называемой « мусорной ДНК» ), станет более важным иметь полную последовательность генома в качестве основы для понимания генетики и биологии любого данного организма.
Во многих отношениях геномные проекты не ограничиваются только определением последовательности ДНК организма. Такие проекты могут также включать в себя предсказание генов , чтобы выяснить, где в геноме находятся гены и что они делают. Также могут быть связанные проекты по секвенированию EST или мРНК, чтобы помочь выяснить, где на самом деле находятся гены.
Исторически сложилось так, что при секвенировании геномов эукариот (таких как червь Caenorhabditis elegans ) было обычным сначала составить карту генома, чтобы получить ряд ориентиров по всему геному. Вместо того, чтобы секвенировать хромосому за один раз, ее следует секвенировать по частям (с предварительным знанием того, где примерно этот фрагмент расположен на большей хромосоме). Изменения в технологии и, в частности, повышение вычислительной мощности компьютеров означают, что теперь геномы можно секвенировать за один раз (хотя у этого подхода есть оговорки по сравнению с традиционным подходом).
Усовершенствования в технологии секвенирования ДНК привели к тому, что стоимость секвенирования новой последовательности генома неуклонно снижается (с точки зрения стоимости пары оснований ), а новые технологии также означают, что геномы можно секвенировать гораздо быстрее.
Когда исследовательские агентства решают, какие новые геномы секвенировать, упор делается на виды, которые либо имеют большое значение в качестве модельного организма , либо имеют отношение к здоровью человека (например, патогенные бактерии или переносчики болезней, такие как комары ), либо виды, имеющие коммерческое значение ( например, патогенные бактерии или переносчики болезней, такие как комары ). например, домашний скот и сельскохозяйственные растения). Вторичный акцент делается на виды, чьи геномы помогут ответить на важные вопросы молекулярной эволюции (например, обыкновенный шимпанзе ).
В будущем, вероятно, секвенировать геном станет еще дешевле и быстрее. Это позволит определить полные последовательности генома многих разных особей одного и того же вида. Что касается людей, это позволит нам лучше понять аспекты генетического разнообразия человека .
У многих организмов есть проекты генома, которые либо уже завершены, либо будут завершены в ближайшее время, в том числе: