Геномные проекты — это научные начинания, которые в конечном итоге направлены на определение полной последовательности генома организма (будь то животное , растение , гриб , бактерия , архея , простейший или вирус ) и на аннотацию генов , кодирующих белок , и других важных особенностей, кодируемых геномом. [1] Последовательность генома организма включает коллективные последовательности ДНК каждой хромосомы в организме. Для бактерии , содержащей одну хромосому, геномный проект будет направлен на картирование последовательности этой хромосомы. Для человеческого вида, геном которого включает 22 пары аутосом и 2 половые хромосомы, полная последовательность генома будет включать 46 отдельных последовательностей хромосом.
Проект «Геном человека» — хорошо известный пример проекта по изучению генома. [2]
Сборка генома относится к процессу взятия большого количества коротких последовательностей ДНК и их повторной сборки для создания представления исходных хромосом , из которых произошла ДНК. В проекте дробового секвенирования вся ДНК из источника (обычно одного организма , от бактерии до млекопитающего ) сначала разбивается на миллионы маленьких кусочков. Затем эти кусочки «считываются» автоматизированными машинами для секвенирования. Алгоритм сборки генома работает, беря все кусочки и выравнивая их друг с другом, и обнаруживая все места, где две короткие последовательности, или прочтения , перекрываются. Эти перекрывающиеся прочтения можно объединить, и процесс продолжится.
Сборка генома — очень сложная вычислительная задача, которая усложняется тем, что многие геномы содержат большое количество идентичных последовательностей, известных как повторы . Эти повторы могут быть длиной в тысячи нуклеотидов и встречаться в разных местах, особенно в больших геномах растений и животных .
Результирующая (черновая) последовательность генома получается путем объединения секвенированных контигов информации и последующего использования связующей информации для создания каркасов. Каркасы располагаются вдоль физической карты хромосом, создавая «золотой путь».
Первоначально большинство крупных центров секвенирования ДНК разрабатывали собственное программное обеспечение для сборки полученных ими последовательностей. Однако это изменилось по мере усложнения программного обеспечения и увеличения числа центров секвенирования. Пример такого ассемблера Пакет анализа коротких олигонуклеотидов, разработанный BGI для сборки de novo человеческих геномов, выравнивания, обнаружения SNP , повторного секвенирования, поиска инделей и анализа структурных вариаций. [3] [4] [5]
Начиная с 1980-х годов молекулярная биология и биоинформатика создали потребность в аннотации ДНК . Аннотация ДНК или аннотация генома — это процесс идентификации и присоединения биологической информации к последовательностям , в частности, при идентификации местоположений генов и определении того, что делают эти гены.
При секвенировании генома обычно есть области, которые трудно секвенировать (часто области с высокой повторяемостью ДНК ). Таким образом, «завершенные» последовательности генома редко когда-либо бывают полными, и такие термины, как «рабочий проект» или «в основном завершенный», использовались для более точного описания статуса таких геномных проектов. Даже когда каждая пара оснований последовательности генома была определена, все равно, вероятно, будут присутствовать ошибки, поскольку секвенирование ДНК не является абсолютно точным процессом. Можно также утверждать, что полный геномный проект должен включать последовательности митохондрий и (для растений) хлоропластов, поскольку эти органеллы имеют свои собственные геномы.
Часто сообщается, что целью секвенирования генома является получение информации о полном наборе генов в этой конкретной последовательности генома. Доля генома, которая кодирует гены, может быть очень мала (особенно у эукариот , таких как люди, где кодирующая ДНК может составлять всего несколько процентов от всей последовательности). Однако не всегда возможно (или желательно) секвенировать только кодирующие области по отдельности. Кроме того, по мере того, как ученые больше узнают о роли этой некодирующей ДНК (часто называемой мусорной ДНК ), станет более важным иметь полную последовательность генома в качестве основы для понимания генетики и биологии любого данного организма.
Во многих отношениях геномные проекты не ограничиваются только определением последовательности ДНК организма. Такие проекты могут также включать предсказание генов , чтобы выяснить, где находятся гены в геноме и что эти гены делают. Могут также быть связанные проекты по секвенированию EST или мРНК, чтобы помочь выяснить, где на самом деле находятся гены.
Исторически сложилось так, что при секвенировании геномов эукариот (например, червя Caenorhabditis elegans ) было принято сначала картировать геном, чтобы обеспечить ряд ориентиров по всему геному. Вместо того, чтобы секвенировать хромосому за один раз, она секвенировалась бы по частям (с предварительным знанием приблизительного расположения этой части на более крупной хромосоме). Изменения в технологии и, в частности, улучшение вычислительной мощности компьютеров, означает, что геномы теперь можно « секвенировать дробовиком » за один раз (хотя есть оговорки по сравнению с традиционным подходом).
Усовершенствования в технологии секвенирования ДНК привели к тому, что стоимость секвенирования новой последовательности генома неуклонно снижалась (в пересчете на стоимость пары оснований ), а новые технологии также привели к тому, что геномы можно секвенировать гораздо быстрее.
Когда исследовательские агентства решают, какие новые геномы секвенировать, акцент делается на видах, которые либо имеют большое значение как модельные организмы , либо имеют отношение к здоровью человека (например, патогенные бактерии или переносчики болезней, такие как комары ), либо на видах, которые имеют коммерческое значение (например, домашний скот и сельскохозяйственные культуры). Вторичный акцент делается на видах, геномы которых помогут ответить на важные вопросы молекулярной эволюции (например, обыкновенный шимпанзе ).
В будущем, вероятно, станет еще дешевле и быстрее секвенировать геном. Это позволит определять полные последовательности генома у многих разных особей одного вида. Для людей это позволит нам лучше понять аспекты человеческого генетического разнообразия .
Геномные проекты многих организмов либо уже завершены, либо будут завершены в ближайшее время, в том числе: