Инструмент профилирования последовательностей в биоинформатике — это тип программного обеспечения , которое представляет информацию, связанную с генетической последовательностью, именем гена или вводом ключевого слова. Такие инструменты обычно берут запрос, такой как последовательность ДНК , РНК или белка или «ключевое слово», и ищут в одной или нескольких базах данных информацию, связанную с этой последовательностью. Сводки и совокупные результаты предоставляются в стандартизированном формате, описывающем информацию, которая в противном случае потребовала бы посещения множества небольших сайтов или прямого поиска литературы для компиляции. Многие инструменты профилирования последовательностей представляют собой программные порталы или шлюзы, которые упрощают процесс поиска информации о запросе в большом и растущем количестве баз данных биоинформатики. Доступ к этим видам инструментов осуществляется либо через веб-сайт, либо локально загружаемыми исполняемыми файлами.
Эпоха «постгеномики » породила целый ряд веб-инструментов и программного обеспечения для компиляции, организации и предоставления больших объемов информации о первичных последовательностях , а также о структурах белков , аннотациях генов, выравниваниях последовательностей и других распространенных задачах биоинформатики.
В целом существует три типа баз данных и поставщиков услуг. Первый тип включает популярные общедоступные или открытые базы данных, поддерживаемые финансированием и грантами, такие как NCBI , ExPASy , Ensembl и PDB . Второй тип включает меньшие или более конкретные базы данных, организованные и составленные отдельными исследовательскими группами. Примерами являются база данных генома дрожжей, база данных РНК. Третий и последний тип включает частные корпоративные или институциональные базы данных, требующие оплаты или институциональной принадлежности для доступа. Такие примеры редки, учитывая глобализацию общедоступных баз данных, если только предполагаемая услуга не находится «в разработке» или конечная точка анализа не имеет коммерческой ценности.
Типичные сценарии подхода профилирования становятся актуальными, в частности, в случаях первых двух групп, где исследователи обычно хотят объединить информацию, полученную из нескольких источников об одном запросе или целевой последовательности. Например, пользователи могут использовать инструмент выравнивания и поиска последовательностей BLAST для идентификации гомологов интересующего их гена в других видах, а затем использовать эти результаты для поиска решенной структуры белка для одного из гомологов. Аналогичным образом они могут также захотеть узнать вероятную вторичную структуру мРНК , кодирующей интересующий ген, или продает ли компания конструкцию ДНК, содержащую этот ген. Инструменты профилирования последовательностей служат для автоматизации и интеграции процесса поиска такой разрозненной информации, делая процесс поиска в нескольких различных внешних базах данных прозрачным для пользователя.
Многие общедоступные базы данных уже широко связаны, так что дополнительная информация в другой базе данных легко доступна; например, Genbank и PDB тесно переплетены. Однако специализированные инструменты, организованные и размещенные определенными исследовательскими группами, могут быть трудно интегрировать в эти усилия по связыванию, поскольку они узконаправлены, часто изменяются или используют пользовательские версии общих форматов файлов. Преимущества инструментов профилирования последовательностей включают возможность использовать несколько из этих специализированных инструментов в одном запросе и представлять вывод с помощью общего интерфейса, возможность направлять вывод одного набора инструментов или поисков в базе данных на вход другого и возможность распространять обязательства по размещению и компиляции в сети исследовательских групп и учреждений, а не в одном централизованном репозитории.
Большинство инструментов профилирования, доступных сегодня в Интернете, попадают в эту категорию. Пользователь, посещая сайт/инструмент, вводит любую соответствующую информацию, например, ключевое слово, например, дистрофия, диабет и т. д., или номера доступа GenBank , идентификатор PDB. Все соответствующие результаты поиска представлены в формате, уникальном для основного фокуса каждого инструмента. Инструменты профилирования, основанные на поиске по ключевым словам, по сути, являются поисковыми системами , которые узкоспециализированы для работы в области биоинформатики, тем самым устраняя беспорядок нерелевантных или ненаучных результатов, которые могут возникнуть при использовании традиционной поисковой системы, такой как Google . Большинство инструментов профилирования, основанных на ключевых словах, допускают гибкие типы ввода ключевых слов, номера доступа из индексированных баз данных, а также традиционные дескрипторы ключевых слов.
Каждый инструмент профилирования имеет свою собственную направленность и область интересов. Например, поисковая система NCBI Entrez разделяет свои хиты по категориям, так что пользователи, ищущие информацию о структуре белка, могут отсеивать последовательности без соответствующей структуры, в то время как пользователи, заинтересованные в изучении литературы по теме, могут просматривать рефераты статей, опубликованных в научных журналах, не отвлекаясь на результаты генов или последовательностей. База данных литературы по биологическим наукам PubMed является популярным инструментом для поиска литературы, хотя эта служба почти равна более общей Google Scholar .
Сервисы агрегации данных на основе ключевых слов, такие как Bioinformatic Harvester , предоставляют отчеты с различных сторонних серверов в формате «как есть» , так что пользователям не нужно посещать веб-сайт или устанавливать программное обеспечение для каждой отдельной службы компонента. Это особенно бесценно, учитывая быстрое появление различных сайтов, предлагающих различные инструменты анализа и манипуляции последовательностями. Другой агрегированный веб-портал, Human Protein Reference Database ( Hprd ), содержит вручную аннотированные и курируемые записи для человеческих белков. Таким образом, предоставляемая информация является как выборочной, так и всеобъемлющей, а формат запроса гибким и интуитивно понятным. Плюсы разработки вручную курируемых баз данных включают представление проверенного материала и концепцию «молекулярных авторитетов», которые берут на себя ответственность за конкретные белки. Однако минусы в том, что они, как правило, медленнее обновляются и могут не содержать очень новых или спорных данных.
Типичный инструмент профилирования последовательностей расширяет это, используя фактическую последовательность ДНК, РНК или белка в качестве входных данных и позволяет пользователю посещать различные веб-инструменты анализа для получения желаемой информации. Такие инструменты также обычно поставляются с коммерческим лабораторным оборудованием, таким как секвенаторы генов, или иногда продаются как программные приложения для молекулярной биологии. В другом примере общедоступной базы данных отчет о поиске последовательностей BLAST от NCBI предоставляет ссылку из своего отчета о выравнивании на другую соответствующую информацию в своих собственных базах данных, если такая конкретная информация существует.
Например, извлеченная запись, содержащая последовательность человека, будет содержать отдельную ссылку, которая соединяет ее с ее местоположением на карте генома человека; запись, содержащая последовательность, для которой была решена трехмерная структура, будет содержать ссылку, которая соединяет ее с ее базой данных структур. Sequerome , инструмент публичного сервиса, связывает весь отчет BLAST со многими сторонними серверами/сайтами, которые предоставляют высокоспецифичные услуги по манипуляциям последовательностями, такими как карты рестриктаз , анализы открытых рамок считывания для последовательностей нуклеотидов и прогнозирование вторичной структуры . Инструмент обеспечивает дополнительное преимущество ведения журнала исследований операций, выполненных пользователем, который затем можно удобно архивировать с помощью функций «отправить по почте», «распечатать» или «сохранить». Таким образом, вся операция по исследованию последовательности с использованием различных исследовательских инструментов и, таким образом, доведение проекта до его завершения может быть выполнена в одном интерфейсе браузера. Следовательно, будущее поколение инструментов профилирования последовательностей будет включать возможность совместной работы в режиме онлайн с исследователями для обмена журналами проектов и исследовательскими инструментами, аннотирования результатов анализа последовательностей или лабораторных работ, настройки и автоматизации обработки наборов данных последовательностей и т. д. InstaSeq — это поисковый инструмент на базе Google, который позволяет пользователю напрямую вводить последовательность и выполнять поиск по всей Всемирной паутине. Эта уникальная поисковая система, которая является единственной в своем роде, отличается от поиска в определенных базах данных, например, GenBank .
В результате пользователь может получить документ, размещенный в частном порядке, или страницу из менее известной базы данных практически из любой точки мира. Хотя наличие профилировщиков на основе последовательностей в текущем сценарии крайне мало, их ключевая роль станет очевидной, когда огромные объемы данных последовательностей необходимо будет перекрестно обрабатывать на порталах и доменах.
Распространение биоинформатических инструментов для генетического анализа помогает исследователям в идентификации и категоризации генов и наборов генов, представляющих интерес для их работы; однако большое разнообразие инструментов, которые выполняют в значительной степени схожие агрегационные и аналитические функции, также может сбивать с толку и разочаровывать новых пользователей. Децентрализация, поощряемая агрегационными инструментами, позволяет отдельным исследовательским группам поддерживать специализированные серверы, предназначенные для определенных типов анализа данных, в ожидании того, что их вывод будет собран в более крупный отчет по гену или белку, представляющему интерес для других исследователей.
Данные, полученные в ходе экспериментов с микрочипами, двухгибридного скрининга и других высокопроизводительных биологических экспериментов, являются объемными и их трудно анализировать вручную; усилия структурных геномных коллабораций, направленные на быстрое решение большого количества разнообразных структур белков, также увеличивают потребность в интеграции между базами данных последовательностей и структур и порталами. Этот импульс к разработке более всеобъемлющих и более удобных для пользователя методов профилирования последовательностей делает это активной областью исследований среди современных исследователей геномики.