Дискавери Сеть

Discovery Net — один из первых примеров системы научных рабочих процессов , позволяющей пользователям координировать выполнение удаленных сервисов на основе стандартов веб-сервисов и Grid-сервисов (OGSA и Open Grid Services Architecture ). Система была разработана и внедрена в Имперском колледже Лондона в рамках пилотного проекта Discovery Net, финансируемого Британской программой электронной науки ( E-Science § UK program ). Многие из концепций, впервые предложенных Discovery Net, позже были включены во множество других систем научных рабочих процессов.

История

Система Discovery Net была разработана в рамках пилотного проекта Discovery Net (2001–2005 гг.), исследовательского проекта стоимостью 2 миллиона фунтов стерлингов, финансируемого EPSRC в рамках Программы электронной науки Великобритании ( E-Science § UK program ). Исследование проекта проводилось в Имперском колледже Лондона в сотрудничестве между факультетами вычислительной техники, физики, биохимии и наук о Земле и инженерии. Будучи проектом одного учреждения, этот проект был уникальным по сравнению с другими 10 пилотными проектами, финансируемыми EPSRC, которые все были многоинституциональными.

Целями проекта Discovery Net было исследование и решение ключевых проблем при разработке платформы электронной науки для научных открытий на основе данных, генерируемых широким спектром устройств с высокой пропускной способностью. Первоначально он рассматривал требования приложений в области наук о жизни, мониторинга геологических опасностей, моделирования окружающей среды и возобновляемых источников энергии. Проект успешно достиг всех своих целей, включая разработку платформы рабочих процессов Discovery Net и системы рабочих процессов. С годами система развивалась для решения задач во многих других областях, включая биоинформатику , химинформатику , медицинскую информатику , интеллектуальный анализ текста , а также финансовые и бизнес-приложения.

Система научного документооборота

Система Discovery Net, разработанная в рамках проекта, является одним из первых примеров систем научного документооборота . Это платформа электронной науки, основанная на модели рабочего процесса, поддерживающей интеграцию распределенных источников данных и аналитических инструментов, что позволяет конечным пользователям получать новые знания из устройств, датчиков, баз данных, компонентов анализа и вычислительных ресурсов, которые находятся в Интернете или сетка.

Сервер архитектуры и рабочих процессов

Система основана на многоуровневой архитектуре, где сервер рабочих процессов обеспечивает ряд вспомогательных функций, необходимых для разработки и выполнения рабочих процессов, таких как интеграция и доступ к удаленным вычислительным ресурсам и ресурсам данных, инструменты совместной работы, визуализаторы и механизмы публикации. Сама архитектура развивалась на протяжении многих лет, уделяя особое внимание внутреннему устройству сервера рабочих процессов (Ghanem et al. 2009) для поддержки расширяемости в нескольких доменах приложений, а также в различных средах выполнения.

Разработка визуального рабочего процесса

Рабочие процессы Discovery Net представляются и хранятся с помощью DPML (язык разметки процессов Discovery), языка представления на основе XML для графов рабочих процессов, поддерживающего как модель потока данных вычислений (для аналитических рабочих процессов), так и модель потока управления (для организации нескольких непересекающихся рабочих процессов). .

Как и большинство современных систем рабочего процесса, система поддерживала визуальный интерфейс с возможностью перетаскивания, позволяющий пользователям легко создавать свои приложения, соединяя узлы вместе.

В DPML каждый узел графа рабочего процесса представляет собой исполняемый компонент (например, вычислительный инструмент или оболочку, которая может извлекать данные из определенного источника данных). Каждый компонент имеет ряд параметров, которые может устанавливать пользователь, а также ряд входных и выходных портов для приема и передачи данных.

Каждое направленное ребро в графе представляет собой соединение выходного порта, а именно хвоста ребра, с входным портом, а именно головкой ребра. Порт подключен, если имеется одно или несколько подключений от/к этому порту. Кроме того, каждый узел графа предоставляет метаданные, описывающие входные и выходные порты компонента, включая тип данных, которые могут быть переданы компоненту, и параметры службы, которые пользователь может захотеть изменить. Такая информация используется для проверки рабочих процессов и обеспечения значимой цепочки компонентов. Соединение между входным и выходным портом допустимо только в том случае, если типы совместимы, что строго соблюдается.

Разделение потоков данных и управления

Ключевым преимуществом системы является четкое разделение потоков данных и моделей потока управления вычислениями в рамках научных рабочих процессов. Это достигается за счет концепции встраивания, позволяющей встраивать полные фрагменты потока данных в блочно-структурированные фрагменты конструкций потока управления. Это приводит как к более простым графам рабочих процессов по сравнению с другими системами научных рабочих процессов, например, Taverna Workbench и научной системой рабочих процессов Kepler , так и к возможности применять формальные методы для анализа их свойств.

Управление данными и несколько моделей данных

Ключевой особенностью системы стала поддержка управления данными внутри самого механизма рабочих процессов. Это важная особенность, поскольку научные эксперименты обычно генерируют и используют большие объемы гетерогенных и распределенных наборов данных. Таким образом, система была разработана для поддержки сохранения и кэширования промежуточных продуктов данных, а также для поддержки масштабируемого выполнения рабочих процессов над потенциально большими наборами данных с использованием удаленных вычислительных ресурсов.

Второй важный аспект системы Discovery Net основан на типизированном языке рабочего процесса и его расширяемости для поддержки произвольных типов данных, определяемых пользователем. Типизация данных упрощает разработку научных рабочих процессов, улучшает оптимизацию рабочих процессов и улучшает проверку ошибок для проверки рабочего процесса. Система включала ряд типов данных по умолчанию для поддержки интеллектуального анализа данных в различных научных приложениях. К ним относятся реляционная модель для табличных данных, модель биоинформатических данных ( FASTA ) для представления последовательностей генов и модель автономной разметки для интеллектуального анализа текста на основе архитектуры Tipster .

Каждая модель имеет связанный набор компонентов импорта и экспорта данных, а также специальные визуализаторы, которые интегрируются с универсальными инструментами импорта, экспорта и визуализации, уже присутствующими в системе. Например, химические соединения, представленные в широко используемом формате SMILES ( упрощенная спецификация ввода строки молекулярного ввода ), могут быть импортированы внутри таблиц данных, где они могут быть адекватно отображены с использованием либо трехмерного представления, либо его структурной формулы. Реляционная модель также служит базовой моделью данных для интеграции данных и используется для большинства общих задач очистки и преобразования данных.

Приложения

Система получила награду «Самое инновационное приложение для интенсивного использования данных» на конференции и выставке ACM SC02 (Supercomputing 2002) за счет демонстрации полностью интерактивного распределенного конвейера аннотаций генома для тематического исследования генома малярии. Многие функции системы (функции архитектуры, визуальный интерфейс, упрощенный доступ к удаленным веб- и грид-сервисам, а также включение хранилища рабочих процессов) в то время считались новыми и с тех пор нашли свое применение в других академических и коммерческих системах. и особенно функции, обнаруженные в системах управления рабочими процессами биоинформатики .

Помимо первоначального проекта Discovery Net, система использовалась в большом количестве научных приложений, например, в проекте BAIR: Биологический атлас резистентности к инсулину, финансируемом Wellcome Trust , а также в большом количестве проектов, финансируемых как EPSRC , так и BBSRC в Великобритании. Технология и система Discovery Net также превратились в коммерческие продукты благодаря дочерней компании Имперского колледжа InforSense Ltd, которая в дальнейшем расширила и применила систему в широком спектре коммерческих приложений, а также в рамках дальнейших исследовательских проектов, включая SIMDAT, TOPCOMBI, BRIDGE и АРГУРИД ^{[ необходима цитация ]} . ^[1]

Смотрите также

Апач Таверна

Внешние ссылки

Список пилотных проектов в области электронной науки, финансируемых EPSRC «https://web.archive.org/web/20100723012926/http://www.epsrc.ac.uk/about/progs/rii/escience/Pages/fundedprojects. аспкс"
SIMDAT «http://www.simdat.org/».
Проект BRIDGE "http://www.bridge-grid.eu/. Архивировано 20 февраля 2008 г. в Wayback Machine ".
Проект ARGUGRID «http://www.argugrid.eu/. Архивировано 6 сентября 2010 г. в Wayback Machine ».
Проект BAIR: «https://web.archive.org/web/20100430111119/http://www.bair.org.uk/»
ООО «ИнфорСенс» «https://web.archive.org/web/20100328015758/http://www.inforsense.com/»