stringtranslate.com

Дискавери Сеть

Discovery Net — один из первых примеров системы научных рабочих процессов , позволяющей пользователям координировать выполнение удаленных сервисов на основе стандартов веб-сервисов и Grid-сервисов (OGSA и Open Grid Services Architecture ). Система была разработана и внедрена в Имперском колледже Лондона в рамках пилотного проекта Discovery Net, финансируемого Британской программой электронной науки ( E-Science § UK program ). Многие из концепций, впервые предложенных Discovery Net, позже были включены во множество других систем научных рабочих процессов.

История

Система Discovery Net была разработана в рамках пилотного проекта Discovery Net (2001–2005 гг.), исследовательского проекта стоимостью 2 миллиона фунтов стерлингов, финансируемого EPSRC в рамках Программы электронной науки Великобритании ( E-Science § UK program ). Исследование проекта проводилось в Имперском колледже Лондона в сотрудничестве между факультетами вычислительной техники, физики, биохимии и наук о Земле и инженерии. Будучи проектом одного учреждения, этот проект был уникальным по сравнению с другими 10 пилотными проектами, финансируемыми EPSRC, которые все были многоинституциональными.

Целями проекта Discovery Net было исследование и решение ключевых проблем при разработке платформы электронной науки для научных открытий на основе данных, генерируемых широким спектром устройств с высокой пропускной способностью. Первоначально он рассматривал требования приложений в области наук о жизни, мониторинга геологических опасностей, моделирования окружающей среды и возобновляемых источников энергии. Проект успешно достиг всех своих целей, включая разработку платформы рабочих процессов Discovery Net и системы рабочих процессов. С годами система развивалась для решения задач во многих других областях, включая биоинформатику , химинформатику , медицинскую информатику , интеллектуальный анализ текста , а также финансовые и бизнес-приложения.

Система научного документооборота

Система Discovery Net, разработанная в рамках проекта, является одним из первых примеров систем научного документооборота . Это платформа электронной науки, основанная на модели рабочего процесса, поддерживающей интеграцию распределенных источников данных и аналитических инструментов, что позволяет конечным пользователям получать новые знания из устройств, датчиков, баз данных, компонентов анализа и вычислительных ресурсов, которые находятся в Интернете или сетка.

Сервер архитектуры и рабочих процессов

Система основана на многоуровневой архитектуре, где сервер рабочих процессов обеспечивает ряд вспомогательных функций, необходимых для разработки и выполнения рабочих процессов, таких как интеграция и доступ к удаленным вычислительным ресурсам и ресурсам данных, инструменты совместной работы, визуализаторы и механизмы публикации. Сама архитектура развивалась на протяжении многих лет, уделяя особое внимание внутреннему устройству сервера рабочих процессов (Ghanem et al. 2009) для поддержки расширяемости в нескольких доменах приложений, а также в различных средах выполнения.

Разработка визуального рабочего процесса

Рабочие процессы Discovery Net представляются и хранятся с помощью DPML (язык разметки процессов Discovery), языка представления на основе XML для графов рабочих процессов, поддерживающего как модель потока данных вычислений (для аналитических рабочих процессов), так и модель потока управления (для организации нескольких непересекающихся рабочих процессов). .

Как и большинство современных систем рабочего процесса, система поддерживала визуальный интерфейс с возможностью перетаскивания, позволяющий пользователям легко создавать свои приложения, соединяя узлы вместе.

В DPML каждый узел графа рабочего процесса представляет собой исполняемый компонент (например, вычислительный инструмент или оболочку, которая может извлекать данные из определенного источника данных). Каждый компонент имеет ряд параметров, которые может устанавливать пользователь, а также ряд входных и выходных портов для приема и передачи данных.

Каждое направленное ребро в графе представляет собой соединение выходного порта, а именно хвоста ребра, с входным портом, а именно головкой ребра. Порт подключен, если имеется одно или несколько подключений от/к этому порту. Кроме того, каждый узел графа предоставляет метаданные, описывающие входные и выходные порты компонента, включая тип данных, которые могут быть переданы компоненту, и параметры службы, которые пользователь может захотеть изменить. Такая информация используется для проверки рабочих процессов и обеспечения значимой цепочки компонентов. Соединение между входным и выходным портом допустимо только в том случае, если типы совместимы, что строго соблюдается.

Разделение потоков данных и управления

Ключевым преимуществом системы является четкое разделение потоков данных и моделей потока управления вычислениями в рамках научных рабочих процессов. Это достигается за счет концепции встраивания, позволяющей встраивать полные фрагменты потока данных в блочно-структурированные фрагменты конструкций потока управления. Это приводит как к более простым графам рабочих процессов по сравнению с другими системами научных рабочих процессов, например, Taverna Workbench и научной системой рабочих процессов Kepler , так и к возможности применять формальные методы для анализа их свойств.

Управление данными и несколько моделей данных

Ключевой особенностью системы стала поддержка управления данными внутри самого механизма рабочих процессов. Это важная особенность, поскольку научные эксперименты обычно генерируют и используют большие объемы гетерогенных и распределенных наборов данных. Таким образом, система была разработана для поддержки сохранения и кэширования промежуточных продуктов данных, а также для поддержки масштабируемого выполнения рабочих процессов над потенциально большими наборами данных с использованием удаленных вычислительных ресурсов.

Второй важный аспект системы Discovery Net основан на типизированном языке рабочего процесса и его расширяемости для поддержки произвольных типов данных, определяемых пользователем. Типизация данных упрощает разработку научных рабочих процессов, улучшает оптимизацию рабочих процессов и улучшает проверку ошибок для проверки рабочего процесса. Система включала ряд типов данных по умолчанию для поддержки интеллектуального анализа данных в различных научных приложениях. К ним относятся реляционная модель для табличных данных, модель биоинформатических данных ( FASTA ) для представления последовательностей генов и модель автономной разметки для интеллектуального анализа текста на основе архитектуры Tipster .

Каждая модель имеет связанный набор компонентов импорта и экспорта данных, а также специальные визуализаторы, которые интегрируются с универсальными инструментами импорта, экспорта и визуализации, уже присутствующими в системе. Например, химические соединения, представленные в широко используемом формате SMILES ( упрощенная спецификация ввода строки молекулярного ввода ), могут быть импортированы внутри таблиц данных, где они могут быть адекватно отображены с использованием либо трехмерного представления, либо его структурной формулы. Реляционная модель также служит базовой моделью данных для интеграции данных и используется для большинства общих задач очистки и преобразования данных.

Приложения

Система получила награду «Самое инновационное приложение для интенсивного использования данных» на конференции и выставке ACM SC02 (Supercomputing 2002) за счет демонстрации полностью интерактивного распределенного конвейера аннотаций генома для тематического исследования генома малярии. Многие функции системы (функции архитектуры, визуальный интерфейс, упрощенный доступ к удаленным веб- и грид-сервисам, а также включение хранилища рабочих процессов) в то время считались новыми и с тех пор нашли свое применение в других академических и коммерческих системах. и особенно функции, обнаруженные в системах управления рабочими процессами биоинформатики .

Помимо первоначального проекта Discovery Net, система использовалась в большом количестве научных приложений, например, в проекте BAIR: Биологический атлас резистентности к инсулину, финансируемом Wellcome Trust , а также в большом количестве проектов, финансируемых как EPSRC , так и BBSRC в Великобритании. Технология и система Discovery Net также превратились в коммерческие продукты благодаря дочерней компании Имперского колледжа InforSense Ltd, которая в дальнейшем расширила и применила систему в широком спектре коммерческих приложений, а также в рамках дальнейших исследовательских проектов, включая SIMDAT, TOPCOMBI, BRIDGE и АРГУРИД [ необходима цитация ] . [1]

Смотрите также

Рекомендации

  1. ^ «Начато новое партнерство для улучшения ИТ-аналитики | Imperial News | Имперский колледж Лондона» . Имперские новости . Проверено 25 апреля 2019 г.
  1. Ганем, М; Го, Ю; Роу, А; Вендел, П. (2002). «Сетевые службы обнаружения знаний для высокопроизводительной информатики». Материалы 11-го Международного симпозиума IEEE по высокопроизводительным распределенным вычислениям . п. 416. дои :10.1109/HPDC.2002.1029946. ISBN 0-7695-1686-6. S2CID  28782519.
  2. Чурчин, В; Ганем, М; Го, Ю; Келер, М; Роу, А; Сайед, Дж; Вендел, П. (2002). «Сеть Дискавери». Материалы восьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных - KDD '02 . стр. 658–63. дои : 10.1145/775047.775145. ISBN 1-58113-567-Х. S2CID  14652611.
  3. Джамиль Сайед, Мустафа Ганем, Йике Го. Процессы обнаружения: представление и повторное использование . Материалы Первой универсальной конференции Великобритании по электронной науке, Шеффилд, Великобритания. Сентябрь 2002 г.
  4. Николаос Яннадакис, Мустафа Ганем, Йике Го. Информационная интеграция для электронной науки . Материалы Первой универсальной конференции Великобритании по электронной науке, Шеффилд, Великобритания. Сентябрь 2002 г.
  5. Ганем, Мустафа М; Го, Йике; Лодхи, Хума; Чжан, Юн (2002). «Автоматическая классификация научных текстов с использованием локальных шаблонов». Информационный бюллетень об исследованиях ACM SIGKDD . 4 (2): 95. дои : 10.1145/772862.772876. S2CID  6328759.
  6. Роу, А; Калаитзопулос, Д; Осмонд, М; Ганем, М; Го, Ю (2003). «Сетевая система открытий для высокопроизводительной биоинформатики». Биоинформатика . 19 Приложение 1: i225–31. doi : 10.1093/биоинформатика/btg1031 . ПМИД  12855463.
  7. Альсайрафи, Салман; Эммануил, Филиппия-София; Ганем, Мустафа; Джаннадакис, Николаос; Го, Йике; Калаитзопулос, Димитриос; Осмонд, Мишель; Роу, Энтони; Сайед, Джамиль; Вендел, Патрик (2016). «Проект Discovery Net: на пути к открытым грид-сервисам для поиска знаний». Международный журнал приложений для высокопроизводительных вычислений . 17 (3): 297. дои : 10.1177/1094342003173003. S2CID  15707637.
  8. Джаннадакис, Николаос; Роу, Энтони; Ганем, Мустафа; Го, И-кэ (2003). «InfoGrid: Обеспечение интеграции информации для открытия знаний». Информационные науки . 155 (3–4): 199–226. дои : 10.1016/S0020-0255(03)00170-1.
  9. Мустафа Ганем, Йике Го, Энтони Роу. Интегрированный анализ данных и текста в поддержку биоинформатики . Материалы 3-й британской универсальной конференции по электронной науке AHM 2004, Ноттингем, Великобритания. Сентябрь 2004 г.
  10. Васа Курчин, Мустафа Ганем, Йике Го. Анализ атипичной пневмонии в Grid . Материалы 3-й британской универсальной конференции по электронной науке AHM 2004, Ноттингем, Великобритания. Сентябрь 2004 г.
  11. Питер Ау, ​​Васа Курчин, Мустафа Ганем, Николаос Яннадакис, Йике Го, Мохаммад Джафри, Мишель Осмонд, Энтони Роу, Джамиль Сайед, Патрик Вендел, Юн Чжан. Почему интеллектуальный анализ данных на основе Grid имеет значение? Борьба со стихийными бедствиями в сети: от атипичной пневмонии до оползней . Материалы 3-й Всеобщей конференции по электронной науке Великобритании AHM 2004. Сентябрь 2004 г.
  12. Курчин, В; Ганем, М; Йике Го; Роу, А; Он, В; Хао Пей; Лу Цян; Юаньюань Ли (2004). «Инфраструктура ИТ-сервисов для интегративной системной биологии». Международная конференция IEEE по вычислительным услугам , 2004 г. (SCC 2004). Слушания. 2004 . стр. 123–31. дои : 10.1109/SCC.2004.1357998. ISBN 0-7695-2225-4. S2CID  28687432.
  13. Мустафа Ганем, Васа Курчин, Йике Го, Нил Дэвис, Роб Гайзаускас, Йикунь Го, Хенк Харкема, Йен Робертс, Джонатан Рэтклифф. GoTag: пример использования общей инфраструктуры электронной науки Великобритании . 4-е собрание всех участников электронной науки Великобритании, 2005 г., сентябрь 2005 г.
  14. Нил Дэвис, Хенк Харкема, Роб Гайзаускас, Йикунь Го, Мустафа Ганем, Том Барнуэлл, Йике Го, Джонатан Рэтклифф. Три подхода к GO-маркировке биомедицинских рефератов . Материалы семинара CEUR. Апрель 2006 г.
  15. Ганем, Мустафа; Азам, Набиль; Бонифаций, Майк; Феррис, Джастин (2006). «Рабочие процессы с поддержкой Grid для проектирования промышленных изделий» (PDF) . 2006 Вторая международная конференция IEEE по электронной науке и грид-вычислениям (e-Science'06) . п. 96. дои :10.1109/E-SCIENCE.2006.261180. ISBN 0-7695-2734-5.
  16. Мустафа Ганем, Набиль Азам, Майк Бонифас. Взаимодействие рабочих процессов в Grid-системах . Cracow Grid Workshop 2006. Октябрь 2006 г.
  17. Васа Курчин, Мустафа Ганем, Йике Го, Костас Статис, Франческа Тони . Создание сервис-ориентированных архитектур нового поколения с использованием агентов аргументации . 3-я Международная конференция по проектированию и управлению сетевыми услугами (GSEM, 2006 г.). Спрингер Верлаг. Сентябрь 2006 г.
  18. Патрик Вендел, Арнольд Фунг, Мустафа Ганем, Йике Го. Разработка Grid-планировщика на основе Java с использованием стандартных сервисов . Материалы собрания всех участников электронной науки Великобритании, 2006 г. Ноттингем, Великобритания, сентябрь 2006 г.
  19. Цян Лу, Синьчжун Ли, Мустафа Ганем, Ике Го, Хайян Пан. Интеграция R в Discovery Net . Материалы Всеобщей встречи по электронной науке Великобритании, 2006 г. Сентябрь 2006 г.
  20. «CSDL | Компьютерное общество IEEE». doi :10.1109/E-SCIENCE.2006.17. S2CID  18097525. {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  21. Ричардс, М; Ганем, М; Осмонд, М; Го, Ю; Хассард, Дж (2006). «Сеточный анализ данных о загрязнении воздуха». Экологическое моделирование . 194 (1–3): 274–286. doi :10.1016/j.ecolmodel.2005.10.042.
  22. Сайед, Джамиль; Ганем, Мустафа; Го, Йике (2007). «Поддержка процессов научных открытий в Discovery Net». Параллелизм и вычисления: практика и опыт . 19 (2): 167. doi :10.1002/cpe.1049. S2CID  16212949.
  23. Васа Курчин, Мустафа Ганем, Йике Го, Джон Дарлингтон. Анализ побочных реакций на лекарства с помощью рабочих процессов электронной науки . Материалы 4-й Каирской международной биомедицинской инженерной конференции, 2008 г. CIBEC 2008. Декабрь 2008 г.
  24. Курчин, В; Ганем, М (2008). «Системы научных рабочих процессов – может ли один размер подойти всем?». 2008 Каирская международная конференция по биомедицинской инженерии . стр. 1–9. дои : 10.1109/CIBEC.2008.4786077. ISBN 978-1-4244-2694-2. S2CID  1885579.
  25. Ганем, Мустафа; Курчин, Васа; Вендел, Патрик; Го, Йике (2009). «Создание и использование аналитических рабочих процессов в Discovery Net». Методы интеллектуального анализа данных в средах грид-вычислений . стр. 119–39. дои : 10.1002/9780470699904.ch8. ISBN 978-0-470-69990-4.
  26. Курчин, Васа; Ганем, Мустафа М; Го, Йике (2009). «Анализ научных рабочих процессов с помощью логики вычислительного дерева». Кластерные вычисления . 12 (4): 399. doi :10.1007/s10586-009-0099-6. S2CID  12600641.
  27. Антье Вольф, Мартин Хофманн-Апитиус, Мустафа Ганем, Набиль Азам, Димитриос Калайцопулос, Кункян Ю, Винод Касам. DockFlow — прототип PharmaGrid для виртуального скрининга, объединяющий четыре различных инструмента стыковки . В Proceedings of HealthGrid 2009, том 147, стр. 3–12. Исследования в области медицинских технологий и информатики, май 2009 г.

Внешние ссылки