stringtranslate.com

Архивирование исследовательских данных

Архивирование исследовательских данных — это долгосрочное хранение данных научных исследований , включая естественные, социальные и биологические науки. Различные академические журналы придерживаются разной политики в отношении того, какой объем данных и методов исследователи должны хранить в публичном архиве, а то, что на самом деле архивируется, сильно различается в зависимости от разных дисциплин. Аналогичным образом, основные учреждения, предоставляющие гранты, по-разному относятся к публичному архивированию данных. В целом, в науке традиция заключалась в том, чтобы публикации содержали достаточно информации, позволяющей коллегам-исследователям воспроизвести и, следовательно, проверить исследование. В последние годы этот подход становится все более трудным, поскольку исследования в некоторых областях зависят от больших наборов данных, которые нелегко воспроизвести независимо.

Архивирование данных в некоторых областях более важно, чем в других. В некоторых областях все данные, необходимые для воспроизведения работы, уже доступны в журнальной статье. При разработке лекарств генерируется большой объем данных, которые необходимо архивировать, чтобы исследователи могли убедиться, что отчеты, публикуемые фармацевтическими компаниями, точно отражают данные.

Требование архивирования данных является недавним явлением в истории науки . Это стало возможным благодаря достижениям в области информационных технологий , позволяющим хранить большие объемы данных и получать к ним доступ из центральных мест. Например, Американский геофизический союз (AGU) принял свою первую политику архивирования данных в 1993 году, примерно через три года после начала WWW . [1] Эта политика требует, чтобы наборы данных, цитируемые в документах AGU, архивировались признанным центром обработки данных; он позволяет создавать «документы данных»; и он определяет роль AGU в поддержании архивов данных. Но он не требует от авторов статей архивировать свои данные.

Прежде чем организовать архивирование данных, исследователи, желающие оценить или воспроизвести статью, должны будут запросить у автора информацию о данных и методах. Академическое сообщество ожидает, что авторы поделятся дополнительными данными . Этот процесс был признан бесполезной тратой времени и энергии и дал неоднозначные результаты. Информация может быть потеряна или повреждена с течением времени. В некоторых случаях авторы просто отказываются предоставлять информацию.

Потребность в архивировании данных и комплексной проверке значительно возрастает, когда исследования касаются вопросов здравоохранения или формирования государственной политики. [2] [3]

Избранные политики по журналам

Биотропика

В качестве условия публикации Biotropica требует, чтобы данные, подтверждающие результаты статьи, и метаданные, описывающие их, были заархивированы в соответствующем общедоступном архиве, таком как Dryad, Figshare, GenBank, TreeBASE или NCBI. Авторы могут сделать данные общедоступными сразу после публикации статьи или, если позволяет технология архива, запретить доступ к данным в течение трех лет после публикации статьи. Заявление о доступности данных будет включено в рукопись, как описано в инструкциях для авторов. Исключения из обязательного архивирования данных могут быть предоставлены по усмотрению главного редактора для исследований, которые включают конфиденциальную информацию (например, местонахождение исчезающих видов). Нашу редакционную статью, объясняющую мотивацию этой политики, можно найти здесь. Более полный список хранилищ данных доступен здесь.Продвижение культуры сотрудничества с исследователями, которые собирают и архивируют данные: данные, собираемые тропическими биологами, часто требуют долгосрочного, сложного и дорогостоящего сбора. Совет редакторов Biotropica настоятельно рекомендует авторам, повторно использующим архивные наборы данных, включать в качестве полноправных соавторов ученых, которые первоначально их собрали. Мы считаем, что это значительно повысит качество и влияние итогового исследования, опираясь на глубокое понимание сборщиком данных естественной истории исследовательской системы, снижая риск ошибок в новых анализах и стимулируя междисциплинарное и межкультурное взаимодействие. сотрудничество и обучение, благодаря которым ATBC и Biotropica получили широкое признание.

Примечание: Biotropica — один из двух журналов, который платит гонорары авторам, размещающим данные в Dryad.

Американский натуралист

Журнал «Американский натуралист» требует, чтобы авторы помещали данные, связанные с принятыми статьями, в публичный архив. Для данных о последовательностях генов и филогенетических деревьевтребуется размещение в GenBank или TreeBASE соответственно. Существует множество возможных архивов, которые могут соответствовать определенному набору данных, включая хранилище Dryad для данных по экологической и эволюционной биологии. Все учетные номера для GenBank, TreeBASE и Dryad должны быть включены в принятые рукописи, прежде чем они пойдут в производство. Если данные хранятся где-то еще, дайте ссылку. Если данные взяты из опубликованной литературы, поместите сопоставленные данные в Dryad для удобства ваших читателей. Любые препятствия для обмена данными должны быть доведены до сведения редакторов во время подачи, чтобы можно было разработать соответствующие меры. [4]

Журнал наследственности

Первичные данные, лежащие в основе выводов статьи, имеют решающее значение для проверяемости и прозрачности научного предприятия и должны сохраняться в пригодной для использования форме на десятилетия в будущем. По этой причине журнал «Наследственность» требует, чтобы вновь сообщенные нуклеотидные или аминокислотные последовательности и структурные координаты были представлены в соответствующие общедоступные базы данных (например, GenBank; база данных нуклеотидных последовательностей EMBL; база данных ДНК Японии; банк данных белков ; и швейцарский банк данных ). -Прот ). Инвентарные номера должны быть включены в окончательную версию рукописи. Что касается других форм данных (например, микросателлитных генотипов, карт связей, изображений), журнал поддерживает принципы Объединенной политики архивирования данных (JDAP), поощряя всех авторов архивировать первичные наборы данных в соответствующих общедоступных архивах, таких как Dryad, TreeBASE. или Сеть знаний по биосложности. Авторам рекомендуется сделать данные общедоступными во время публикации или, если позволяет технология архива, запретить доступ к данным на период до года после публикации. Американская генетическая ассоциация также признает огромные инвестиции отдельных исследователей в создание и обработку больших наборов данных. Следовательно, мы рекомендуем уважать эти инвестиции во вторичном анализе или метаанализе в духе доброжелательного сотрудничества.

—  oxfordjournals.org [5]

Молекулярная экология

Молекулярная экология предполагает, что данные, подтверждающие результаты статьи, должны быть заархивированы в соответствующем общедоступном архиве, таком как GenBank, Gene Expression Omnibus , TreeBASE, Dryad, Сеть знаний по биосложности, ваш собственный институциональный или спонсорский репозиторий, или в качестве вспомогательной информации по веб-сайт молекулярной экологии. Данные являются важным продуктом научной деятельности, и их следует сохранять и использовать в течение десятилетий. Авторы могут сделать данные общедоступными на момент публикации или, если позволяет технология архива, могут запретить доступ к данным на период до года после публикации. Исключения могут быть предоставлены по усмотрению редактора, особенно в отношении конфиденциальной информации, такой как данные о людях или местонахождении видов, находящихся под угрозой исчезновения.

—  Уайли [6]

Природа

Такие материалы должны быть размещены на аккредитованном независимом сайте (URL-адрес и инвентарные номера должны быть предоставлены автором) или отправлены в журнал Nature при подаче, либо загружены через онлайн-службу журнала, либо, если файлы слишком велики или неподходящий для этого формат, на CD/DVD (пять копий). Такие материалы не могут размещаться исключительно на личном или институциональном веб-сайте автора. [7] Nature требует от рецензента определить, все ли дополнительные данные и методы заархивированы. Политика рекомендует рецензентам рассмотреть несколько вопросов, в том числе: «Следует ли просить авторов предоставить дополнительные методы или данные для сопровождения статьи в Интернете? (Такие данные могут включать исходный код для исследований по моделированию, подробные экспериментальные протоколы или математические выводы.)

—  Природа [8]

Наука

Наука поддерживает усилия баз данных, объединяющих опубликованные данные для использования научным сообществом. Поэтому перед публикацией большие наборы данных (включая данные микрочипов, последовательности белков или ДНК, а также координаты атомов или карты электронной микроскопии макромолекулярных структур) должны быть депонированы в утвержденную базу данных, а инвентарный номер должен быть указан для включения в опубликованную статью. [9] «Материалы и методы». Наука теперь требует, чтобы авторы, как правило, размещали большую часть своих описаний материалов и методов в Интернете в качестве вспомогательного материала, предоставляя в печатной рукописи только столько описаний методов, сколько необходимо для следования логике. текста. (Очевидно, что это ограничение не будет применяться, если статья представляет собой фундаментальное исследование нового метода или техники.)

—  Наука [10]

Королевское общество

Чтобы другие могли проверить и развить работу, опубликованную в журналах Королевского общества , условием публикации является то, что авторы предоставляют данные, коды и исследовательские материалы, подтверждающие результаты статьи.

Наборы данных и код должны храниться в соответствующем общедоступном репозитории. Если репозитория для конкретных данных не существует, авторы должны поместить свои наборы данных в общий репозиторий, такой как Dryad (репозиторий) или Figshare .

Журнал археологической науки

В Журнале археологических наук действует политика раскрытия данных, по крайней мере, с 2013 года. Их политика гласит, что «все данные, относящиеся к статье, должны быть доступны в дополнительных файлах или размещены во внешних репозиториях и связаны с ними внутри статьи». Политика рекомендует хранить данные в таком хранилище, как Служба археологических данных , Цифровая археологическая запись или PANGEA . Исследование 2018 года показало, что уровень доступности данных составляет 53%, что отражает либо слабое соблюдение этой политики, либо неполное понимание редакторами, рецензентами и авторами того, как интерпретировать и реализовывать эту политику. [12]

Политика финансирующих агентств

В США Национальный научный фонд (NSF) ужесточил требования к архивированию данных. Исследователи, претендующие на финансирование от NSF, теперь обязаны подать план управления данными в качестве двухстраничного приложения к заявке на грант. [13]

Инициатива NSF Datanet привела к финансированию проекта Сети наблюдения за данными для Земли ( DataONE ), который обеспечит архивирование научных данных для экологических и экологических данных, полученных учеными со всего мира. Заявленная цель DataONE — сохранить и предоставить доступ к многомасштабным, междисциплинарным и многонациональным данным. Сообщество пользователей DataONE включает ученых, менеджеров экосистем, политиков, студентов, преподавателей и общественность.

Немецкий DFG требует, чтобы данные исследования хранились в собственном учреждении исследователя или в соответствующей общенациональной инфраструктуре в течение как минимум 10 лет. [14]

Британский цифровой кураторский центр предоставляет обзор политики спонсоров в отношении данных. [15]

Библиотека данных

Репозиторий данных и хранилище архивов

Данные исследований архивируются в библиотеках данных или архивах данных . Библиотека данных , архив данных или хранилище данных — это набор наборов числовых и/или геопространственных данных для вторичного использования в исследованиях. Библиотека данных обычно является частью более крупного учреждения (академического, корпоративного, научного, медицинского, государственного и т. д.). создан для архивирования исследовательских данных и обслуживания пользователей данных этой организации. Библиотека данных обычно содержит локальные коллекции данных и обеспечивает доступ к ним различными способами ( CD- / DVD -ROM или центральный сервер для загрузки). Библиотека данных также может поддерживать подписку на лицензированные ресурсы данных, чтобы ее пользователи могли получить доступ к информации. Будет ли библиотека данных также считаться архивом данных, может зависеть от размера уникальных фондов в коллекции, предлагаются ли услуги долгосрочного хранения и служит ли она более широкому сообществу (как это делают национальные архивы данных). Большинство общедоступных библиотек данных внесены в Реестр хранилищ исследовательских данных .

Важность и услуги

В августе 2001 года Ассоциация исследовательских библиотек (ARL) опубликовала отчет [16], в котором представлены результаты опроса учреждений-членов ARL, занимающихся сбором и предоставлением услуг для ресурсов числовых данных.

Библиотечная служба, обеспечивающая поддержку на институциональном уровне использования числовых и других типов наборов данных в исследованиях. Среди обычно доступных видов поддержки:

Примеры библиотек данных

Естественные науки

Следующий список относится к архивам научных данных.

Социальные науки

В социальных науках библиотеки данных называются архивами данных. [17] Архивы данных — это профессиональные учреждения, занимающиеся сбором, подготовкой, сохранением и распространением социальных и поведенческих данных. Архивы данных в социальных науках возникли в 1950-х годах и были восприняты как международное движение:

К 1964 году Международный совет социальных наук (ISSC) спонсировал вторую конференцию по архивам данных социальных наук и имел постоянный комитет по данным социальных наук, что стимулировало движение архивов данных. К началу двадцать первого века большинство развитых стран и некоторые развивающиеся страны организовали формальные и хорошо функционирующие национальные архивы данных. Кроме того, в кампусах колледжей и университетов часто имеются «библиотеки данных», которые предоставляют данные преподавателям, сотрудникам и студентам; большинство из них несут минимальную ответственность за архивирование, полагаясь на национальное учреждение (Rockwell, 2001, стр. 3227). [18]

Смотрите также

Рекомендации

  1. ^ «Политика ссылки на данные и архивирования данных для публикаций AGU» [1]
  2. ^ «Аргументы в пользу комплексной проверки, когда эмпирические исследования используются при формировании политики» Брюса Маккалоу и Росс МакКитрик. [2]
  3. ^ «Обмен данными и репликация», веб-сайт Гэри Кинга. Архивировано 28 марта 2007 г. в Wayback Machine.
  4. ^ Подтверждающие данные и материалы
  5. ^ Политика архивирования данных
  6. ^ Политика архивирования данных
  7. ^ «Доступность данных и материалов: политика журнала Nature».
  8. ^ «Руководство по политике публикаций журналов о природе» (PDF) . 14 марта 2007 г.
  9. ^ "Общая политика журнала Science"
  10. ^ «Подготовка вспомогательных онлайн-материалов»
  11. ^ «Обмен данными и майнинг»
  12. ^ Марвик, Бен; Берч, Сюзанна Э. Пилаар (5 апреля 2018 г.). «Стандарт научного цитирования археологических данных как стимул к обмену данными». Достижения археологической практики . 6 (2): 125–143. дои : 10.1017/aap.2018.3 .
  13. ^ «NSF запросит у каждого соискателя гранта план управления данными»
  14. ^ «Руководство DFG по обработке исследовательских данных»
  15. ^ «Обзор политики использования данных спонсоров | Центр цифрового курирования»
  16. ^ SPEC Kit 263: Продукты и услуги для числовых данных
  17. ^ Уайт, Ховард Д. (1977). Машиночитаемые данные социальных наук. Ежеквартальный журнал библиотеки Дрекселя , 13 (январь 1977 г.): 1-110.
  18. ^ Роквелл, RC (2001). Архивы данных: Международный. IN: Смелзер, Нью-Джерси и Балтес, П.Б. (ред.) Международная энциклопедия социальных и поведенческих наук (том 5, стр. 3225–3230). Амстердам: Эльзевир

Примечания

дальнейшее чтение

Внешние ссылки

Ассоциации