Система астрофизических данных SAO/NASA ( ADS ) — это цифровой библиотечный портал для исследователей астрономии и физики , которым управляет Смитсоновская астрофизическая обсерватория для NASA . ADS поддерживает три библиографические коллекции, содержащие более 15 миллионов записей, включая все электронные издания arXiv . [1] Рефераты и полные тексты основных публикаций по астрономии и физике индексируются и доступны для поиска через портал.
Иоганн Фридрих Вейдлер опубликовал первую всеобъемлющую историю астрономии в 1741 году и первую астрономическую библиографию в 1755 году. Это была попытка архивировать и классифицировать более ранние астрономические знания и труды.
Эти усилия продолжил Жером де Лаланд , опубликовавший в 1803 году свою «Астрономическую библиографию» — труд, охватывающий период с 480 г. до н. э. до года публикации.
Общая библиотека астрономии, том I и том II , опубликованные Дж. К. Узо и А. Ланкастером, выпускались с 1882 по 1889 год. [2] [3]
По мере роста числа астрономов и астрономических публикаций библиографические усилия стали институциональными задачами, сначала в Королевской обсерватории Бельгии , где с 1881 по 1898 год публиковалась «Библиография астрономии» , а затем в Гейдельбергском астрономическом институте , где с 1899 по 1968 год публиковался ежегодный журнал «Astronomischer Jahresbericht» . После 1968 года его заменила ежегодная серия книг «Astronomy and Astrophysics Abstracts» , которая продолжалась до конца XX века.
Первое предложение о создании цифровой базы данных рефератов журнальных статей было сделано на конференции «Астрономия на основе больших баз данных», состоявшейся в Гархинге под Мюнхеном в 1987 году. [4] [5] [6] [7]
Первоначальная версия ADS с базой данных, состоящей из 40 статей, была создана в качестве доказательства концепции в 1988 году. ADS Abstract Service стала доступна для общего пользования через фирменное сетевое программное обеспечение в апреле 1993 года, и была подключена к SIMBAD несколько месяцев спустя. В начале 1994 года была запущена веб-служба ADS, которая фактически увеличила число активных пользователей в четыре раза за пять недель после ее внедрения. [8]
В 2011 году ADS запустила ADS Labs Streamlined Search, который представил фасеты для уточнения и выбора запросов. В 2013 году ADS Labs 2.0 начал показывать новую поисковую систему, функциональность полнотекстового поиска, масштабируемые фасеты и был представлен API. В 2015 году новый ADS под кодовым названием Bumblebee был выпущен как ADS-beta. Система ADS-beta включает API микросервисов и динамическую загрузку страниц на стороне клиента, обслуживаемую на облачной платформе. В мае 2018 года метка beta была снята, и Bumblebee стал интерфейсом ADS по умолчанию, при этом некоторые устаревшие функции (ADS Classic) остались доступными. [9] Разработка продолжается по сей день, доступен расширяемый API : позволяющий пользователям создавать собственные утилиты поверх библиографической записи ADS.
Служба ADS распространяется по всему миру с двенадцатью зеркальными сайтами в двенадцати странах и с базой данных, синхронизированной еженедельными обновлениями с помощью rsync , утилиты зеркалирования, которая позволяет обновлять только те части базы данных, которые были изменены. Все обновления запускаются централизованно, но они инициируют скрипты на зеркальных сайтах, которые «вытягивают» обновленные данные с основных серверов ADS. [10]
Сначала журнальные статьи, доступные через ADS, представляли собой исключительно отсканированные растровые изображения, созданные из бумажных журналов, и рефераты, созданные с помощью программного обеспечения для оптического распознавания символов . Некоторые из этих отсканированных статей до 1995 года доступны бесплатно по соглашению с издателями журналов [11] , а некоторые датируются еще началом 19 века. В конце концов, из-за более широкого распространения онлайн-изданий журнальных публикаций, рефераты начали загружаться в ADS напрямую.
Статьи индексируются в базе данных по их библиографической записи, которая содержит сведения о журнале, в котором они были опубликованы, и различные связанные метаданные , такие как списки авторов, ссылки и цитаты . Первоначально эти данные хранились в формате ASCII , но в конечном итоге ограничения этого формата побудили разработчиков базы данных перевести все записи в формат XML (Extensible Markup Language) в 2000 году. Библиографические записи теперь хранятся как элемент XML с подэлементами для различных метаданных. [10]
Отсканированные статьи хранятся в формате TIFF как со средним, так и с высоким разрешением . Файлы TIFF конвертируются по требованию в файлы GIF для просмотра на экране и файлы PDF или PostScript для печати. Затем сгенерированные файлы кэшируются, чтобы исключить ненужные частые повторные генерации для популярных статей. По состоянию на 2000 год ADS содержал 250 ГБ сканов, которые состояли из 1 128 955 страниц статей, включающих 138 789 статей. К 2005 году этот объем вырос до 650 ГБ и, как ожидалось, к 2007 году он вырастет примерно до 900 ГБ. [11] Дополнительная информация не была опубликована (2005).
База данных изначально содержала только астрономические ссылки, но теперь она выросла и включает три базы данных, охватывающие ссылки по астрономии (включая планетарные науки и физику Солнца), ссылки по физике (включая приборостроение и науки о Земле), а также препринты научных статей из arXiv . База данных по астрономии является самой продвинутой, и ее использование составляет около 85% от общего использования ADS. Статьи распределяются по разным базам данных в соответствии с предметом, а не журналом, в котором они опубликованы, так что статьи из любого журнала могут появляться во всех трех предметных базах данных. Разделение баз данных позволяет настраивать поиск в каждой дисциплине, так что словам можно автоматически присваивать разные весовые функции в разных поисках по базам данных в зависимости от того, насколько они распространены в соответствующей области. [10]
Данные в архиве препринтов ежедневно обновляются из arXiv, который является основным хранилищем препринтов по физике и астрономии. Появление серверов препринтов, как и ADS, оказало значительное влияние на темпы астрономических исследований, поскольку статьи часто становятся доступны с серверов препринтов за недели или месяцы до их публикации в журналах. Включение препринтов из arXiv в ADS означает, что поисковая система может возвращать самые последние доступные исследования с оговоркой, что препринты могли не быть рецензированы или вычитаны в соответствии с требуемым стандартом для публикации в основных журналах. База данных ADS связывает препринты с впоследствии опубликованными статьями, где это возможно, так что поиск по цитированию и ссылкам будет возвращать ссылки на журнальную статью, в которой был процитирован препринт. [12]
Программное обеспечение работает на системе, которая была написана специально для ADS, что позволяет производить обширную настройку для астрономических нужд, что было бы невозможно с помощью программного обеспечения баз данных общего назначения . Скрипты разработаны так, чтобы быть максимально независимыми от платформы , учитывая необходимость в содействии зеркалированию на различных системах по всему миру, хотя растущее использование Linux в качестве операционной системы по выбору в астрономии привело к увеличению оптимизации скриптов для установки на этой платформе. [10]
Основной сервер ADS расположен в Центре астрофизики | Гарвард и Смитсоновский институт в Кембридже, штат Массачусетс , и представляет собой двойной 64-разрядный сервер X86 Intel с двумя четырехъядерными процессорами 3,0 ГГц и 32 ГБ оперативной памяти , работающий под управлением дистрибутива CentOS 5.4 Linux . [11] По состоянию на 2022 год зеркала расположены в Китае, Чили, Франции, Германии, Японии, России, Великобритании и Украине. [13]
В настоящее время (2005) ADS получает рефераты или оглавления из почти двухсот журнальных источников. Служба может получать данные, ссылающиеся на одну и ту же статью из нескольких источников, и создает одну библиографическую ссылку на основе наиболее точных данных из каждого источника. Общее использование TeX и LaTeX почти всеми научными журналами значительно облегчает включение библиографических данных в систему в стандартизированном формате, а импорт HTML -кодированных веб-статей также прост. ADS использует скрипты Python и Perl для импорта, обработки и стандартизации библиографических данных. [10]
Кажущаяся обыденной задача преобразования имен авторов в стандартный формат Фамилия , Инициал на самом деле является одной из самых сложных для автоматизации из-за большого разнообразия соглашений об именах по всему миру и возможности того, что данное имя, такое как Дэвис, может быть именем , отчеством или фамилией. Точное преобразование имен требует детального знания имен авторов, работающих в области астрономии, и ADS поддерживает обширную базу данных имен авторов, которая также используется при поиске в базе данных (см. ниже).
Для электронных статей список ссылок, приведенный в конце статьи, легко извлекается. Для отсканированных статей извлечение ссылок основано на OCR. Затем справочную базу данных можно «инвертировать», чтобы составить список цитат для каждой статьи в базе данных. Списки цитат использовались в прошлом для определения популярных статей, отсутствующих в базе данных; в основном они были до 1975 года и теперь добавлены в систему.
В настоящее время база данных содержит более пятнадцати миллионов статей. В случае с основными журналами по астрономии ( Astrophysical Journal , Astronomical Journal , Astronomy and Astrophysics , Publications of the Astronomical Society of the Pacific и Monthly Notices of the Royal Astronomical Society ) охват полный, все выпуски индексированы с номера 1 по настоящее время. На эти журналы приходится около двух третей статей в базе данных, а остальная часть состоит из статей, опубликованных в более чем 100 других журналах со всего мира, а также в трудах конференций. [11]
Хотя база данных содержит полное содержание всех основных журналов, а также многих второстепенных, ее охват ссылок и цитат гораздо менее полон. Ссылки и цитаты статей в основных журналах довольно полны, но такие ссылки, как «частное общение», «в печати» или «в подготовке», не могут быть сопоставлены, а ошибки авторов в списках ссылок также вносят потенциальные ошибки. Астрономические статьи могут ссылаться и цитироваться статьями в журналах, которые выходят за рамки ADS, таких как журналы по химии , математике или биологии . [14]
С момента своего создания ADS разработала очень сложную поисковую систему для запросов к базам данных рефератов и объектов . Поисковая система специально разработана для поиска астрономических рефератов, а система и ее пользовательский интерфейс предполагают, что пользователь хорошо разбирается в астрономии и способен интерпретировать результаты поиска, которые предназначены для возврата большего, чем просто наиболее релевантных статей. Базу данных можно запрашивать по именам авторов, названиям астрономических объектов , словам в заголовках и словам в тексте реферата, а результаты можно фильтровать по ряду критериев. Сначала она собирает синонимы и упрощает поисковые термины, как описано выше, а затем создает «инвертированный файл», который представляет собой список всех документов, соответствующих каждому поисковому термину. Затем выбранная пользователем логика и фильтры применяются к этому инвертированному списку для генерации окончательных результатов поиска. [15]
Система индексирует имена авторов по фамилии и инициалам и учитывает возможные варианты написания имен с помощью списка вариантов. Это распространено в случае имен, включающих акценты, такие как умлауты и транслитерации с арабского или кириллического шрифта . Пример записи в списке синонимов автора:
Возможность поиска статей по конкретным астрономическим объектам является одним из самых мощных инструментов ADS. Система использует данные из SIMBAD , NASA/IPAC Extragalactic Database , International Astronomical Union Circulars и Lunar and Planetary Institute для идентификации статей, относящихся к заданному объекту, а также может выполнять поиск по положению объекта, перечисляя статьи, которые касаются объектов в радиусе 10 угловых минут от заданного прямого восхождения и склонения . Эти базы данных объединяют множество каталожных обозначений, которые может иметь объект, так что поиск по Плеядам также найдет статьи, в которых указано знаменитое рассеянное скопление в Тельце под любым из его других каталожных обозначений или популярных названий, таких как M45, Seven Sisters или Melotte 22. [16]
Поисковая система сначала фильтрует поисковые термины несколькими способами. Буква M, за которой следует пробел или дефис, удаляет пробел или дефис, так что поиск объектов каталога Мессье упрощается, а ввод пользователем M45, M 45 или M-45 приводит к выполнению одного и того же запроса; аналогично обозначения NGC и общие поисковые термины, такие как Shoemaker Levy и T Tauri, удаляются из пробелов. Неважные слова, такие как AT, OR и TO, удаляются, хотя в некоторых случаях сохраняется чувствительность к регистру , так что, хотя a nd игнорируется, A And преобразуется в « Andromeda », а H er преобразуется в « Hercules », но h er игнорируется. [17]
После предварительной обработки поисковых терминов база данных запрашивается с измененным поисковым термином, а также синонимами для него. Помимо простой замены синонимов , такой как поиск как множественного, так и единственного числа, ADS также ищет большое количество специально астрономических синонимов. Например, спектрограф и спектроскоп имеют в основном одно и то же значение, а в астрономическом контексте металличность и обилие также являются синонимами. Список синонимов ADS был создан вручную путем группировки списка слов в базе данных по схожим значениям. [10]
Помимо синонимов на английском языке , ADS также ищет английские переводы иностранных поисковых терминов и наоборот, так что поиск французского слова soleil возвращает ссылки на Sun , а статьи на языках, отличных от английского, могут быть возвращены по английским поисковым терминам.
При необходимости замену синонимов можно отключить, чтобы можно было искать редкий термин, являющийся синонимом гораздо более распространенного термина (например, « dateline », а не « date »).
Поисковая система позволяет использовать логику выбора как внутри полей, так и между полями. Поисковые термины в каждом поле можно комбинировать с OR, AND, простой логикой или булевой логикой , и пользователь может указать, какие поля должны совпадать в результатах поиска. Это позволяет строить сложные поиски; например, пользователь может искать статьи, касающиеся NGC 6543 ИЛИ NGC 7009 , с заголовками статей, содержащими (радиус ИЛИ скорость) И НЕ (обилие ИЛИ температура).
Результаты поиска можно фильтровать по ряду критериев, включая указание диапазона лет, например, «1945–1975», «2000–по настоящее время» или «до 1900», а также по типу журнала, в котором появляется статья, в [–] нерецензируемых статьях, например, в трудах конференций . Их можно исключить или искать специально, или можно включить или исключить из поиска конкретные журналы.
Хотя он был задуман как средство доступа к рефератам и статьям, ADS предоставляет значительный объем вспомогательной информации вместе с результатами поиска. Для каждого возвращенного реферата предоставляются ссылки на другие статьи в базе данных, на которые даны ссылки и которые цитируют статью, а также предоставляется ссылка на препринт, если таковой существует. Система также генерирует ссылку на «также читаемые» статьи – то есть те, к которым чаще всего обращались те, кто читал статью. Таким образом, пользователь ADS может определить, какие статьи представляют наибольший интерес для астрономов, интересующихся темой данной статьи. [15]
Также возвращаются ссылки на базы данных имен объектов SIMBAD и/или NASA Extragalactic Database , с помощью которых пользователь может быстро найти основные данные наблюдений об объектах, проанализированных в статье, а также найти дополнительные статьи об этих объектах.
ADS почти повсеместно используется в качестве исследовательского инструмента среди астрономов, и есть несколько исследований, которые количественно оценили, насколько более эффективной ADS сделала астрономию; одно из них подсчитало, что ADS увеличила эффективность астрономических исследований на 333 эквивалента штатных исследовательских лет в год, [8] а другое обнаружило, что в 2002 году ее эффект был эквивалентен 736 штатным исследователям или всем астрономическим исследованиям, проведенным во Франции. [18] ADS позволила выполнять поиск литературы, на который ранее уходили дни или недели, за считанные секунды, и, по оценкам, ADS увеличила читательскую аудиторию и использование астрономической литературы примерно в три раза с момента своего создания. [18]
В денежном выражении это увеличение эффективности представляет собой значительную сумму. Во всем мире насчитывается около 12 000 активных астрономических исследователей, поэтому ADS эквивалентна примерно 5% работающего населения астрономов. Глобальный астрономический исследовательский бюджет оценивается в 4 000–5 000 миллионов долларов США [19] , поэтому ценность ADS для астрономии составит около 200–250 миллионов долларов США в год. Его операционный бюджет составляет малую часть этой суммы. [18]
Огромное значение ADS для астрономов было признано Организацией Объединенных Наций , Генеральная Ассамблея которой похвалила ADS за ее работу и успехи, особенно отметив ее важность для астрономов в развивающихся странах, в докладах Комитета ООН по мирному использованию космического пространства . Между тем, в докладе 2002 года выездного комитета в Центр астрофизики говорилось, что служба «произвела революцию в использовании астрономической литературы» и была «вероятно самым ценным отдельным вкладом в астрономические исследования, который CfA сделал за время своего существования». [20]
Поскольку ADS используется почти повсеместно астрономами, она может многое рассказать о том, как распределены астрономические исследования по всему миру. Большинство пользователей получают доступ к системе из высших учебных заведений, чей IP-адрес можно легко использовать для определения географического местоположения пользователя. Исследования показывают, что самые высокие показатели пользователей ADS на душу населения — это астрономы из Франции и Нидерландов, и хотя более развитые страны (измеренные по ВВП на душу населения ) используют систему больше, чем менее развитые страны; связь между ВВП на душу населения и использованием ADS не линейна. Диапазон использования ADS на душу населения намного превышает диапазон ВВП на душу населения, и было обнаружено, что фундаментальные исследования, проводимые в стране, измеренные по использованию ADS, пропорциональны квадрату ВВП страны, деленному на ее население. [18] Статистика также подразумевает, что в странах европейской культуры примерно в три раза больше астрономов, чем в странах азиатской культуры , что, возможно, указывает на культурные различия в важности, придаваемой астрономическим исследованиям. [18] Обнаружено, что объем фундаментальных исследований, проводимых в стране, пропорционален числу астрономов в этой стране, умноженному на ее ВВП на душу населения, со значительным разбросом.
ADS также использовался для того, чтобы показать, что доля статей по астрономии с одним автором существенно сократилась с 1975 года, а статьи по астрономии с более чем 50 авторами стали более распространенными с 1990 года. [21]