Астроинформатика — междисциплинарная область исследований, включающая в себя сочетание астрономии , науки о данных , машинного обучения , информатики и информационно - коммуникационных технологий. [2] [3] Эта область тесно связана с астростатистикой .
Астрономия, управляемая данными ( DDA ), относится к использованию науки о данных в астрономии . Принимаются во внимание несколько результатов телескопических наблюдений и обзоров неба , а подходы, связанные с добычей данных и управлением большими данными, используются для анализа, фильтрации и нормализации набора данных , которые в дальнейшем используются для создания классификаций, прогнозов и обнаружения аномалий с помощью передовых статистических подходов , цифровой обработки изображений и машинного обучения . Результаты этих процессов используются астрономами и космическими учеными для изучения и выявления закономерностей, аномалий и движений в космическом пространстве, а также для заключения теорий и открытий в космосе .
Астроинформатика в первую очередь сосредоточена на разработке инструментов, методов и приложений вычислительной науки , науки о данных , машинного обучения и статистики для исследований и образования в области астрономии, ориентированной на данные. [2] Ранние усилия в этом направлении включали обнаружение данных , разработку стандартов метаданных , моделирование данных , разработку словаря астрономических данных , доступ к данным , поиск информации , [4] интеграцию данных и добычу данных [5] в инициативах астрономической виртуальной обсерватории . [6] [7] [8] Дальнейшее развитие области, наряду с одобрением астрономического сообщества, было представлено Национальному исследовательскому совету (США) в 2009 году в позиционном документе «состояние профессии» астроинформатики для Десятилетнего обзора астрономии и астрофизики 2010 года . [9] Этот позиционный документ послужил основой для последующего более подробного изложения области в статье журнала Informatics Journal «Астроинформатика: исследования и образование в области астрономии, ориентированные на данные» . [2]
Астроинформатика как отдельная область исследований была вдохновлена работами в области геоинформатики , химинформатики , биоинформатики , а также работой в области электронных наук [10] Джима Грея (ученого-компьютерщика) из Microsoft Research , чье наследие было отмечено и продолжено премией Джима Грея в области электронных наук [11] .
Хотя основное внимание астроинформатики уделяется большой всемирной распределенной коллекции цифровых астрономических баз данных, архивов изображений и исследовательских инструментов, область признает важность устаревших наборов данных, а также использование современных технологий для сохранения и анализа исторических астрономических наблюдений. Некоторые специалисты по астроинформатике помогают оцифровывать исторические и недавние астрономические наблюдения и изображения в большой базе данных для эффективного поиска через веб -интерфейсы. [3] [12] Другая цель — помочь разработать новые методы и программное обеспечение для астрономов, а также помочь облегчить процесс и анализ быстро растущего объема данных в области астрономии. [13]
Астроинформатика описывается как «четвертая парадигма» астрономических исследований. [14] Существует много областей исследований, связанных с астроинформатикой, таких как интеллектуальный анализ данных, машинное обучение, статистика, визуализация, управление научными данными и семантическая наука. [7] Интеллектуальный анализ данных и машинное обучение играют важную роль в астроинформатике как научной исследовательской дисциплине из-за их фокуса на «извлечении знаний из данных» (KDD) и «обучении на основе данных». [15] [16]
Объем данных, собранных в ходе астрономических обзоров неба, вырос с гигабайт до терабайт за последнее десятилетие и, как прогнозируется, вырастет в следующем десятилетии до сотен петабайт с Большим синоптическим обзорным телескопом и до эксабайт с Square Kilometre Array . [17] Это изобилие новых данных как позволяет, так и бросает вызов эффективным астрономическим исследованиям. Поэтому требуются новые подходы. Отчасти из-за этого наука, основанная на данных, становится признанной академической дисциплиной. Следовательно, астрономия (и другие научные дисциплины) развивают информационно-интенсивные и информационно-интенсивные субдисциплины до такой степени, что эти субдисциплины теперь становятся (или уже стали) автономными исследовательскими дисциплинами и полноценными академическими программами. Хотя многие учебные заведения не могут похвастаться программой по астроинформатике, такие программы, скорее всего, будут разработаны в ближайшем будущем.
Информатика недавно была определена как «использование цифровых данных, информации и связанных с ними услуг для исследований и генерации знаний». Однако обычное или общеупотребительное определение таково: «Информатика — это дисциплина организации, доступа, интеграции и извлечения данных из множества источников для обнаружения и поддержки принятия решений». Таким образом, дисциплина астроинформатики включает в себя множество специальностей, связанных с природой, включая моделирование данных, организацию данных и т. д. Она также может включать методы преобразования и нормализации для интеграции данных и визуализации информации, а также методы извлечения знаний, индексации, поиска информации и методов извлечения данных. Схемы классификации (например, таксономии , онтологии , фолксономии и/или совместное тегирование [18] ) плюс астростатистика также будут активно задействованы. Гражданские научные проекты (такие как Galaxy Zoo ) также вносят вклад в высоко ценимое открытие новинок, метатегирование функций и характеристику объектов в больших наборах астрономических данных. Все эти специальности позволяют проводить научные открытия на основе разнообразных массивов данных, проводить совместные исследования и повторно использовать данные как в исследовательских, так и в учебных целях.
В 2007 году был запущен проект Galaxy Zoo [19] для морфологической классификации [20] [21] большого количества галактик . В этом проекте для классификации рассматривалось 900 000 изображений, полученных из Sloan Digital Sky Survey (SDSS) [22] за последние 7 лет. Задача состояла в том, чтобы изучить каждое изображение галактики, классифицировать ее как эллиптическую или спиральную и определить, вращается ли она или нет. Команда астрофизиков во главе с Кевином Шавински из Оксфордского университета отвечала за этот проект, и Кевин и его коллега Крис Линлотт выяснили, что такой команде потребуется период в 3–5 лет, чтобы завершить работу. [23] Там они пришли к идее использования методов машинного обучения и науки о данных для анализа изображений и их классификации. [24]
В 2012 году Совету Американского астрономического общества были представлены два аналитических доклада [25] [26] , что привело к созданию официальных рабочих групп по астроинформатике и астростатистике для специалистов по астрономии в США и других странах. [27]
Астроинформатика обеспечивает естественный контекст для интеграции образования и исследований. [28] Опыт исследований теперь может быть реализован в классе для установления и развития грамотности в области данных посредством простого повторного использования данных. [29] Он также имеет много других применений, таких как повторное использование архивных данных для новых проектов, связи между литературой и данными, интеллектуальный поиск информации и многое другое. [30]
Данные, полученные из обзоров неба, сначала передаются для предварительной обработки данных . При этом избыточность удаляется и фильтруется. Далее выполняется извлечение признаков из этого отфильтрованного набора данных, который далее принимается для обработки. [31] Некоторые из известных обзоров неба перечислены ниже:
Размер данных из вышеупомянутых обзоров неба варьируется от 3 ТБ до почти 4,6 ЭБ . [31] Кроме того, задачи по добыче данных , которые вовлечены в управление и обработку данных, включают такие методы, как классификация , регрессия , кластеризация , обнаружение аномалий и анализ временных рядов . Несколько подходов и приложений для каждого из этих методов задействованы в выполнении задач.
Классификация [40] используется для конкретных идентификаций и категоризации астрономических данных, таких как спектральная классификация , фотометрическая классификация, морфологическая классификация и классификация солнечной активности . Подходы методов классификации перечислены ниже:
Регрессия [41] используется для прогнозирования на основе полученных данных посредством статистических тенденций и статистического моделирования. Различные варианты использования этой техники используются для получения фотометрических красных смещений и измерений физических параметров звезд. [42] Подходы перечислены ниже:
Кластеризация [43] классифицирует объекты на основе метрики меры сходства . Она используется в астрономии для классификации, а также для обнаружения особых/редких объектов . Подходы перечислены ниже:
Обнаружение аномалий [45] используется для обнаружения нерегулярностей в наборе данных. Однако, эта техника используется здесь для обнаружения редких/особых объектов . Используются следующие подходы:
Анализ временных рядов [46] помогает анализировать тенденции и прогнозировать результаты с течением времени. Он используется для прогнозирования тенденций и обнаружения новых данных (обнаружения неизвестных данных). Здесь используются следующие подходы:
Дополнительные конференции и списки конференций:
{{cite book}}
: |journal=
проигнорировано ( помощь )