stringtranslate.com

Астроинформатика

Прото-сверхскопление Гипериона обнаружено с помощью измерений и изучения архивных данных [1]

Астроинформатика — междисциплинарная область исследований, включающая в себя сочетание астрономии , науки о данных , машинного обучения , информатики и информационно - коммуникационных технологий. [2] [3] Эта область тесно связана с астростатистикой .

Астрономия, управляемая данными ( DDA ), относится к использованию науки о данных в астрономии . Принимаются во внимание несколько результатов телескопических наблюдений и обзоров неба , а подходы, связанные с добычей данных и управлением большими данными, используются для анализа, фильтрации и нормализации набора данных , которые в дальнейшем используются для создания классификаций, прогнозов и обнаружения аномалий с помощью передовых статистических подходов , цифровой обработки изображений и машинного обучения . Результаты этих процессов используются астрономами и космическими учеными для изучения и выявления закономерностей, аномалий и движений в космическом пространстве, а также для заключения теорий и открытий в космосе .

Фон

Астроинформатика в первую очередь сосредоточена на разработке инструментов, методов и приложений вычислительной науки , науки о данных , машинного обучения и статистики для исследований и образования в области астрономии, ориентированной на данные. [2] Ранние усилия в этом направлении включали обнаружение данных , разработку стандартов метаданных , моделирование данных , разработку словаря астрономических данных , доступ к данным , поиск информации , [4] интеграцию данных и добычу данных [5] в инициативах астрономической виртуальной обсерватории . [6] [7] [8] Дальнейшее развитие области, наряду с одобрением астрономического сообщества, было представлено Национальному исследовательскому совету (США) в 2009 году в позиционном документе «состояние профессии» астроинформатики для Десятилетнего обзора астрономии и астрофизики 2010 года . [9] Этот позиционный документ послужил основой для последующего более подробного изложения области в статье журнала Informatics Journal «Астроинформатика: исследования и образование в области астрономии, ориентированные на данные» . [2]

Астроинформатика как отдельная область исследований была вдохновлена ​​работами в области геоинформатики , химинформатики , биоинформатики , а также работой в области электронных наук [10] Джима Грея (ученого-компьютерщика) из Microsoft Research , чье наследие было отмечено и продолжено премией Джима Грея в области электронных наук [11] .

Хотя основное внимание астроинформатики уделяется большой всемирной распределенной коллекции цифровых астрономических баз данных, архивов изображений и исследовательских инструментов, область признает важность устаревших наборов данных, а также использование современных технологий для сохранения и анализа исторических астрономических наблюдений. Некоторые специалисты по астроинформатике помогают оцифровывать исторические и недавние астрономические наблюдения и изображения в большой базе данных для эффективного поиска через веб -интерфейсы. [3] [12] Другая цель — помочь разработать новые методы и программное обеспечение для астрономов, а также помочь облегчить процесс и анализ быстро растущего объема данных в области астрономии. [13]

Астроинформатика описывается как «четвертая парадигма» астрономических исследований. [14] Существует много областей исследований, связанных с астроинформатикой, таких как интеллектуальный анализ данных, машинное обучение, статистика, визуализация, управление научными данными и семантическая наука. [7] Интеллектуальный анализ данных и машинное обучение играют важную роль в астроинформатике как научной исследовательской дисциплине из-за их фокуса на «извлечении знаний из данных» (KDD) и «обучении на основе данных». [15] [16]

Объем данных, собранных в ходе астрономических обзоров неба, вырос с гигабайт до терабайт за последнее десятилетие и, как прогнозируется, вырастет в следующем десятилетии до сотен петабайт с Большим синоптическим обзорным телескопом и до эксабайт с Square Kilometre Array . [17] Это изобилие новых данных как позволяет, так и бросает вызов эффективным астрономическим исследованиям. Поэтому требуются новые подходы. Отчасти из-за этого наука, основанная на данных, становится признанной академической дисциплиной. Следовательно, астрономия (и другие научные дисциплины) развивают информационно-интенсивные и информационно-интенсивные субдисциплины до такой степени, что эти субдисциплины теперь становятся (или уже стали) автономными исследовательскими дисциплинами и полноценными академическими программами. Хотя многие учебные заведения не могут похвастаться программой по астроинформатике, такие программы, скорее всего, будут разработаны в ближайшем будущем.

Информатика недавно была определена как «использование цифровых данных, информации и связанных с ними услуг для исследований и генерации знаний». Однако обычное или общеупотребительное определение таково: «Информатика — это дисциплина организации, доступа, интеграции и извлечения данных из множества источников для обнаружения и поддержки принятия решений». Таким образом, дисциплина астроинформатики включает в себя множество специальностей, связанных с природой, включая моделирование данных, организацию данных и т. д. Она также может включать методы преобразования и нормализации для интеграции данных и визуализации информации, а также методы извлечения знаний, индексации, поиска информации и методов извлечения данных. Схемы классификации (например, таксономии , онтологии , фолксономии и/или совместное тегирование [18] ) плюс астростатистика также будут активно задействованы. Гражданские научные проекты (такие как Galaxy Zoo ) также вносят вклад в высоко ценимое открытие новинок, метатегирование функций и характеристику объектов в больших наборах астрономических данных. Все эти специальности позволяют проводить научные открытия на основе разнообразных массивов данных, проводить совместные исследования и повторно использовать данные как в исследовательских, так и в учебных целях.

В 2007 году был запущен проект Galaxy Zoo [19] для морфологической классификации [20] [21] большого количества галактик . В этом проекте для классификации рассматривалось 900 000 изображений, полученных из Sloan Digital Sky Survey (SDSS) [22] за последние 7 лет. Задача состояла в том, чтобы изучить каждое изображение галактики, классифицировать ее как эллиптическую или спиральную и определить, вращается ли она или нет. Команда астрофизиков во главе с Кевином Шавински из Оксфордского университета отвечала за этот проект, и Кевин и его коллега Крис Линлотт выяснили, что такой команде потребуется период в 3–5 лет, чтобы завершить работу. [23] Там они пришли к идее использования методов машинного обучения и науки о данных для анализа изображений и их классификации. [24]

В 2012 году Совету Американского астрономического общества были представлены два аналитических доклада [25] [26] , что привело к созданию официальных рабочих групп по астроинформатике и астростатистике для специалистов по астрономии в США и других странах. [27]

Астроинформатика обеспечивает естественный контекст для интеграции образования и исследований. [28] Опыт исследований теперь может быть реализован в классе для установления и развития грамотности в области данных посредством простого повторного использования данных. [29] Он также имеет много других применений, таких как повторное использование архивных данных для новых проектов, связи между литературой и данными, интеллектуальный поиск информации и многое другое. [30]

Методология

Данные, полученные из обзоров неба, сначала передаются для предварительной обработки данных . При этом избыточность удаляется и фильтруется. Далее выполняется извлечение признаков из этого отфильтрованного набора данных, который далее принимается для обработки. [31] Некоторые из известных обзоров неба перечислены ниже:

Размер данных из вышеупомянутых обзоров неба варьируется от 3  ТБ до почти 4,6  ЭБ . [31] Кроме того, задачи по добыче данных , которые вовлечены в управление и обработку данных, включают такие методы, как классификация , регрессия , кластеризация , обнаружение аномалий и анализ временных рядов . Несколько подходов и приложений для каждого из этих методов задействованы в выполнении задач.

Классификация

Классификация [40] используется для конкретных идентификаций и категоризации астрономических данных, таких как спектральная классификация , фотометрическая классификация, морфологическая классификация и классификация солнечной активности . Подходы методов классификации перечислены ниже:

Регрессия

Регрессия [41] используется для прогнозирования на основе полученных данных посредством статистических тенденций и статистического моделирования. Различные варианты использования этой техники используются для получения фотометрических красных смещений и измерений физических параметров звезд. [42] Подходы перечислены ниже:

Кластеризация

Кластеризация [43] классифицирует объекты на основе метрики меры сходства . Она используется в астрономии для классификации, а также для обнаружения особых/редких объектов . Подходы перечислены ниже:

Обнаружение аномалий

Обнаружение аномалий [45] используется для обнаружения нерегулярностей в наборе данных. Однако, эта техника используется здесь для обнаружения редких/особых объектов . Используются следующие подходы:

Анализ временных рядов

Анализ временных рядов [46] помогает анализировать тенденции и прогнозировать результаты с течением времени. Он используется для прогнозирования тенденций и обнаружения новых данных (обнаружения неизвестных данных). Здесь используются следующие подходы:

Конференции

Дополнительные конференции и списки конференций:

Смотрите также

Ссылки

  1. ^ «Обнаружено крупнейшее прото-сверхскопление галактик — астрономы, использующие Очень Большой Телескоп ESO, обнаружили космического титана, скрывающегося в ранней Вселенной». www.eso.org . Получено 18 октября 2018 г.
  2. ^ abc Borne, Kirk D. (12 мая 2010 г.). «Астроинформатика: астрономические исследования и образование, ориентированные на данные». Earth Science Informatics . 3 (1–2): 5–17. doi :10.1007/s12145-010-0055-2. S2CID  207393013.
  3. ^ ab Астроинформатика и оцифровка астрономического наследия Архивировано 26 декабря 2017 г. на Wayback Machine , Николай Киров. Пятая международная конференция SEEDI по оцифровке культурного и научного наследия, 19–20 мая 2010 г., Сараево. Получено 1 ноября 2012 г.
  4. ^ Борн, Кирк (2000). «Сценарии научного пользователя для эталонной миссии по проектированию виртуальной обсерватории: научные требования к интеллектуальному анализу данных». arXiv : astro-ph/0008307 .
  5. ^ Борн, Кирк (2008). «Научный анализ данных в астрономии». В Каргупта, Хиллол и др. (ред.). Следующее поколение анализа данных . Лондон: CRC Press. стр. 91–114. ISBN 9781420085860.
  6. ^ Борн, Кирк Д. (2003). «Распределенный интеллектуальный анализ данных в Национальной виртуальной обсерватории». В Dasarathy, Belur V (ред.). Интеллектуальный анализ данных и обнаружение знаний: теория, инструменты и технологии V. Том 5098. С. 211–218. doi :10.1117/12.487536. S2CID  28195520.
  7. ^ ab Borne, Kirk (2013). «Виртуальные обсерватории, интеллектуальный анализ данных и астроинформатика». Планеты, звезды и звездные системы . стр. 403–443. doi :10.1007/978-94-007-5618-2_9. ISBN 978-94-007-5617-5.
  8. ^ Laurino, O.; D'Abrusco, R.; Longo, G.; Riccio, G. (21 декабря 2011 г.). «Астроинформатика галактик и квазаров: новый общий метод оценки фотометрических красных смещений». Monthly Notices of the Royal Astronomical Society . 418 (4): 2165–2195. arXiv : 1107.3160 . Bibcode : 2011MNRAS.418.2165L. doi : 10.1111/j.1365-2966.2011.19416.x . S2CID  7115554.
  9. ^ Борн, Кирк (2009). «Астроинформатика: подход 21-го века к астрономии». Astro2010: Десятилетний обзор астрономии и астрофизики . 2010 : P6. arXiv : 0909.3892 . Bibcode : 2009astro2010P...6B.
  10. ^ "Online Science". Выступления Джима Грея . Microsoft Research . Получено 11 января 2015 г.
  11. ^ "Премия Джима Грея в области электронной науки". Microsoft Research .
  12. ^ Астроинформатика в Канаде, Николас М. Болл, Дэвид Шаде. Получено 1 ноября 2012 г.
  13. ^ ""Астроинформатика" помогает астрономам исследовать небо". Phys.org . Гейдельбергский университет . Получено 11 января 2015 г. .
  14. ^ Привет, Тони (октябрь 2009 г.). «Четвертая парадигма: научные открытия с интенсивным использованием данных». Microsoft Research .
  15. ^ Болл, Н. М.; Бруннер, Р. Дж. (2010). «Интеллектуальный анализ данных и машинное обучение в астрономии». International Journal of Modern Physics D. 19 ( 7): 1049–1106. arXiv : 0906.2173 . Bibcode :2010IJMPD..19.1049B. doi :10.1142/S0218271810017160. S2CID  119277652.
  16. ^ Борн, К; Бекла, Дж; Дэвидсон, И; Салэй, А; Тайсон, Дж. А; Бейлер-Джонс, Корин А. Л. (2008). «Программа исследований по интеллектуальному анализу данных LSST». Труды конференции AIP . С. 347–351. arXiv : 0811.0167 . doi : 10.1063/1.3059074. S2CID  118399971.
  17. ^ Ivezić, Ž; Axelrod, T; Becker, A. C; Becla, J; Borne, K; Burke, D. L; Claver, C. F; Cook, K. H; Connolly, A; Gilmore, D. K; Jones, R. L; Jurić, M; Kahn, S. M; Lim, K.-T; Lupton, R. H; Monet, D. G; Pinto, P. A; Sesar, B; Stubbs, C. W; Tyson, J. A; Bailer-Jones, Coryn AL (2008). «Параметризация и классификация 20 миллиардов объектов LSST: уроки SDSS». Труды конференции AIP . Том 1082. С. 359–365. arXiv : 0810.5155 . дои : 10.1063/1.3059076. S2CID  117914490. {{cite book}}: |journal=проигнорировано ( помощь )
  18. ^ Борн, Кирк. «Совместная аннотация для научного обнаружения и повторного использования данных». Бюллетень ASIS&T . Американское общество информационной науки и технологий. Архивировано из оригинала 5 марта 2016 г. Получено 11 января 2016 г.
  19. ^ "Zooniverse". www.zooniverse.org . Получено 2024-05-10 .
  20. ^ Каванаг, Митчелл К.; Бекки, Кенджи; Гроувс, Брент А. (2021-07-08). «Морфологическая классификация галактик с глубоким обучением: сравнение 3- и 4-сторонних сверточных нейронных сетей». Monthly Notices of the Royal Astronomical Society . 506 (1): 659–676. arXiv : 2106.01571 . doi : 10.1093/mnras/stab1552 . ISSN  0035-8711.
  21. ^ Гоял, Лалит Мохан; Арора, Маанак; Пандей, Тушар; Миттал, Мамта (2020-12-01). «Морфологическая классификация галактик с использованием Conv-сетей». Earth Science Informatics . 13 (4): 1427–1436. doi :10.1007/s12145-020-00526-w. ISSN  1865-0481.
  22. ^ ab "Sloan Digital Sky Survey-V: Пионерская паноптическая спектроскопия - SDSS-V" . Получено 10 мая 2024 г. .
  23. ^ Пати, Сатависа (2021-06-18). «Как наука о данных используется в астрономии?». Analytics Insight . Получено 2024-05-10 .
  24. ^ Барон, Даля (2019-04-15), Машинное обучение в астрономии: практический обзор , arXiv : 1904.07248
  25. ^ Борн, Кирк. «Астроинформатика в двух словах». asaip.psu.edu . Портал астростатистики и астроинформатики, Университет штата Пенсильвания . Получено 11 января 2016 г.
  26. ^ Фейгельсон, Эрик. «Астростатистика в двух словах». asaip.psu.edu . Портал астростатистики и астроинформатики, Университет штата Пенсильвания . Получено 11 января 2016 г.
  27. ^ Feigelson, E.; Ivezić, Ž.; Hilbe, J.; Borne, K. (2013). «Новые организации для поддержки астроинформатики и астростатистики». Программное обеспечение и системы анализа астрономических данных Xxii . 475 : 15. arXiv : 1301.3069 . Bibcode : 2013ASPC..475...15F.
  28. ^ Борн, Кирк (2009). «Революция в астрономическом образовании: наука о данных для масс». Astro2010: Десятилетний обзор астрономии и астрофизики . 2010 : P7. arXiv : 0909.3895 . Bibcode : 2009astro2010P...7B.
  29. ^ «Использование данных в классе». Центр ресурсов научного образования в колледже Карлтон . Национальная научная цифровая библиотека . Получено 11 января 2016 г.
  30. ^ Борн, Кирк. Астроинформатика: ориентированная на данные астрономия (PDF) . Университет Джорджа Мейсона, США . Получено 21 января 2015 г.
  31. ^ ab Zhang, Yanxia; Zhao, Yongheng (2015-05-22). «Астрономия в эпоху больших данных». Data Science Journal . 14 : 11. Bibcode : 2015DatSJ..14...11Z. doi : 10.5334/dsj-2015-011 . ISSN  1683-1470.
  32. ^ "Паломарский цифровой обзор неба (DPOSS)". sites.astro.caltech.edu . Получено 2024-05-10 .
  33. ^ "IRSA - Двухмикронный обзор всего неба (2MASS)". irsa.ipac.caltech.edu . Получено 2024-05-10 .
  34. ^ "GBT". Обсерватория Грин-Бэнк . 2023-06-26 . Получено 2024-05-10 .
  35. ^ "GALEX - Galaxy Evolution Explorer". www.galex.caltech.edu . Получено 2024-05-10 .
  36. ^ "SkyMapper Southern Sky Survey". skymapper.anu.edu.au . Получено 2024-05-10 .
  37. ^ "Домашняя страница архива данных Pan-STARRS1 - Публичный архив PS1 - STScI Outerspace". outerspace.stsci.edu . Получено 10.05.2024 .
  38. ^ Телескоп, Большой синоптический обзор. "Обсерватория Рубина". Обсерватория Рубина . Получено 2024-05-10 .
  39. ^ "Исследовать | SKAO". www.skao.int . Получено 2024-05-10 .
  40. ^ Chowdhury, Shovan; Schoen, Marco P. (2020-10-02). «Классификация исследовательских работ с использованием контролируемых методов машинного обучения». 2020 Intermountain Engineering, Technology and Computing (IETC) . IEEE. стр. 1–6. doi :10.1109/IETC47856.2020.9249211. ISBN 978-1-7281-4291-3.
  41. ^ Сарстедт, Марко; Муи, Эрик (2014), Сарстедт, Марко; Муи, Эрик (ред.), «Регрессионный анализ», Краткое руководство по исследованию рынка: процесс, данные и методы с использованием IBM SPSS Statistics , Берлин, Гейдельберг: Springer, стр. 193–233, doi :10.1007/978-3-642-53965-7_7, ISBN 978-3-642-53965-7, получено 2024-05-10
  42. ^ "Бюллетень Королевского общества наук Льежа | PoPuPS" . Бюллетень Королевского общества наук Льежа (на французском языке). ISSN  0037-9565.
  43. ^ Bindra, Kamalpreet; Mishra, Anuranjan (сентябрь 2017 г.). «Подробное исследование алгоритмов кластеризации». 2017 6-я Международная конференция по надежности, инфокоммуникационным технологиям и оптимизации (тенденции и будущие направления) (ICRITO) . IEEE. стр. 371–376. doi :10.1109/ICRITO.2017.8342454. ISBN 978-1-5090-3012-5.
  44. ^ Pizzuti, C.; Talia, D. (май 2003 г.). «P-autoclass: масштабируемая параллельная кластеризация для добычи больших наборов данных». IEEE Transactions on Knowledge and Data Engineering . 15 (3): 629–641. doi :10.1109/TKDE.2003.1198395. ISSN  1041-4347.
  45. ^ Тудуму, Шрикант; Бранч, Филип; Джин, Джионг; Сингх, Джагдатт (Джек) (2020-07-02). «Комплексный обзор методов обнаружения аномалий для больших размерных данных». Журнал больших данных . 7 (1): 42. doi : 10.1186/s40537-020-00320-x . hdl : 10536/DRO/DU:30158643 . ISSN  2196-1115.
  46. ^ Weiner, Irving B., ред. (2003-04-15). Справочник по психологии (1-е изд.). Wiley. doi :10.1002/0471264385.wei0223. ISBN 978-0-471-17669-5.

Внешние ссылки