База данных исследований
AMiner (ранее ArnetMiner ) — бесплатный онлайн-сервис, используемый для индексации, поиска и добычи больших научных данных .
Обзор
AMiner (ArnetMiner) предназначен для поиска и выполнения операций по извлечению данных из академических публикаций в Интернете , используя анализ социальных сетей для выявления связей между исследователями, конференциями и публикациями. [1] Это позволяет ему предоставлять такие услуги, как поиск экспертов, географический поиск, анализ тенденций, рекомендации рецензентов, поиск ассоциаций, поиск курсов, оценка академической успеваемости и моделирование тем.
AMiner был создан как исследовательский проект по анализу социального влияния, ранжированию социальных сетей и извлечению социальных сетей. В результате разработки системы был опубликован ряд рецензируемых статей. Она работает уже более трех лет и проиндексировала 130 000 000 исследователей и более 265 миллионов публикаций. [2] Исследование финансировалось Китайской национальной программой исследований и разработок в области высоких технологий и Национальным научным фондом Китая .
AMiner обычно используется в академических кругах для выявления связей и построения статистических корреляций между исследованиями и исследователями. Он привлек более 10 миллионов независимых IP-доступов из 220 стран и регионов. Продукт использовался на платформе SciVerse компании Elsevier [3] и на таких академических конференциях, как SIGKDD, ICDM, PKDD, WSDM.
Операция
AMiner автоматически извлекает профиль исследователя из сети. Он собирает и идентифицирует соответствующие страницы, затем использует унифицированный подход для извлечения данных из идентифицированных документов. Он также извлекает публикации из онлайн-цифровых библиотек, используя эвристические правила.
Он объединяет извлеченные профили исследователей и извлеченные публикации. Он использует имя исследователя в качестве идентификатора. Была предложена вероятностная структура для решения проблемы неоднозначности имени при интеграции. Интегрированные данные хранятся в базе знаний исследовательской сети (RNKB).
Другими основными продуктами в этой области являются Google Scholar, Scirus от Elsevier и проект с открытым исходным кодом CiteSeer.
История
Он был инициирован и создан профессором Цзе Таном из Университета Цинхуа , Китай. Впервые он был запущен в марте 2006 года. Ниже приведен список обновлений за последние годы:
- Март 2006, Версия 0.1, Функции включают профилирование исследователей, поиск экспертов, поиск конференций и поиск публикаций. Система была разработана на Perl;
- Август 2006 г., версия 1.0. Система была повторно реализована на Java;
- Июль 2007 г., версия 2.0. Новые функции включают в себя анализ интересов исследователя, поиск ассоциаций, поиск обзорных работ (сейчас недоступно);
- Апрель 2008 г., версия 3.0. Новые функции включают понимание запросов , новый графический интерфейс и анализ журнала поиска;
- Ноябрь 2008 г., версия 4.0. Новые функции включают поиск по графам, тематическое моделирование, извлечение информации о финансировании NSF/NSFC;
- Апрель 2009 г., версия 5.0, новые функции включают редактирование профиля, открытый API-сервис, поиск Bole, поиск курса (сейчас недоступно);
- Декабрь 2009 г., версия 6.0. Новые функции включают оценку успеваемости, обратную связь с пользователями, анализ конференций;
- Май 2010 г., версия 7.0, новые функции включают устранение неоднозначности имен, рекомендации рецензента статьи, создание ArnetPage;
- Март 2012, Версия II, переименована в AMiner, переписаны все коды и переработан GUI. Новые функции включают: географический поиск, платформу ArnetAPP.
- Июнь 2014, Версия II, переименована в AMiner, переписаны все коды и переработан GUI. Новые функции включают: географический поиск, платформу ArnetAPP.
- В декабре 2015 года в сети появилась совершенно новая версия.
- Май 2017 г. — вышла профессиональная версия.
- Апрель 2018 г. Новые функции включают анализ тенденций [4] , разрешение неоднозначности имен на основе глубокого обучения [5]
Ресурсы
AMiner опубликовал несколько наборов данных для академических исследовательских целей, включая Open Academic Graph, [6] DBLP+citation [7] (набор данных, дополняющий цитаты в данных DBLP из проекта Digital Bibliography & Library ), Name Disambiguation, [8] Social Tie Analysis. [9] Для получения дополнительных доступных наборов данных и исходных кодов для исследований, пожалуйста, обратитесь к. [10]
Смотрите также
Ссылки
- ^ Jie Tang; Jing Zhang; Limin Yao; Juanzi Li; Li Zhang; Zhong Su (2008). "ArnetMiner". Труды 14-й международной конференции ACM SIGKDD по обнаружению знаний и добыче данных . Нью-Йорк: ACM. С. 990–998. doi :10.1145/1401890.1402008. ISBN 9781605581934. S2CID 3348552.
- ^ "Arnetminer: введение" . Получено 17 декабря 2020 г. .
- ^ "SciVerse - HUB - Home". Архивировано из оригинала 9 сентября 2012 года . Получено 24 апреля 2012 года .
- ^ "Анализ тенденций" . Получено 24 декабря 2018 г.
- ^ Ютао Чжан; Фаньцзинь Чжан; Пэйран Яо; Цзе Тан (2018). «Устранение неоднозначности имен в AMiner». Труды 24-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Лондон: ACM. С. 1002–1011. doi : 10.1145/3219819.3219859. ISBN 9781450355520. S2CID 207579405.
- ^ "Open Academic Graph" . Получено 24 декабря 2018 г.
- ^ "DBLP Papers + Citation Relationship" . Получено 24 декабря 2018 г. .
- ^ "Name Disambiguation" . Получено 24 апреля 2012 г. .
- ^ "Вывод социальных связей в крупных сетях" . Получено 24 апреля 2012 г.
- ^ "Открытые данные и коды ArnetMiner" . Получено 24 апреля 2012 г.
Внешние ссылки
- AMiner.org (Arnetminer.org теперь архивирован)
- AMiner.cn
Дальнейшее чтение
- Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, Zhong Su. Arnetminer: извлечение и добыча академических социальных сетей. В трудах 14-й международной конференции ACM SIGKDD по обнаружению знаний и добыче данных (SIGKDD'2008)
- Чи Ван, Цзявэй Хань , Юньтао Цзя, Цзе Тан , Дуо Чжан, Иньтао Юй и Цзинъи Го. Отношения консультанта и консультанта по горнодобывающей промышленности из сетей исследовательских публикаций. Труды шестнадцатой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных (SIGKDD'2010).
- Цзе Тан , Джименг Сан, Чи Ван и Цзы Ян. Анализ социального влияния в крупномасштабных сетях. В трудах пятнадцатой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных (SIGKDD'2009). стр. 807–816.
- Цзе Тан , Руомин Цзинь и Цзин Чжан. Подход к моделированию тем и его интеграция в структуру случайных блужданий для академического поиска. В трудах Международной конференции IEEE 2008 года по интеллектуальному анализу данных (ICDM'2008). С. 1055–1060.
- Цзе Тан , Лиминь Яо, Дуо Чжан и Цзин Чжан. Комбинированный подход к профилированию веб-пользователей. Труды ACM по обнаружению знаний из данных (TKDD), (т. 5, № 1), статья 2 (декабрь 2010 г.), 44 страницы.
- Ютао Чжан, Фаньцзинь Чжан, Пэйран Яо и Цзе Тан . Устранение неоднозначности имен в AMiner: кластеризация, обслуживание и участие человека в процессе. В материалах двадцать четвертой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных (KDD'18). стр. 1002-1011.