Семантическое сходство

Семантическое сходство — это метрика, определяемая по набору документов или терминов, где идея расстояния между элементами основана на сходстве их значения или семантического содержания ^{[ требуется ссылка ]} в отличие от лексикографического сходства. Это математические инструменты, используемые для оценки силы семантической связи между единицами языка, понятиями или примерами посредством числового описания, полученного в соответствии со сравнением информации, подтверждающей их значение или описывающей их природу. ^[1]^[2] Термин семантическое сходство часто путают с семантической связанностью. Семантическая связанность включает в себя любую связь между двумя терминами, в то время как семантическое сходство включает только отношения «является» . ^[3] Например, «автомобиль» похож на «автобус», но также связан с «дорогой» и «вождением».

С вычислительной точки зрения семантическое сходство можно оценить, определив топологическое сходство, используя онтологии для определения расстояния между терминами/концепциями. Например, наивная метрика для сравнения концепций, упорядоченных в частично упорядоченном наборе и представленных в виде узлов направленного ациклического графа (например, таксономии ), будет кратчайшим путем, связывающим два узла концепций. На основе текстового анализа семантическая связанность между единицами языка (например, словами, предложениями) также может быть оценена с использованием статистических средств, таких как модель векторного пространства для соотнесения слов и текстовых контекстов из подходящего текстового корпуса . Оценка предлагаемых мер семантического сходства/связанности оценивается двумя основными способами. Первый основан на использовании наборов данных, разработанных экспертами и состоящих из пар слов с оценкой степени семантического сходства/связанности. Второй способ основан на интеграции мер внутри конкретных приложений, таких как поиск информации, рекомендательные системы, обработка естественного языка и т. д.

Терминология

Понятие семантического сходства более конкретно, чем семантическое родство , поскольку последнее включает такие понятия, как антонимия и меронимия , в то время как сходство — нет. ^[4] Однако большая часть литературы использует эти термины взаимозаменяемо, наряду с такими терминами, как семантическое расстояние. По сути, семантическое сходство, семантическое расстояние и семантическое родство означают: «Насколько термин A связан с термином B?» Ответом на этот вопрос обычно является число от −1 до 1 или от 0 до 1, где 1 означает чрезвычайно высокое сходство.

Визуализация

Интуитивный способ визуализации семантического сходства терминов — это группировка терминов, которые тесно связаны, и размещение терминов, которые связаны отдаленно, на большем расстоянии друг от друга. Это также распространено на практике для интеллект-карт и концептуальных карт .

Более прямой способ визуализации семантического сходства двух языковых элементов можно увидеть с помощью подхода Semantic Folding . В этом подходе языковой элемент, такой как термин или текст, может быть представлен путем генерации пикселя для каждой из его активных семантических функций, например, в сетке 128 x 128. Это позволяет проводить прямое визуальное сравнение семантики двух элементов путем сравнения изображений, представляющих их соответствующие наборы функций.

Приложения

В биомедицинской информатике

Семантические меры сходства были применены и разработаны в биомедицинских онтологиях. ^[5]^[6] Они в основном используются для сравнения генов и белков на основе сходства их функций ^[7], а не на основе сходства их последовательностей , но они также распространяются на другие биологические сущности, такие как заболевания. ^[8]

Эти сравнения можно выполнить с помощью инструментов, свободно доступных в Интернете:

ProteInOn можно использовать для поиска взаимодействующих белков, поиска назначенных терминов GO и расчета функционального семантического сходства белков UniProt , а также для получения информационного содержания и расчета функционального семантического сходства терминов GO. ^[9]
CMPSim обеспечивает функциональную меру сходства между химическими соединениями и метаболическими путями, используя семантические меры сходства на основе ChEBI . ^[10]
CESSM предоставляет инструмент для автоматизированной оценки мер семантического сходства на основе GO. ^[11]

В геоинформатике

Сходство также применяется в геоинформатике для поиска схожих географических объектов или типов объектов: ^[12]

Сервер сходства SIM-DL ^[13] можно использовать для вычисления сходства между концепциями, хранящимися в онтологиях типов географических объектов.
Калькулятор подобия можно использовать для вычисления того, насколько хорошо связаны два географических понятия в онтологии Geo-Net-PT. ^[14]^[15]
Семантическая сеть OSM ^[16] может быть использована для вычисления семантического сходства тегов в OpenStreetMap . ^[17]

В компьютерной лингвистике

Несколько метрик используют WordNet , вручную созданную лексическую базу данных английских слов. Несмотря на преимущества человеческого контроля за созданием базы данных, поскольку слова не изучаются автоматически, база данных не может измерять родство между многословными терминами, неинкрементным словарным запасом. ^[4]^[18]

В обработке естественного языка

Обработка естественного языка (NLP) — это область компьютерной науки и лингвистики. Анализ настроений, понимание естественного языка и машинный перевод (автоматический перевод текста с одного человеческого языка на другой) — вот несколько основных областей, где он используется. Например, зная один информационный ресурс в Интернете, часто возникает непосредственный интерес найти похожие ресурсы. Семантическая паутина предоставляет семантические расширения для поиска похожих данных по содержанию, а не только по произвольным дескрипторам. ^[19]^[20]^[21]^[22^{] [23}^{] [24]}^[25]^[26]^{[27] Методы} глубокого обучения стали точным способом оценки семантического сходства между двумя текстовыми отрывками, в которых каждый отрывок сначала встраивается в непрерывное векторное представление. ^[28]^[29]^[30]

В сопоставлении онтологий

Семантическое сходство играет решающую роль в выравнивании онтологий , которое направлено на установление соответствий между сущностями из разных онтологий. Оно включает в себя количественную оценку степени сходства между концепциями или терминами с использованием информации, представленной в онтологии для каждой сущности, такой как метки, описания и иерархические отношения с другими сущностями. Традиционные метрики, используемые при сопоставлении онтологий, основаны на лексическом сходстве между признаками сущностей, например, с использованием расстояния Левенштейна для измерения расстояния редактирования между метками сущностей. ^[31] Однако с помощью этих метрик трудно уловить семантическое сходство между сущностями. Например, при сравнении двух онтологий, описывающих конференции, сущности «Вклад» и «Документ» могут иметь высокое семантическое сходство, поскольку они имеют одинаковое значение. Тем не менее, из-за их лексических различий, лексикографическое сходство само по себе не может установить это соответствие. Чтобы уловить эти семантические сходства, в сопоставлении онтологий используются вложения . ^[32] Кодируя семантические отношения и контекстную информацию, вложения позволяют вычислять оценки сходства между сущностями на основе близости их векторных представлений в пространстве вложений. Этот подход позволяет эффективно и точно сопоставлять онтологии, поскольку вложения могут моделировать семантические различия в именовании сущностей, такие как омонимия, назначая различные вложения одному и тому же слову на основе различных контекстов. ^[32]

Меры

Топологическое сходство

По сути, существует два типа подходов, вычисляющих топологическое сходство между онтологическими концепциями:

Основанные на ребрах: которые используют ребра и их типы в качестве источника данных;
На основе узлов: основными источниками данных являются узлы и их свойства.

Другие меры вычисляют сходство между онтологическими экземплярами:

Попарно: измеряйте функциональное сходство между двумя экземплярами, объединяя семантическое сходство концепций, которые они представляют.
Групповой: вычислить сходство напрямую, не объединяя семантические сходства концепций, которые они представляют.

Вот несколько примеров:

На основе края

Пекар и др. ^[33]
Ченг и Клайн ^[34]
Ву и др. ^[35]
Дель Позо и др. ^[36]
IntelliGO: Бенабдеррахман и др. ^[6]

На основе узлов

Резник ^[37]
- основано на понятии информационного содержания . Информационное содержание понятия (термина или слова) — это логарифм вероятности нахождения понятия в данном корпусе.
- учитывает только информационное содержание наименьшего общего субсумера (lcs). Наименьший общий субсумер — это понятие в лексической таксономии (например, WordNet), которое находится на наименьшем расстоянии от двух сравниваемых понятий. Например, животное и млекопитающее оба являются субсумерами кошки и собаки, но млекопитающее для них является более низким субсумером, чем животное.
Линь ^[38]
- на основе сходства Резника.
- рассматривает информационное содержание наименьшего общего субпотребителя (НСП) и двух сравниваемых концепций.
Магитман, Менцер , Ройнестад и Веспиньяни ^[39]
- Обобщает сходство Линя с произвольными онтологиями (графами).
Цзян и Конрат ^[40]
- на основе сходства Резника.
- учитывает информационное содержание наименьшего общего субсумера (lcs) и двух сравниваемых концепций для вычисления расстояния между двумя концепциями. Расстояние позже используется при вычислении меры сходства.
Выравнивание, устранение неоднозначности и обход: случайные обходы семантических сетей ^[41]

Основанный на содержании узлов и отношений

применимо к онтологии
рассмотреть свойства (содержимое) узлов
рассмотреть типы (содержание) отношений
на основе eTVSM ^[42]
на основе сходства Резника ^[43]

Попарно

максимум парного сходства
составное среднее, в котором учитываются только пары с наилучшим соответствием (среднее с наилучшим соответствием)

Групповой

индекс Жаккара

Статистическое сходство

Статистические подходы к подобию могут быть изучены на основе данных или предопределены. Обучение подобию часто может превосходить предопределенные меры подобия. В целом, эти подходы создают статистическую модель документов и используют ее для оценки подобия.

LSA ( латентный семантический анализ ): ^[44]^[45] (+) основан на векторах, добавляет векторы для измерения многословных терминов; (−) неинкрементный словарь, длительное время предварительной обработки
PMI ( точечная взаимная информация ): (+) большой словарь, поскольку использует любую поисковую систему (например, Google); (−) не может измерить связь между целыми предложениями или документами
SOC-PMI ( взаимная информация о совместном появлении второго порядка ): (+) сортирует списки важных соседних слов из большого корпуса; (−) не может измерить родство между целыми предложениями или документами
GLSA (обобщенный латентный семантический анализ): (+) основан на векторах, добавляет векторы для измерения многословных терминов; (−) неинкрементный словарный запас, длительное время предварительной обработки
ICAN (инкрементное построение ассоциативной сети): (+) инкрементная, сетевая мера, хороша для распространения активации, учитывает связь второго порядка; (−) не может измерить связь между многословными терминами, длительное время предварительной обработки
NGD ( нормализованное расстояние Google ): (+) большой словарь, поскольку он использует любую поисковую систему (например, Google); (−) может измерять связь между целыми предложениями или документами, но чем больше предложение или документ, тем больше изобретательности требуется (Cilibrasi & Vitanyi, 2007). ^[46]
TSS (семантическое сходство Twitter): ^[47] большой словарь, потому что он использует онлайн-твиты из Twitter для вычисления сходства. Он имеет высокое временное разрешение, что позволяет захватывать высокочастотные события. Открытый исходный код
NCD ( нормализованное расстояние компрессии )
ESA ( явный семантический анализ ) на основе Википедии и ODP
SSA (анализ существенных семантических значений) ^[48] , который индексирует термины, используя существенные концепции, найденные в их непосредственном контексте.
n° Википедии (noW), ^[49] вдохновленная игрой Six Degrees of Wikipedia, ^[50] является метрикой расстояния, основанной на иерархической структуре Википедии. Сначала строится направленный ациклический граф, а затем алгоритм кратчайшего пути Дейкстры используется для определения значения noW между двумя терминами как геодезического расстояния между соответствующими темами (т. е. узлами) в графе.
VGEM (векторная генерация явно определенного многомерного семантического пространства): ^[51] (+) инкрементный словарь, может сравнивать многословные термины (−) производительность зависит от выбора конкретных измерений
SimRank
NASARI: ^[52] Разреженные векторные представления, построенные путем применения гипергеометрического распределения к корпусу Wikipedia в сочетании с таксономией BabelNet. Межъязыковое сходство в настоящее время также возможно благодаря многоязычному и унифицированному расширению. ^[53]

Сходство на основе семантики

Передача маркеров: Объединяя лексическую декомпозицию для автоматизированного создания онтологии и передачу маркеров, подход Фендриха и др. вводит новый тип меры семантического сходства. ^[54] Здесь маркеры передаются из двух целевых концепций, несущих в себе количество активации. Эта активация может увеличиваться или уменьшаться в зависимости от веса отношений, с которыми связаны концепции. Это объединяет подходы, основанные на ребрах и узлах, и включает в себя рассуждения коннекционистов с символической информацией.
Хорошая семантическая мера сходства на основе общего субпотребителя (GCS) ^[55]

Семантические сети сходства

Семантическая сеть сходства (SSN) — это особая форма семантической сети , предназначенная для представления концепций и их семантического сходства. Ее основной вклад заключается в снижении сложности вычисления семантических расстояний. Бендек (2004, 2008) ввел концепцию семантических сетей сходства (SSN) как специализацию семантической сети для измерения семантического сходства из онтологических представлений. ^[56] Реализации включают обработку генетической информации.

Золотые стандарты

Исследователи собрали наборы данных с оценками сходства пар слов, которые используются для оценки когнитивной правдоподобности вычислительных мер. Золотым стандартом до сих пор является старый список из 65 слов, по которому люди оценивали сходство слов. ^[57]^[58]

РГ65 ^[59]
МС30 ^[60]
WordSim353 ^[61]

Смотрите также

Аналогия
Компонентный анализ
Связность (лингвистика)
Расстояние Левенштейна
Семантический дифференциал
Семантическая сеть сходства
Извлечение терминологии
Word2vec
tf-idf – Оценка важности слова в документе

Ссылки

^ Harispe S.; Ranwez S.; Janaqi S.; Montmain J. (2015). «Семантическое сходство из естественного языка и анализа онтологии». Синтезирующие лекции по технологиям человеческого языка . 8 (1): 1–254. arXiv : 1704.05295 . doi :10.2200/S00639ED1V01Y201504HLT027. S2CID 17428739.
^ Фэн Ю.; Багери Э.; Энсан Ф.; Йованович Дж. (2017). «Современное состояние семантической связанности: структура для сравнения». Knowledge Engineering Review . 32 : 1–30. doi : 10.1017/S0269888917000029. S2CID 52172371.
^ A. Ballatore; M. Bertolotto; DC Wilson (2014). «Оценочная базовая линия для геосемантической связанности и сходства». GeoInformatica . 18 (4): 747–767. arXiv : 1402.3371 . Bibcode : 2014GInfo..18..747B. doi : 10.1007/s10707-013-0197-8. S2CID 17474023.
^ ab Budanitsky, Alexander; Hirst, Graeme (2001). "Семантическое расстояние в WordNet: экспериментальная, прикладная оценка пяти мер" (PDF) . Семинар по WordNet и другим лексическим ресурсам, Второе заседание Североамериканского отделения Ассоциации компьютерной лингвистики . Питтсбург.
^ Guzzi, Pietro Hiram; Mina, Marco; Cannataro, Mario; Guerra, Concettina (2012). «Анализ семантического сходства данных о белках: оценка с биологическими особенностями и проблемами». Briefings in Bioinformatics . 13 (5): 569–585. doi : 10.1093/bib/bbr066 . PMID 22138322.
^ ab Benabderrahmane, Sidahmed; Smail Tabbone, Malika; Poch, Olivier; Napoli, Amedeo; Devignes, Marie-Domonique. (2010). "IntelliGO: новая векторная семантическая мера сходства, включающая происхождение аннотации". BMC Bioinformatics . 11 : 588. doi : 10.1186/1471-2105-11-588 . PMC 3098105 . PMID 21122125.
^ Chicco, D; Masseroli, M (2015). «Программный пакет для прогнозирования аннотаций генов и белков и поиска сходства». Труды IEEE/ACM по вычислительной биологии и биоинформатике . 12 (4): 837–843. doi : 10.1109/TCBB.2014.2382127. hdl : 11311/959408 . PMID 26357324. S2CID 14714823.
^ Кёлер, С.; Шульц, М. Х.; Кравиц, П.; Бауэр, С.; Долкен, С.; Отт, CE; Мундлос, К.; Хорн, Д.; и др. (2009). «Клиническая диагностика в генетике человека с поиском семантического сходства в онтологиях». Американский журнал генетики человека . 85 (4): 457–64. doi :10.1016/j.ajhg.2009.09.003. PMC 2756558. PMID 19800049 .
^ "ПротеИнОн".
^ "CMPSim".
^ "CESSM".
^ Янович, К.; Раубаль, М.; Кун, В. (2011). «Семантика сходства в поиске географической информации». Журнал пространственной информационной науки . 2 (2): 29–57. doi : 10.5311/josis.2011.2.3 .
^ Алгоритм, реализация и применение сервера сходства SIM-DL . Вторая международная конференция по геопространственной семантике (GEOS 2007). Конспект лекций по информатике. 2007. С. 128–145. CiteSeerX 10.1.1.172.5544 .
^ «Калькулятор подобия Geo-Net-PT».
^ "Гео-Нет-ПТ".
^ "Семантическая сеть OSM". OSM Wiki.
^ A. Ballatore; DC Wilson; M. Bertolotto. «Извлечение географических знаний и семантическое сходство в OpenStreetMap» (PDF) . Системы знаний и информации : 61–81.
^ Каур, И. и Хорноф, А. Дж. (2005). «Сравнение LSA, wordNet и PMI-IR для прогнозирования поведения пользователя при щелчке». Труды конференции SIGCHI по человеческому фактору в вычислительных системах . стр. 51–60. doi :10.1145/1054972.1054980. ISBN 978-1-58113-998-3. S2CID 14347026.
^ Методы обучения на основе сходства для семантической паутины (К. д'Амато, докторская диссертация)
^ Gracia, J. & Mena, E. (2008). "Web-Based Measure of Semantic Relatedness" (PDF) . Труды 9-й Международной конференции по проектированию веб-информационных систем (WISE '08) : 136–150.
^ Равиндранатан, П. (2005). Определение наборов родственных слов из Всемирной паутины. Диссертация на соискание степени магистра наук, Университет Миннесоты в Дулуте.
^ Вуббен, С. (2008). Использование свободной структуры ссылок для вычисления семантической связанности. В серии технических отчетов исследовательской группы ILK, № 08-01, 2008.
^ Juvina, I., van Oostendorp, H., Karbor, P., & Pauw, B. (2005). К моделированию контекстной информации в веб-навигации. В BG Bara & L. Barsalou & M. Bucciarelli (ред.), 27-е ежегодное собрание Cognitive Science Society, CogSci2005 (стр. 1078–1083). Остин, Техас: The Cognitive Science Society, Inc.
^ Навильи, Р., Лапата, М. (2007). Меры связности графов для неконтролируемого устранения неоднозначности смысла слов, Труды 20-й Международной совместной конференции по искусственному интеллекту (IJCAI 2007), Хайдарабад, Индия, 6–12 января 2007 г., стр. 1683–1688.
^ Пиролли, П. (2005). «Рациональный анализ поиска информации в Интернете». Когнитивная наука . 29 (3): 343–373. doi : 10.1207/s15516709cog0000_20 . PMID 21702778.
^ Pirolli, P. & Fu, W.-T. (2003). "SNIF-ACT: модель поиска информации во Всемирной паутине". Lecture Notes in Computer Science . Vol. 2702. pp. 45–54. CiteSeerX 10.1.1.6.1506 . doi :10.1007/3-540-44963-9_8. ISBN 978-3-540-40381-4.
^ Turney, P. (2001). Mining the Web for Synonyms: PMI против LSA в TOEFL. В L. De Raedt & P. Flach (ред.), Proceedings of the Twelfth European Conference on Machine Learning (ECML-2001) (стр. 491–502). Фрайбург, Германия.
^ Реймерс, Нильс; Гуревич, Ирина (ноябрь 2019 г.). «Предложение-BERT: Встраивание предложений с использованием сиамских сетей BERT». Труды конференции 2019 года по эмпирическим методам обработки естественного языка и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP) . Гонконг, Китай: Ассоциация компьютерной лингвистики. стр. 3982–3992. arXiv : 1908.10084 . doi : 10.18653/v1/D19-1410 .
^ Мюллер, Йонас; Тиагараджан, Адитья (2016-03-05). «Сиамские рекуррентные архитектуры для изучения сходства предложений». Тридцатая конференция AAAI по искусственному интеллекту . 30. doi : 10.1609/aaai.v30i1.10350 . S2CID 16657628.
^ Кирос, Райан; Чжу, Юкунь; Салахутдинов, Расс Р.; Земель, Ричард; Уртасун, Ракель; Торральба, Антонио; Фидлер, Саня (2015), Кортес, К.; Лоуренс, Северная Дакота; Ли, Д.Д.; Сугияма, М. (ред.), «Векторы пропуска мысли» (PDF) , Достижения в области нейронных систем обработки информации 28 , Curran Associates, Inc., стр. 3294–3302 , получено 13 марта 2020 г.
^ Cheatham, Michelle; Hitzler, Pascal (2013). «Метрики схожести строк для выравнивания онтологий». В Alani, Harith; Kagal, Lalana; Fokoue, Achille; Groth, Paul; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; Noy, Natasha; Welty, Chris (ред.). Advanced Information Systems Engineering . The Semantic Web – ISWC 2013. Lecture Notes in Computer Science. Vol. 7908. Berlin, Heidelberg: Springer. pp. 294–309. doi : 10.1007/978-3-642-41338-4_19 . ISBN 978-3-642-41338-4. S2CID 18372966.
^ ab Sousa, G., Lima, R., & Trojahn, C. (2022). Взгляд на обучение представлению в сопоставлении онтологий. OM@ISWC .
^ Пекар, Виктор; Штааб, Штеффен (2002). Таксономическое обучение . Труды 19-й международной конференции по компьютерной лингвистике –. Том 1. С. 1–7. doi :10.3115/1072228.1072318.
^ Ченг, Дж.; Клайн, М.; Мартин, Дж.; Финкельштейн, Д.; Авад, Т.; Кулп, Д.; Сиани-Роуз, М.А. (2004). «Алгоритм кластеризации на основе знаний, управляемый онтологией генов». Журнал биофармацевтической статистики . 14 (3): 687–700. doi :10.1081/BIP-200025659. PMID 15468759. S2CID 25224811.
^ Wu, H; Su, Z; Mao, F; Olman, V; Xu, Y (2005). «Прогнозирование функциональных модулей на основе сравнительного анализа генома и применения онтологии генов». Nucleic Acids Research . 33 (9): 2822–37. doi :10.1093/nar/gki573. PMC 1130488. PMID 15901854 .
^ Дель Посо, Анджела; Пасос, Флоренсио; Валенсия, Альфонсо (2008). «Определение функциональных расстояний в онтологии генов». БМК Биоинформатика . 9:50 . дои : 10.1186/1471-2105-9-50 . ПМК 2375122 . ПМИД 18221506.
^ Филип Резник (1995). Крис С. Меллиш (ред.). «Использование информационного содержания для оценки семантического сходства в таксономии». Труды 14-й Международной совместной конференции по искусственному интеллекту (IJCAI'95) . 1 : 448–453. arXiv : cmp-lg/9511007 . Bibcode : 1995cmp.lg...11007R. CiteSeerX 10.1.1.41.6956 .
^ Dekang Lin. 1998. Информационно-теоретическое определение сходства. В трудах пятнадцатой международной конференции по машинному обучению (ICML '98), Jude W. Shavlik (ред.). Morgan Kaufmann Publishers Inc., Сан-Франциско, Калифорния, США, 296–304
^ Ана Габриэла Магуитман, Филиппо Менцер, Хизер Ройнестад, Алессандро Веспиньяни: Алгоритмическое обнаружение семантического сходства. WWW 2005: 107–116
^ JJ Jiang и DW Conrath. Семантическое сходство на основе корпусной статистики и лексической таксономии. В сборнике статей Международной конференции по исследованиям в области компьютерной лингвистики (ROCLING X), страницы 9008+, сентябрь 1997 г.
^ MT Pilehvar, D. Jurgens и R. Navigli. Align, Disambiguate and Walk: A Unified Approach for Measuring Semantic Similarity.. Труды 51-го ежегодного заседания Ассоциации компьютерной лингвистики (ACL 2013), София, Болгария, 4–9 августа 2013 г., стр. 1341–1351.
^ Донг, Хай (2009). «Гибридная модель меры сходства концепций для среды онтологии». На пути к осмысленным интернет-системам: семинары OTM 2009. Конспект лекций по информатике. Том 5872. С. 848–857. Bibcode : 2009LNCS.5872..848D. doi : 10.1007/978-3-642-05290-3_103. ISBN 978-3-642-05289-7.
^ Донг, Хай (2011). «Контекстно-зависимая семантическая модель сходства для онтологических сред». Параллелизм и вычисления: практика и опыт . 23 (2): 505–524. doi :10.1002/cpe.1652. S2CID 412845.
^ Ландауэр, TK; Дюмейс, ST (1997). «Решение проблемы Платона: теория латентного семантического анализа приобретения, индукции и представления знаний» (PDF) . Psychological Review . 104 (2): 211–240. CiteSeerX 10.1.1.184.4759 . doi :10.1037/0033-295x.104.2.211. S2CID 1144461.
^ Ландауэр, TK; Фольц, PW и Лахам, Д. (1998). «Введение в латентный семантический анализ» (PDF) . Дискурсивные процессы . 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109 . doi :10.1080/01638539809545028. S2CID 16625196.
^ «Расстояние сходства Google».
^ Каррильо, Ф.; Чекки, ГА; Сигман, М.; Слезак, ДФ (2015). «Быстрая распределенная динамика семантических сетей через социальные медиа» (PDF) . Вычислительный интеллект и нейронаука . 2015 : 712835. doi : 10.1155/2015/712835 . PMC 4449913 . PMID 26074953.
^ "Самер Хассан" (PDF) .^{[ мертвая ссылка ]}
^ Уилсон Вонг; Вэй Лю; Мохаммед Беннамун (ноябрь 2006 г.). Сходства без признаков для кластеризации терминов с использованием муравьев, пересекающих дерево. PCAR '06: Труды международного симпозиума 2006 г. по практическим когнитивным агентам и роботам. С. 177–191. doi :10.1145/1232425.1232448.
^ "6 степеней Википедии". Хроника высшего образования . The Wired Campus. 28 мая 2008 г. Архивировано из оригинала 30 мая 2008 г.
^ Векслер В. Д.; Райан З. Говостес (2008). «Определение измерений семантического пространства человека» (PDF) .
^ J. Camacho-Collados; MT Pilehvar; R. Navigli (2015). NASARI: новый подход к семантически-осознанному представлению элементов (PDF) . Труды североамериканского отделения Ассоциации компьютерной лингвистики (NAACL 2015). Денвер, США. С. 567–577.
^ J. Camacho-Collados; MT Pilehvar; R. Navigli (27–29 июля 2015 г.). Унифицированное многоязычное семантическое представление концептов (PDF) . Труды 53-го ежегодного заседания Ассоциации компьютерной лингвистики (ACL 2015). Пекин, Китай. С. 741–751.
^ Fähndrich J.; Weber S.; Ahrndt S. (2016). «Разработка и использование меры семантического сходства для обеспечения взаимодействия между агентами». В Klusch M.; Unland R.; Shehory O.; Pokahr A.; Ahrndt S. (ред.). Технологии многоагентных систем . MATES 2016. Конспект лекций по информатике. Том 9872. Springer.Доступно в версии автора
^ C. d'Amato; S. Staab; N. Fanizzi (2008). «О влиянии онтологий дескриптивной логики на концептуальное сходство». Knowledge Engineering: Practice and Patterns . pp. 48–63. doi :10.1007/978-3-540-87696-0_7.
^ Бендек, Ф. (2008). WSM-P Workflow Semantic Matching Platform, докторская диссертация, Трирский университет, Германия . Verlag Dr. Hut. ASIN 3899638549.
^ Рубенштейн, Герберт и Джон Б. Гуденаф. Контекстуальные корреляты синонимии. Communications of the ACM, 8(10):627–633, 1965.
^ Список наборов данных и обзор современного состояния дел см. на сайте https://www.aclweb.org/.
^ Рубенштейн, Герберт; Гуденаф, Джон Б. (1965-10-01). «Контекстуальные корреляты синонимии». Сообщения ACM . 8 (10): 627–633. doi : 10.1145/365628.365657 . S2CID 18309234.
^ Миллер, Джордж А.; Чарльз, Уолтер Г. (1991-01-01). «Контекстуальные корреляты семантического сходства». Язык и когнитивные процессы . 6 (1): 1–28. doi :10.1080/01690969108406936. ISSN 0169-0965.
^ «Помещение поиска в контекст». ACM Transactions on Information Systems . 20 : 116–131. 2002-01-01. CiteSeerX 10.1.1.29.1912 . doi : 10.1145/503104.503110. S2CID 12956853.

Источники

Chicco, D; Masseroli, M (2015). «Программный пакет для прогнозирования аннотаций генов и белков и поиска сходства». Труды IEEE/ACM по вычислительной биологии и биоинформатике . 12 (4): 837–843. doi : 10.1109/TCBB.2014.2382127. hdl : 11311/959408 . PMID 26357324. S2CID 14714823.
Cilibrasi, RL & Vitanyi, PMB (2007). «Расстояние сходства Google». IEEE Trans. Knowledge and Data Engineering . 19 (3): 370–383. arXiv : cs/0412098 . doi :10.1109/TKDE.2007.48. S2CID 59777.
Дюмейс, С. (2003). «Подходы к доступу к информации, основанные на данных». Когнитивная наука . 27 (3): 491–524. doi : 10.1207/s15516709cog2703_7 .
Габрилович, Э. и Маркович, С. (2007). Вычисление семантической связанности с использованием явного семантического анализа на основе Википедии, Труды 20-й Международной совместной конференции по искусственному интеллекту (IJCAI), Хайдарабад, Индия, январь 2007 г.
Ли, МД, Пинкомб, Б. и Уэлш, М. (2005). Эмпирическая оценка моделей сходства текстовых документов. В BG Bara & L. Barsalou & M. Bucciarelli (ред.), 27-е ежегодное собрание Cognitive Science Society, CogSci2005 (стр. 1254–1259). Остин, Техас: The Cognitive Science Society, Inc.
Lemaire, B., & Denhiére, G. (2004). Инкрементальное построение ассоциативной сети из корпуса. В KD Forbus & D. Gentner & T. Regier (редакторы), 26-е ежегодное собрание Общества когнитивной науки, CogSci2004. Хиллсдейл, Нью-Джерси: Издательство Lawrence Erlbaum.
Линдси, Р.; Векслер, В. Д.; Гринцвайг, А.; Грей, В. Д. (2007). «Влияние выбора корпуса на измерение семантической связанности» (PDF) . Труды 8-й Международной конференции по когнитивному моделированию, Энн-Арбор, Мичиган .
Навильи, Р., Лапата, М. (2010). «Экспериментальное исследование связности графов для неконтролируемого разрешения неоднозначности смысла слов». Труды IEEE по анализу шаблонов и машинному интеллекту (TPAMI), 32(4), IEEE Press, 2010, стр. 678–692.
Векслер, В. Д. и Грей, В. Д. (2006). "Выбор тестовых случаев для оценки мер семантического расстояния" (PDF) . Труды 28-го ежегодного собрания Общества когнитивной науки, CogSci2006 .
Wong, W., Liu, W. & Bennamoun, M. (2008) Featureless Data Clustering. В: M. Song и Y. Wu; Handbook of Research on Text and Web Mining Technologies; IGI Global. ISBN 978-1-59904-990-8 (использование NGD и noW для кластеризации терминов и URI)

Внешние ссылки

Список литературы по теме

Обзорные статьи

Статья на конференции : C. d'Amato, S. Staab, N. Fanizzi. 2008. On the Influence of Description Logics Ontologies on Conceptual Similarity. В трудах 16-й международной конференции Knowledge Engineering: Practice and Patterns Pages 48 – 63. Acitrezza, Italy, Springer-Verlag
Статья в журнале по более общей теме родства, включая также сходство: Z. Zhang, A. Gentile, F. Ciravegna. 2013. Последние достижения в методах лексико-семантического родства – обзор. Natural Language Engineering 19 (4), 411–479, Cambridge University Press
Книга : С. Хариспе, С. Ранвез, С. Джанаки, Дж. Монтмейн. 2015. Семантическое сходство на основе естественного языка и анализа онтологии, издательство Morgan & Claypool Publishers.