В статистике и смежных областях мера сходства или функция сходства или метрика сходства — это вещественная функция , которая количественно определяет сходство между двумя объектами. Хотя не существует единого определения сходства, обычно такие меры в некотором смысле являются обратными метрикам расстояния : они принимают большие значения для похожих объектов и либо нулевые, либо отрицательные значения для очень непохожих объектов. Хотя, в более широком смысле, функция сходства может также удовлетворять метрическим аксиомам.
Косинусное сходство — это часто используемая мера сходства для векторов с действительными значениями, используемая (среди прочих областей) в поиске информации для оценки сходства документов в модели векторного пространства . В машинном обучении общие функции ядра , такие как ядро RBF, можно рассматривать как функции сходства. [1]
Для различных типов объектов существуют различные типы мер сходства, в зависимости от сравниваемых объектов. Для каждого типа объекта существуют различные формулы измерения сходства. [2]
Сходство между двумя точками данных
Существует множество различных вариантов поиска сходства между двумя точками данных, некоторые из которых представляют собой комбинацию других методов сходства. Некоторые из методов измерения сходства между двумя точками данных включают евклидово расстояние, манхэттенское расстояние, расстояние Минковского и расстояние Чебышева. Формула евклидова расстояния используется для поиска расстояния между двумя точками на плоскости, что визуализировано на изображении ниже. Манхэттенское расстояние обычно используется в приложениях GPS , поскольку его можно использовать для поиска кратчайшего маршрута между двумя адресами. [ необходима цитата ] При обобщении формулы евклидова расстояния и формулы манхэттенского расстояния остаются формулы расстояния Минковского , которые можно использовать в самых разных приложениях.
Сходство между строками
Для сравнения строк можно использовать различные меры сходства строк . Некоторые из этих методов включают расстояние редактирования, расстояние Левенштейна, расстояние Хэмминга и расстояние Джаро. Оптимальная формула зависит от требований приложения. Например, расстояние редактирования часто используется для приложений и функций обработки естественного языка , таких как проверка орфографии. Расстояние Джаро обычно используется при связывании записей для сравнения имен и фамилий с другими источниками.
Сходство между двумя распределениями вероятностей
Типичными мерами сходства для распределений вероятностей являются расстояние Бхаттачарьи и расстояние Хеллингера . Оба они обеспечивают количественную оценку сходства для двух распределений вероятностей в одной и той же области, и они математически тесно связаны. Расстояние Бхаттачарьи не удовлетворяет неравенству треугольника , то есть оно не образует метрику . Расстояние Хеллингера образует метрику в пространстве распределений вероятностей.
Сходство между двумя множествами
Формула индекса Жаккара измеряет сходство между двумя наборами на основе количества элементов, присутствующих в обоих наборах, относительно общего количества элементов. Она обычно используется в рекомендательных системах и анализе социальных сетей [ требуется ссылка ] . Коэффициент Сёренсена–Дайса также сравнивает количество элементов в обоих наборах с общим количеством присутствующих элементов, но вес для количества общих элементов больше. Коэффициент Сёренсена–Дайса обычно используется в биологических приложениях для измерения сходства между двумя наборами генов или видов [ требуется ссылка ] .
Сходство между двумя последовательностями
При сравнении временных последовательностей (временных рядов) некоторые меры сходства должны дополнительно учитывать сходство двух последовательностей, которые не полностью выровнены.
Кластеризация или кластерный анализ — это метод добычи данных, который используется для обнаружения закономерностей в данных путем группировки похожих объектов. Он включает в себя разбиение набора точек данных на группы или кластеры на основе их сходства. Одним из фундаментальных аспектов кластеризации является измерение сходства между точками данных.
Меры сходства играют решающую роль во многих методах кластеризации, поскольку они используются для определения того, насколько тесно связаны две точки данных и следует ли их группировать в один кластер. Мера сходства может принимать различные формы в зависимости от типа кластеризуемых данных и конкретной решаемой проблемы.
Одной из наиболее часто используемых мер сходства является евклидово расстояние , которое используется во многих методах кластеризации, включая кластеризацию методом K-средних и иерархическую кластеризацию . Евклидово расстояние — это мера расстояния по прямой между двумя точками в многомерном пространстве. Оно вычисляется как квадратный корень из суммы квадратов разностей между соответствующими координатами двух точек. Например, если у нас есть две точки данных и , евклидово расстояние между ними равно .
Другой часто используемой мерой сходства является индекс Жаккара или сходство Жаккара, которое используется в методах кластеризации, работающих с двоичными данными, такими как данные о присутствии/отсутствии [3] или логические данные; Сходство Жаккара особенно полезно для методов кластеризации, работающих с текстовыми данными, где его можно использовать для идентификации кластеров похожих документов на основе их общих признаков или ключевых слов. [4] Он рассчитывается как размер пересечения двух множеств, деленный на размер объединения двух множеств: .
Сходства среди 162 соответствующих ядерных профилей проверяются с помощью меры сходства Жаккара (см. рисунок с тепловой картой). Сходство Жаккара ядерного профиля варьируется от 0 до 1, где 0 указывает на отсутствие сходства между двумя наборами, а 1 указывает на идеальное сходство с целью кластеризации наиболее похожего ядерного профиля.
Манхэттенское расстояние, также известное как геометрия такси , является широко используемой мерой сходства в методах кластеризации, работающих с непрерывными данными. Это мера расстояния между двумя точками данных в многомерном пространстве, вычисляемая как сумма абсолютных разностей между соответствующими координатами двух точек .
При работе со смешанными типами данных, включая номинальные, порядковые и числовые атрибуты для каждого объекта, расстояние Гауэра (или сходство) является распространенным выбором, поскольку оно может неявно обрабатывать различные типы переменных. Сначала оно вычисляет сходства между парой переменных в каждом объекте, а затем объединяет эти сходства в одно взвешенное среднее для пары объектов. Таким образом, для двух объектов и с дескрипторами сходство определяется как: где — неотрицательные веса, а — сходство между двумя объектами относительно их -й переменной.
В спектральной кластеризации мера сходства или сродства используется для преобразования данных с целью преодоления трудностей, связанных с отсутствием выпуклости в форме распределения данных. [5] Мера приводит к -размеруМатрица подобия для набора изnточек, где записьв матрице может быть просто (обратной величиной)евклидового расстояниямеждуи, или это может быть более сложная мера расстояния, такая как гауссово.[5] Дальнейшая модификация этого результата с помощью методов сетевого анализа также является распространенной.[6]
Выбор меры сходства зависит от типа кластеризуемых данных и конкретной решаемой задачи. Например, при работе с непрерывными данными, такими как данные об экспрессии генов, может быть целесообразным евклидово расстояние или косинусное сходство. При работе с бинарными данными, такими как наличие геномных локусов в ядерном профиле, может быть более целесообразным индекс Жаккара. Наконец, при работе с данными, которые организованы в сетку или решетчатую структуру, такими как данные обработки изображений или сигналов, манхэттенское расстояние особенно полезно для кластеризации.
Меры сходства используются для разработки рекомендательных систем . Он наблюдает за восприятием и симпатией пользователя к нескольким элементам. В рекомендательных системах метод использует расчет расстояния, такой какЕвклидово расстояние илиКосинусное подобие для созданияматрица сходства со значениями, представляющими сходство любой пары целей. Затем, анализируя и сравнивая значения в матрице, можно сопоставить две цели с предпочтениями пользователя или связать пользователей на основе их оценок. В этой системе важно наблюдать само значение и абсолютное расстояние между двумя значениями.[7]Сбор этих данных может указать на вероятность оценки для пользователя, а также на то, насколько взаимно близки две оценки либо отклоняются, либо принимаются. Затем можно рекомендовать пользователю цели с высокой степенью сходства с симпатиями пользователя.
Рекомендательные системы наблюдаются на многочисленных платформах онлайн-развлечений, в социальных сетях и на сайтах потокового вещания. Логика построения этих систем основана на мерах сходства. [ необходима цитата ]
Матрицы сходства используются при выравнивании последовательностей . Более высокие баллы даются более похожим символам, а более низкие или отрицательные баллы — непохожим символам.
Матрицы сходства нуклеотидов используются для выравнивания последовательностей нуклеиновых кислот . Поскольку в ДНК обычно встречаются только четыре нуклеотида ( аденин (A), цитозин (C), гуанин (G) и тимин (T)), матрицы сходства нуклеотидов намного проще матриц сходства белков . Например, простая матрица присвоит идентичным основаниям оценку +1, а неидентичным основаниям оценку -1. Более сложная матрица даст более высокую оценку переходам (изменениям от пиримидина, такого как C или T, к другому пиримидину, или от пурина , такого как A или G, к другому пурину), чем трансверсиям (от пиримидина к пурину или наоборот). Соотношение совпадений/несовпадений матрицы устанавливает целевое эволюционное расстояние. [8] [9] Матрица ДНК +1/−3, используемая BLASTN, лучше всего подходит для поиска совпадений между последовательностями, которые идентичны на 99%; Матрица +1/−1 (или +4/−4) гораздо больше подходит для последовательностей с примерно 70% сходства. Матрицы для последовательностей с более низким сходством требуют более длинных выравниваний последовательностей.
Матрицы сходства аминокислот более сложны, поскольку генетический код кодирует 20 аминокислот , а значит, и большее количество возможных замен. Поэтому матрица сходства аминокислот содержит 400 записей (хотя обычно она симметрична ). Первый подход оценивал все изменения аминокислот одинаково. Более позднее уточнение заключалось в определении сходства аминокислот на основе того, сколько изменений оснований требовалось для изменения кодона для кодирования этой аминокислоты. Эта модель лучше, но она не учитывает селективное давление изменений аминокислот. Лучшие модели учитывали химические свойства аминокислот.
Один из подходов заключался в эмпирическом создании матриц сходства. Метод Дейхоффа использовал филогенетические деревья и последовательности, взятые из видов на дереве. Этот подход привел к появлению серии матриц PAM . Матрицы PAM маркируются на основе того, сколько нуклеотидных изменений произошло на 100 аминокислот. Хотя матрицы PAM выигрывают от наличия хорошо понятой эволюционной модели, они наиболее полезны на коротких эволюционных расстояниях (PAM10–PAM120). На длинных эволюционных расстояниях, например PAM250 или 20% идентичности, было показано, что матрицы BLOSUM гораздо более эффективны.
Ряды BLOSUM были получены путем сравнения ряда расходящихся последовательностей. Ряды BLOSUM маркируются на основе того, сколько энтропии остается неизмененной между всеми последовательностями, поэтому меньшее число BLOSUM соответствует большему числу PAM.
{{cite book}}
: CS1 maint: другие ( ссылка )