Мера расстояния в статистике
В статистике расстояние Гауэра между двумя объектами смешанного типа является мерой сходства , которая может обрабатывать различные типы данных в одном наборе данных и особенно полезна в кластерном анализе или других многомерных статистических методах. Данные могут быть бинарными, порядковыми или непрерывными переменными . Оно работает путем нормализации различий между каждой парой переменных и последующего вычисления средневзвешенного значения этих различий. Расстояние было определено в 1971 году Гауэром [1] и принимает значения от 0 до 1, причем меньшие значения указывают на большее сходство.
Определение
Для двух объектов , имеющих дескрипторы, сходство определяется как:
где — неотрицательные веса, обычно установленные на [2] , а — сходство между двумя объектами относительно их -й переменной. Если переменная является бинарной или порядковой, значения равны 0 или 1, причем 1 обозначает равенство. Если переменная непрерывна, причем — диапазон -й переменной и, таким образом, обеспечивается . В результате общее сходство между двумя объектами — это средневзвешенное значение сходств, рассчитанных для всех их дескрипторов. [3]
В своем первоначальном изложении расстояние не трактует порядковые переменные особым образом. В 1990-х годах сначала Кауфман и Руссеув [4], а затем Подани [5] предложили расширения, в которых используется упорядочение порядкового признака. Например, Подани получает относительные ранговые различия как с рангами, соответствующими упорядоченным категориям -й переменной.
Реализации программного обеспечения
Многие языки программирования и статистические пакеты, такие как R , Python и т. д., включают реализации расстояния Гауэра. Реализации могут следовать расширениям Кауфмана и Руссеу, которые изменяют сходство для непрерывных переменных на [6]
Ссылки
- ^ Gower, John C (1971). «Общий коэффициент сходства и некоторые его свойства». Biometrics . 27 (4): 857–871. doi :10.2307/2528823. JSTOR 2528823 . Получено 2024-06-03 .
- ^ Борг, Ингвер; Гроенен, Патрик Дж. Ф. (2005). Современное многомерное масштабирование: теория и приложения (2-е изд.). Нью-Йорк [Гейдельберг]: Спрингер. стр. 124–125. ISBN 978-0387-25150-9.
- ^ Лежандр, Пьер; Лежандр, Луи (2012). Числовая экология (Третье английское изд.). Амстердам: Elsevier. С. 278–280. ISBN 978-0-444-53868-0.
- ^ Кауфман, Леонард; Руссью, Питер Дж. (1990). Поиск групп в данных: введение в кластерный анализ . Нью-Йорк: Wiley. С. 35–36. ISBN 9780471878766.
- ^ Подани, Янош (май 1999). «Распространение общего коэффициента сходства Гауэра на порядковые признаки». Таксон . 48 (2): 331–340. doi :10.2307/1224438. JSTOR 1224438.
- ^ D'Orazio, Marcello. "gower.dist {StatMatch}". Проект R для статистических вычислений . Получено 31 октября 2024 г.