stringtranslate.com

Оптимальное соответствие

Оптимальное соответствие — это метод анализа последовательностей , используемый в социальных науках для оценки несходства упорядоченных массивов токенов, которые обычно представляют собой упорядоченную по времени последовательность социально-экономических состояний, которые испытали два человека. После того, как такие расстояния были рассчитаны для набора наблюдений (например, людей в когорте ), можно использовать классические инструменты (такие как кластерный анализ ). Метод был адаптирован для социальных наук [1] ​​из техники, первоначально введенной для изучения последовательностей молекулярной биологии (белковых или генетических) (см. выравнивание последовательностей ). Оптимальное соответствие использует алгоритм Нидлмана-Вунша .

Алгоритм

Пусть — последовательность состояний, принадлежащая конечному множеству возможных состояний. Обозначим пространство последовательностей, т.е. множество всех возможных последовательностей состояний.

Оптимальные алгоритмы сопоставления работают, определяя простые операторные алгебры , которые манипулируют последовательностями, т.е. набор операторов . В самом простом подходе используется набор, состоящий всего из трех основных операций для преобразования последовательностей:

Представьте теперь, что с каждым оператором связана стоимость . При наличии двух последовательностей и идея состоит в том, чтобы измерить стоимость получения из использования операторов из алгебры. Пусть будет последовательностью операторов, такой, что применение всех операторов этой последовательности к первой последовательности дает вторую последовательность : где обозначает составной оператор. С этим набором мы связываем стоимость , которая представляет собой общую стоимость преобразования. На этом этапе следует учитывать, что могут существовать различные такие последовательности , которые преобразуются в ; разумным выбором является выбор самой дешевой из таких последовательностей. Таким образом, мы называем расстояние , то есть стоимостью наименее дорогостоящего набора преобразований, которые превращаются в . Обратите внимание, что по определению неотрицательно, поскольку является суммой положительных стоимостей, и тривиально тогда и только тогда , когда , то есть нет стоимости. Функция расстояния симметрична, если стоимости вставки и удаления равны ; термин стоимость вставки обычно относится к общей стоимости вставки и удаления.

Рассматривая набор, состоящий только из трех базовых операций, описанных выше, эта мера близости удовлетворяет треугольному неравенству. Транзитивность , однако, зависит от определения набора элементарных операций.

Критика

Хотя методы оптимального соответствия широко используются в социологии и демографии, такие методы также имеют свои недостатки. Как было отмечено несколькими авторами (например, LL Wu [2] ), основная проблема в применении оптимального соответствия заключается в правильном определении затрат .

Программное обеспечение

Ссылки и примечания

  1. ^ А. Эбботт и А. Цай, (2000) Анализ последовательностей и методы оптимального соответствия в социологии: обзор и перспективы социологических методов и исследований], т. 29, 3-33. doi :10.1177/0049124100029001001
  2. ^ LL Wu. (2000) Некоторые комментарии к «Анализу последовательностей и методам оптимального соответствия в социологии: обзор и перспективы». Архивировано 24 октября 2006 г. в Wayback Machine Sociological Methods & Research, 29 41-64. doi :10.1177/0049124100029001003