Дистанционная выборка — это широко используемая группа тесно связанных методов оценки плотности и/или численности популяций . Основные методы основаны на линейных трансектах или точечных трансектах . [1] [2] При этом методе выборки собранные данные представляют собой расстояния объектов , которые обследуются, от этих случайно размещенных линий или точек, а цель состоит в том, чтобы оценить среднюю плотность объектов в пределах региона. [3]
Распространенным подходом к выборке расстояния является использование линейных трансект. Наблюдатель пересекает прямую линию (размещенную случайным образом или следуя некоторому запланированному распределению). Всякий раз, когда они наблюдают интересующий их объект (например, животное исследуемого типа), они регистрируют расстояние от своего текущего положения до объекта ( r ), а также угол обнаружения к линии трансекты ( θ ). Расстояние от объекта до трансекты затем можно рассчитать как x = r * sin( θ ). Эти расстояния x являются расстояниями обнаружения, которые будут проанализированы в дальнейшем моделировании.
Объекты обнаруживаются на заранее определенном максимальном расстоянии обнаружения w . Не все объекты в пределах w будут обнаружены, но фундаментальное предположение заключается в том, что все объекты на нулевом расстоянии (т. е. на самой линии) обнаруживаются. Таким образом, ожидается, что общая вероятность обнаружения будет равна 1 на линии и будет уменьшаться с увеличением расстояния от линии. Распределение наблюдаемых расстояний используется для оценки «функции обнаружения», которая описывает вероятность обнаружения объекта на заданном расстоянии. Учитывая, что выполняются различные основные предположения, эта функция позволяет оценить среднюю вероятность P обнаружения объекта, заданного тем, что он находится в пределах ширины w от линии. Затем плотность объектов можно оценить как D = n / ( P * a ) , где n — количество обнаруженных объектов, а a — размер охваченной области (общая длина трансекты ( L ), умноженная на 2 w ).
Подводя итог, можно сказать, что моделирование того, как падает обнаруживаемость с увеличением расстояния от трансекты, позволяет оценить общее количество объектов в интересующей области на основе числа фактически наблюдаемых объектов. [2]
Методология обследования для точечных трансект немного отличается. В этом случае наблюдатель остается неподвижным, обследование заканчивается не при достижении конца трансекты, а по истечении заранее определенного времени, а измеренные расстояния до наблюдателя используются напрямую, без преобразования в поперечные расстояния. Типы функций обнаружения и подгонка также в некоторой степени различаются. [2]
Падение обнаруживаемости с увеличением расстояния от линии трансекты моделируется с помощью функции обнаружения g( y ) (здесь y — расстояние от линии). Эта функция подгоняется под распределение дальностей обнаружения, представленное в виде функции плотности вероятности (PDF). PDF представляет собой гистограмму собранных расстояний и описывает вероятность того, что объект на расстоянии y будет обнаружен наблюдателем на центральной линии, при этом обнаружения на самой линии ( y = 0) предполагаются определенными ( P = 1).
По предпочтению, g( y ) является надежной функцией, которая может представлять данные с неясными или слабо определенными характеристиками распределения, как это часто бывает в полевых данных. Обычно используются несколько типов функций в зависимости от общей формы PDF данных обнаружения:
Здесь w — это общее расстояние усечения обнаружения, а a , b и σ — параметры, специфичные для функции. Обычно считается, что функции полунормальной функции и функции уровня опасности с наибольшей вероятностью представляют полевые данные, собранные в хорошо контролируемых условиях. Вероятность обнаружения, которая, по-видимому, увеличивается или остается постоянной с расстоянием от линии трансекты, может указывать на проблемы со сбором данных или дизайном обследования. [2]
Часто используемый метод улучшения соответствия функции обнаружения данным — использование расширений рядов. Здесь функция разделяется на «ключевую» часть (типа, описанного выше) и «рядовую» часть; т. е. g( y ) = key( y )[1 + series( y )]. Ряд обычно принимает форму полинома ( например, полинома Эрмита ) и предназначен для добавления гибкости форме ключевой функции, позволяя ей более точно соответствовать PDF данных. Хотя это может повысить точность оценок плотности/обилия, его использование оправдано только в том случае, если набор данных имеет достаточный размер и качество для представления надежной оценки распределения расстояния обнаружения. В противном случае существует риск переобучения данных и позволяет нерепрезентативным характеристикам набора данных смещать процесс подгонки. [2] [4]
Поскольку дистанционная выборка является сравнительно сложным методом обследования, надежность результатов модели зависит от выполнения ряда основных предположений. Наиболее фундаментальные из них перечислены ниже. Данные, полученные в результате обследований, которые нарушают одно или несколько из этих предположений, часто, но не всегда, могут быть скорректированы в некоторой степени до или во время анализа. [1] [2]
Проектная группа в Университете Сент-Эндрюс поддерживает набор пакетов для использования с R, а также отдельную программу для Windows. [5]