В статистике скрытые переменные (от латинского причастия настоящего времени от lateo , «лежать скрытым» [1] ) — это переменные , которые могут быть выведены только косвенно с помощью математической модели из других наблюдаемых переменных , которые можно непосредственно наблюдать или измерять . [2] Такие модели скрытых переменных используются во многих дисциплинах, включая инженерию , медицину , экологию , физику , машинное обучение / искусственный интеллект , обработку естественного языка , биоинформатику , хемометрику , демографию , экономику , менеджмент , политологию , психологию и социальные науки .
Скрытые переменные могут соответствовать аспектам физической реальности. В принципе их можно измерить, но по практическим причинам это невозможно. Среди самых ранних выражений этой идеи — полемическое произведение Фрэнсиса Бэкона « Новый Органон» , которое само по себе является вызовом более традиционной логике, выраженной в «Органоне » Аристотеля .
Но скрытый процесс, о котором мы говорим, далек от того, чтобы быть очевидным для умов людей, осаждаемыми, как они сейчас. Ибо мы имеем в виду не меры, симптомы или степени любого процесса, которые могут быть обнаружены в самих телах, а просто продолжающийся процесс, который, по большей части, ускользает от наблюдения чувств.
- Фрэнсис Бэкон , Novum Organum [3]
В этой ситуации обычно используется термин скрытые переменные (отражающий тот факт, что переменные имеют смысл, но не наблюдаются). Другие скрытые переменные соответствуют абстрактным концепциям, таким как категории, поведенческие или ментальные состояния или структуры данных. Термины гипотетические переменные или гипотетические конструкции могут использоваться в этих ситуациях.
Использование скрытых переменных может служить для уменьшения размерности данных. Многие наблюдаемые переменные могут быть объединены в модель для представления базовой концепции, что упрощает понимание данных. В этом смысле они выполняют функцию, аналогичную функции научных теорий. В то же время скрытые переменные связывают наблюдаемые « субсимволические » данные в реальном мире с символическими данными в моделируемом мире.
Скрытые переменные, созданные методами факторного анализа, обычно представляют собой «общую» дисперсию или степень, в которой переменные «движутся» вместе. Переменные, которые не имеют корреляции, не могут привести к скрытой конструкции, основанной на модели общего фактора . [5]
Примерами скрытых переменных из области экономики являются качество жизни , деловая уверенность, мораль, счастье и консерватизм: все это переменные, которые нельзя измерить напрямую. Но связывая эти скрытые переменные с другими, наблюдаемыми переменными, значения скрытых переменных можно вывести из измерений наблюдаемых переменных. Качество жизни — это скрытая переменная, которую нельзя измерить напрямую, поэтому наблюдаемые переменные используются для вывода о качестве жизни. Наблюдаемые переменные для измерения качества жизни включают богатство, занятость, окружающую среду, физическое и психическое здоровье, образование, отдых и свободное время, а также социальную принадлежность.
Методология латентных переменных используется во многих отраслях медицины . Класс проблем, которые естественным образом поддаются подходам латентных переменных, — это продольные исследования , в которых временная шкала (например, возраст участника или время с момента начала исследования) не синхронизирована с изучаемым признаком. Для таких исследований ненаблюдаемая временная шкала, синхронизированная с изучаемым признаком, может быть смоделирована как преобразование наблюдаемой временной шкалы с использованием латентных переменных. Примерами этого являются моделирование прогрессирования заболевания и моделирование роста (см. вставку).
Существует ряд различных классов моделей и методологий, которые используют скрытые переменные и позволяют делать выводы при наличии скрытых переменных. Модели включают:
Методы анализа и вывода включают в себя:
Байесовская статистика часто используется для вывода скрытых переменных.