Сокращение данных — это преобразование числовой или алфавитной цифровой информации, полученной эмпирическим или экспериментальным путем , в исправленную, упорядоченную и упрощенную форму. Цель сокращения данных может быть двоякой: сокращение количества записей данных путем исключения недействительных данных или получение сводных данных и статистики на разных уровнях агрегации для различных приложений. [1] Сокращение данных не обязательно означает потерю информации. Например, индекс массы тела сводит два измерения (тело и массу) к одному показателю без потери какой-либо информации в этом процессе.
Когда информация извлекается из показаний приборов, может также иметь место преобразование из аналоговой в цифровую форму. Когда данные уже находятся в цифровой форме, «преобразование» данных обычно включает в себя некоторое редактирование, масштабирование , кодирование , сортировку , сопоставление и создание табличных сводок. Когда наблюдения дискретны, но лежащее в их основе явление непрерывно, то часто требуются сглаживание и интерполяция . Преобразование данных часто выполняется при наличии ошибок чтения или измерения . Необходимо некоторое представление о природе этих ошибок, прежде чем можно будет определить наиболее вероятное значение.
Примером в астрономии является обработка данных на спутнике Kepler . Этот спутник записывает 95-мегапиксельные изображения каждые шесть секунд, генерируя десятки мегабайт данных в секунду, что на порядки больше пропускной способности нисходящей линии связи в 550 кБ/с . Обработка данных на борту включает в себя совместное сложение необработанных кадров в течение тридцати минут, что сокращает пропускную способность в 300 раз. Кроме того, интересные цели предварительно выбираются, и обрабатываются только соответствующие пиксели, что составляет 6% от общего числа. Затем эти сокращенные данные отправляются на Землю, где они обрабатываются дальше.
Также проводились исследования по использованию сокращения данных в носимых (беспроводных) устройствах для мониторинга и диагностики здоровья. Например, в контексте диагностики эпилепсии сокращение данных использовалось для увеличения срока службы батареи носимого устройства ЭЭГ путем выбора и передачи только тех данных ЭЭГ, которые имеют отношение к диагностике, и отбрасывания фоновой активности. [2]
При увеличении размерности данные становятся все более разреженными, в то время как плотность и расстояние между точками, критически важные для кластеризации и анализа выбросов, становятся менее значимыми. Снижение размерности помогает уменьшить шум в данных и упрощает визуализацию, например, как в примере ниже, где трехмерные данные преобразуются в двухмерные, чтобы показать скрытые части. Одним из методов снижения размерности является вейвлет-преобразование , при котором данные преобразуются для сохранения относительного расстояния между объектами на разных уровнях разрешения, и часто используется для сжатия изображений . [3]
Этот метод сокращения данных уменьшает объем данных за счет выбора альтернативных, меньших форм представления данных. Сокращение числа можно разделить на 2 группы: параметрические и непараметрические методы. Параметрические методы (например, регрессия) предполагают, что данные соответствуют некоторой модели, оценивают параметры модели, сохраняют только параметры и отбрасывают данные. Один из примеров этого представлен на изображении ниже, где объем данных, подлежащих обработке, сокращается на основе более конкретных критериев. Другим примером может служить логарифмически линейная модель , получающая значение в точке в пространстве mD как произведение на соответствующие маргинальные подпространства. Непараметрические методы не предполагают моделей, некоторые примеры — гистограммы, кластеризация, выборка и т. д. [4]
Сокращение данных может быть получено путем предположения статистической модели для данных. Классические принципы сокращения данных включают достаточность , правдоподобие , обусловленность и эквивариантность . [5]