Сокращение данных

Сокращение данных — это преобразование числовой или алфавитной цифровой информации, полученной эмпирическим или экспериментальным путем , в исправленную, упорядоченную и упрощенную форму. Цель сокращения данных может быть двоякой: сокращение количества записей данных путем исключения недействительных данных или получение сводных данных и статистики на разных уровнях агрегации для различных приложений. ^[1] Сокращение данных не обязательно означает потерю информации. Например, индекс массы тела сводит два измерения (тело и массу) к одному показателю без потери какой-либо информации в этом процессе.

Когда информация извлекается из показаний приборов, может также иметь место преобразование из аналоговой в цифровую форму. Когда данные уже находятся в цифровой форме, «преобразование» данных обычно включает в себя некоторое редактирование, масштабирование , кодирование , сортировку , сопоставление и создание табличных сводок. Когда наблюдения дискретны, но лежащее в их основе явление непрерывно, то часто требуются сглаживание и интерполяция . Преобразование данных часто выполняется при наличии ошибок чтения или измерения . Необходимо некоторое представление о природе этих ошибок, прежде чем можно будет определить наиболее вероятное значение.

Примером в астрономии является обработка данных на спутнике Kepler . Этот спутник записывает 95-мегапиксельные изображения каждые шесть секунд, генерируя десятки мегабайт данных в секунду, что на порядки больше пропускной способности нисходящей линии связи в 550 кБ/с . Обработка данных на борту включает в себя совместное сложение необработанных кадров в течение тридцати минут, что сокращает пропускную способность в 300 раз. Кроме того, интересные цели предварительно выбираются, и обрабатываются только соответствующие пиксели, что составляет 6% от общего числа. Затем эти сокращенные данные отправляются на Землю, где они обрабатываются дальше.

Также проводились исследования по использованию сокращения данных в носимых (беспроводных) устройствах для мониторинга и диагностики здоровья. Например, в контексте диагностики эпилепсии сокращение данных использовалось для увеличения срока службы батареи носимого устройства ЭЭГ путем выбора и передачи только тех данных ЭЭГ, которые имеют отношение к диагностике, и отбрасывания фоновой активности. ^[2]

Типы обработки данных

Сокращение размерности

При увеличении размерности данные становятся все более разреженными, в то время как плотность и расстояние между точками, критически важные для кластеризации и анализа выбросов, становятся менее значимыми. Снижение размерности помогает уменьшить шум в данных и упрощает визуализацию, например, как в примере ниже, где трехмерные данные преобразуются в двухмерные, чтобы показать скрытые части. Одним из методов снижения размерности является вейвлет-преобразование , при котором данные преобразуются для сохранения относительного расстояния между объектами на разных уровнях разрешения, и часто используется для сжатия изображений . ^[3]

Пример снижения размерности.

Сокращение численности

Этот метод сокращения данных уменьшает объем данных за счет выбора альтернативных, меньших форм представления данных. Сокращение числа можно разделить на 2 группы: параметрические и непараметрические методы. Параметрические методы (например, регрессия) предполагают, что данные соответствуют некоторой модели, оценивают параметры модели, сохраняют только параметры и отбрасывают данные. Один из примеров этого представлен на изображении ниже, где объем данных, подлежащих обработке, сокращается на основе более конкретных критериев. Другим примером может служить логарифмически линейная модель , получающая значение в точке в пространстве mD как произведение на соответствующие маргинальные подпространства. Непараметрические методы не предполагают моделей, некоторые примеры — гистограммы, кластеризация, выборка и т. д. ^[4]

Пример сокращения данных путем уменьшения численности

Статистическое моделирование

Сокращение данных может быть получено путем предположения статистической модели для данных. Классические принципы сокращения данных включают достаточность , правдоподобие , обусловленность и эквивариантность . ^[5]

Смотрите также

Ссылки

^ "Справочник по сбору данных о времени в пути" (PDF) . Получено 6 декабря 2020 г.
^ Iranmanesh, S.; Rodriguez-Villegas, E. (2017). «Аналоговый чип обработки данных мощностью 950 нВт для носимых систем ЭЭГ при эпилепсии». IEEE Journal of Solid-State Circuits . 52 (9): 2362–2373. Bibcode : 2017IJSSC..52.2362I. doi : 10.1109/JSSC.2017.2720636. hdl : 10044/1/48764 . S2CID 24852887.
^ Хан, Дж.; Камбер, М.; Пей, Дж. (2011). «Data Mining: Concepts and Techniques (3rd ed.)» (PDF) . Получено 6 декабря 2020 г. .
^ Хан, Дж.; Камбер, М.; Пей, Дж. (2011). «Data Mining: Concepts and Techniques (3rd ed.)» (PDF) . Получено 6 декабря 2020 г. .
^ Casella, George (2002). Статистический вывод. Roger L. Berger. Австралия: Thomson Learning. стр. 271–309. ISBN 0-534-24312-6. OCLC 46538638.

Дальнейшее чтение

Эренберг, Эндрю СК (1982). Учебник по сокращению данных: вводный курс по статистике . Нью-Йорк: Wiley. ISBN 0-471-10134-6.