stringtranslate.com

Объединение данных

Биннинг данных , также называемый дискретным биннингом данных или сегментированием данных , представляет собой метод предварительной обработки данных , используемый для снижения влияния незначительных ошибок наблюдения . Исходные значения данных, которые попадают в заданный небольшой интервал, бин , заменяются значением, представляющим этот интервал, часто центральным значением ( средним или медианным ). [ требуется ссылка ] Это связано с квантованием : биннинг данных работает на оси абсцисс , в то время как квантование работает на оси ординат . Биннинг является обобщением округления .

Статистическое биннинг данных — это способ группировки чисел более или менее непрерывных значений в меньшее количество «бинов». Например, если у вас есть данные о группе людей, вы можете захотеть организовать их возраст в меньшее количество возрастных интервалов (например, группируя каждые пять лет вместе). Его также можно использовать в многомерной статистике , бинируя в нескольких измерениях одновременно.

В цифровой обработке изображений «биннинг» имеет совершенно иное значение. Биннинг пикселей — это процесс объединения блоков соседних пикселей по всему изображению путем суммирования или усреднения их значений во время или после считывания. Это уменьшает объем данных; также относительный уровень шума в результате ниже.

Пример использования

Гистограммы являются примером биннинга данных, используемого для наблюдения за лежащими в основе распределениями частот . Они обычно появляются в одномерном пространстве и с равными интервалами для простоты визуализации.

Биннинг данных может использоваться, когда небольшие инструментальные сдвиги в спектральном измерении от экспериментов масс-спектрометрии (МС) или ядерного магнитного резонанса (ЯМР) будут ложно интерпретироваться как представляющие различные компоненты, когда набор профилей данных подвергается анализу распознавания образов . Простой способ справиться с этой проблемой — использовать методы биннинга, в которых спектр уменьшается в разрешении до достаточной степени, чтобы гарантировать, что заданный пик останется в своем бине, несмотря на небольшие спектральные сдвиги между анализами. Например, в ЯМР ось химического сдвига может быть дискретизирована и грубо бинирована, а в МС спектральная точность может быть округлена до целых значений атомной единицы массы . Кроме того, несколько систем цифровых камер включают функцию автоматического биннинга пикселей для улучшения контрастности изображения. [1]

Биннинг также используется в машинном обучении для ускорения [2] метода повышения эффективности дерева решений для контролируемой классификации и регрессии в таких алгоритмах, как LightGBM от Microsoft и основанное на гистограммах градиентное повышение эффективности дерева классификации от scikit-learn .

Смотрите также

Ссылки

  1. ^ "Использование биннинга в фотографии". Nikon, FSU . Получено 2011-01-18 .
  2. ^ "LightGBM: Высокоэффективное дерево решений с усилением градиента". Neural Information Processing Systems (NIPS) . Получено 2019-12-18 .