Помеченные данные — это группа образцов , помеченных одним или несколькими ярлыками. Маркировка обычно берет набор немаркированных данных и дополняет каждую его часть информативными тегами. Например, метка данных может указывать, содержит ли фотография лошадь или корову, какие слова были произнесены в аудиозаписи, какой тип действия выполняется в видео, какова тема новостной статьи, каково общее настроение твита или является ли точка на рентгеновском снимке опухолью.
Метки можно получить, попросив людей вынести суждения о заданном фрагменте немаркированных данных. [1] Получение маркированных данных обходится значительно дороже, чем получение необработанных немаркированных данных.
Качество маркированных данных напрямую влияет на эффективность контролируемых моделей машинного обучения , поскольку эти модели обучаются на основе предоставленных меток. [2]
В 2006 году Фэй-Фэй Ли , содиректор Стэнфордского института ИИ, ориентированного на человека, инициировал исследование по улучшению моделей и алгоритмов искусственного интеллекта для распознавания изображений путем значительного увеличения обучающих данных . Исследователи загрузили миллионы изображений из Всемирной паутины , и группа студентов начала наносить метки на объекты для каждого изображения. В 2007 году Ли передал работу по маркировке данных на аутсорсинг Amazon Mechanical Turk , онлайн-площадку для цифровой штучной работы . 3,2 миллиона изображений, которые были маркированы более чем 49 000 работников, легли в основу ImageNet , одной из крупнейших баз данных с ручной маркировкой для контуров распознавания объектов . [3]
После получения маркированного набора данных к данным можно применить модели машинного обучения , чтобы представить модели новые немаркированные данные и угадать или предсказать вероятную метку для этой части немаркированных данных. [4]
Алгоритмическое принятие решений подвержено предвзятости, обусловленной программистом, а также предвзятости, обусловленной данными. Обучающие данные, которые опираются на маркированные данные о предвзятости, приведут к предубеждениям и упущениям в предиктивной модели , несмотря на то, что алгоритм машинного обучения является законным. Маркированные данные, используемые для обучения определенного алгоритма машинного обучения, должны быть статистически репрезентативной выборкой , чтобы не искажать результаты. [5] Например, в системах распознавания лиц недостаточно представленные группы впоследствии часто неправильно классифицируются, если маркированные данные, доступные для обучения, не были репрезентативными для популяции. В 2018 году исследование Джой Буоламвини и Тимнит Гебру продемонстрировало, что два набора данных анализа лиц, которые использовались для обучения алгоритмов распознавания лиц, IJB-A и Adience, состоят на 79,6% и 86,2% из людей со светлой кожей соответственно. [6]
Люди-аннотаторы склонны к ошибкам и предубеждениям при маркировке данных. Это может привести к непоследовательным меткам и повлиять на качество набора данных. Непоследовательность может повлиять на способность модели машинного обучения хорошо обобщать. [7]
Определенные области, такие как юридический анализ документов или медицинская визуализация , требуют аннотаторов со специальными знаниями в этой области. Без экспертизы аннотации или помеченные данные могут быть неточными, что негативно скажется на производительности модели машинного обучения в реальном сценарии. [8]