Маркированные данные

Помеченные данные — это группа образцов , помеченных одним или несколькими ярлыками. Маркировка обычно берет набор немаркированных данных и дополняет каждую его часть информативными тегами. Например, метка данных может указывать, содержит ли фотография лошадь или корову, какие слова были произнесены в аудиозаписи, какой тип действия выполняется в видео, какова тема новостной статьи, каково общее настроение твита или является ли точка на рентгеновском снимке опухолью.

Метки можно получить, попросив людей вынести суждения о заданном фрагменте немаркированных данных. ^[1] Получение маркированных данных обходится значительно дороже, чем получение необработанных немаркированных данных.

Качество маркированных данных напрямую влияет на эффективность контролируемых моделей машинного обучения , поскольку эти модели обучаются на основе предоставленных меток. ^[2]

Краудсорсинговые маркированные данные

В 2006 году Фэй-Фэй Ли , содиректор Стэнфордского института ИИ, ориентированного на человека, инициировал исследование по улучшению моделей и алгоритмов искусственного интеллекта для распознавания изображений путем значительного увеличения обучающих данных . Исследователи загрузили миллионы изображений из Всемирной паутины , и группа студентов начала наносить метки на объекты для каждого изображения. В 2007 году Ли передал работу по маркировке данных на аутсорсинг Amazon Mechanical Turk , онлайн-площадке для цифровой штучной работы . 3,2 миллиона изображений, которые были маркированы более чем 49 000 работников, легли в основу ImageNet , одной из крупнейших баз данных с ручной маркировкой для контуров распознавания объектов . ^[3]

Автоматическая маркировка данных

После получения маркированного набора данных к данным можно применить модели машинного обучения , чтобы представить модели новые немаркированные данные и угадать или предсказать вероятную метку для этой части немаркированных данных. ^[4]

Проблемы с маркированными данными

Предвзятость, обусловленная данными

Алгоритмическое принятие решений подвержено предвзятости, обусловленной программистом, а также предвзятости, обусловленной данными. Обучающие данные, которые опираются на маркированные данные о предвзятости, приведут к предубеждениям и упущениям в предиктивной модели , несмотря на то, что алгоритм машинного обучения является законным. Маркированные данные, используемые для обучения определенного алгоритма машинного обучения, должны быть статистически репрезентативной выборкой , чтобы не искажать результаты. ^[5] Например, в системах распознавания лиц недостаточно представленные группы впоследствии часто неправильно классифицируются, если маркированные данные, доступные для обучения, не были репрезентативными для популяции. В 2018 году исследование Джой Буоламвини и Тимнит Гебру продемонстрировало, что два набора данных анализа лиц, которые использовались для обучения алгоритмов распознавания лиц, IJB-A и Adience, состоят на 79,6% и 86,2% из людей со светлой кожей соответственно. ^[6]

Человеческая ошибка и непоследовательность

Люди-аннотаторы склонны к ошибкам и предубеждениям при маркировке данных. Это может привести к непоследовательным меткам и повлиять на качество набора данных. Непоследовательность может повлиять на способность модели машинного обучения хорошо обобщать. ^[7]

Экспертиза в домене

Определенные области, такие как юридический анализ документов или медицинская визуализация , требуют аннотаторов со специальными знаниями в этой области. Без экспертизы аннотации или помеченные данные могут быть неточными, что негативно скажется на производительности модели машинного обучения в реальном сценарии. ^[8]

Ссылки

^ "Что такое маркировка данных? - Объяснение маркировки данных - AWS". Amazon Web Services, Inc. Получено 16 июля 2024 г.
^ Фредрикссон, Теодор; Маттос, Дэвид Исса; Бош, Ян; Олссон, Хелена Хольмстрём (2020), Морисио, Маурицио; Торкиано, Марко; Йедличка, Андреас (ред.), «Маркировка данных: эмпирическое исследование промышленных проблем и стратегий их устранения», Product-Focused Software Process Improvement , т. 12562, Cham: Springer International Publishing, стр. 202–216, doi : 10.1007/978-3-030-64148-1_13, ISBN 978-3-030-64147-4, получено 2024-07-13
^ Мэри Л. Грей; Сиддхарт Сури (2019). Работа призрака: как остановить Кремниевую долину от создания нового глобального низшего класса . Houghton Mifflin Harcourt. стр. 7. ISBN 978-1-328-56628-7.
^ Джонсон, Лейф. «В чем разница между маркированными и немаркированными данными?», Stack Overflow , 4 октября 2013 г. Получено 13 мая 2017 г. В данной статье использован текст lmjohns3, доступный по лицензии CC BY-SA 3.0.
^ Сяньхун Ху; Бхану Неупане; Люсия Флорес Эчаиз; Пратик Сибал; Макарена Ривера Лам (2019). Управление ИИ и передовыми ИКТ для обществ знаний: права, открытость, доступ и многосторонняя перспектива . Издательство ЮНЕСКО. стр. 64. ISBN 978-92-3-100363-9.
^ Сяньхун Ху; Бхану Неупане; Люсия Флорес Эчаиз; Пратик Сибал; Макарена Ривера Лам (2019). Управление ИИ и передовыми ИКТ для обществ знаний: права, открытость, доступ и многосторонняя перспектива . Издательство ЮНЕСКО. стр. 66. ISBN 978-92-3-100363-9.
^ Гейгер, Р. Стюарт; Коуп, Доминик; Ип, Джейми; Лотош, Марша; Шах, Ааюш; Венг, Дженни; Тан, Ребекка (05.11.2021). «Повторный взгляд на «мусор на входе и мусор на выходе»: что сообщают статьи по применению машинного обучения о данных обучения, маркированных человеком?». Количественные научные исследования . 2 (3): 795–827. arXiv : 2107.02278 . doi : 10.1162/qss_a_00144. ISSN 2641-3337.
^ Альзубайди, Лейт; Бай, Цзиньшуай; Ас-Сабаави, Айман; Сантамария, Хосе; Альбахри, А.С.; Аль-Даббаг, Башар Сами Найеф; Фадель, Мохаммед А.; Мануфали, Мохамед; Чжан, Цзинлань; Аль-Тимеми, Али Х.; Дуань, Е; Абдулла, Амджед; Фархан, Лейт; Лу, Йи; Гупта, Ашиш (14 апреля 2023 г.). «Опрос инструментов глубокого обучения, связанных с нехваткой данных: определения, проблемы, решения, советы и приложения». Журнал больших данных . 10 (1): 46. дои : 10.1186/s40537-023-00727-2 . ISSN 2196-1115.