база данных МНИСТ

Примеры изображений MNIST — Примеры изображений из набора тестовых данных MNIST

База данных MNIST ( Модифицированная база данных Национального института стандартов и технологий^[1] ) представляет собой большую базу данных рукописных цифр, которая обычно используется для обучения различных систем обработки изображений . ^[2]^[3] База данных также широко используется для обучения и тестирования в области машинного обучения . ^[4]^[5] Он был создан путем «повторного смешивания» образцов из исходных наборов данных NIST. ^[6] Создатели посчитали, что, поскольку набор обучающих данных NIST был взят у сотрудников Американского бюро переписи населения , а набор тестовых данных был взят у американских старшеклассников , он не очень подходит для экспериментов по машинному обучению. ^[7] Кроме того, черно-белые изображения из NIST были нормализованы , чтобы вписаться в ограничивающую рамку размером 28x28 пикселей, и были сглажены , что привело к появлению уровней оттенков серого. ^[7]

База данных MNIST содержит 60 000 обучающих изображений и 10 000 тестовых изображений. ^[8] Половина обучающего набора и половина тестового набора были взяты из набора обучающих данных NIST, а другая половина обучающего набора и другая половина тестового набора были взяты из набора тестовых данных NIST. ^[9] Создатели базы данных хранят список некоторых проверенных на ней методов. ^[7] В своей оригинальной статье они использовали машину опорных векторов , чтобы получить коэффициент ошибок 0,8%. ^[10]

Расширенный MNIST (EMNIST) — это новый набор данных, разработанный и выпущенный NIST как (окончательный) преемник MNIST. ^[11]^[12] MNIST включал изображения только рукописных цифр. EMNIST включает все изображения из специальной базы данных NIST 19, которая представляет собой большую базу данных, состоящую из рукописных прописных и строчных букв, а также цифр. ^[13]^[14] Изображения в EMNIST были преобразованы в тот же формат 28x28 пикселей с помощью того же процесса, что и изображения MNIST. Соответственно, инструменты, которые работают со старым и меньшим набором данных MNIST, скорее всего, будут работать с EMNIST без изменений.

История

Набор изображений в базе данных MNIST был создан в 1994 году ^[15] как комбинация двух баз данных NIST : Special Database 1 и Special Database 3. Special Database 1 и Special Database 3 состоят из цифр, написанных старшеклассниками и сотрудники Бюро переписи населения США соответственно. ^[7]

Исходный набор данных представлял собой набор бинарных изображений размером 128x128, обработанных в изображения в оттенках серого 28x28. Первоначально как в обучающем наборе, так и в тестовом наборе было 60 тысяч выборок, но 50 тысяч тестового набора были отброшены. Обратитесь к ^[16] для получения подробной истории и реконструкции отброшенного набора тестов.

Производительность

Некоторые исследователи достигли «почти человеческой производительности» в базе данных MNIST, используя комитет нейронных сетей; в той же статье авторы достигают производительности, вдвое превышающей эффективность людей при выполнении других задач распознавания. ^[17] Самый высокий уровень ошибок, указанный ^[7] на исходном веб-сайте базы данных, составляет 12 процентов, что достигается с помощью простого линейного классификатора без предварительной обработки. ^[10]

В 2004 году исследователи с использованием нового классификатора под названием LIRA, который представляет собой нейронный классификатор с тремя слоями нейронов, основанный на принципах перцептрона Розенблатта, достигли в базе данных коэффициента ошибок в лучшем случае 0,42 процента. ^[18]

Некоторые исследователи тестировали системы искусственного интеллекта, используя базу данных, подвергшуюся случайным искажениям. Системы в этих случаях обычно представляют собой нейронные сети, и используемые искажения имеют тенденцию быть либо аффинными , либо упругими искажениями . ^[7] Иногда эти системы могут быть очень успешными; одна такая система достигла уровня ошибок в базе данных 0,39 процента. ^[19]

В 2011 году исследователи, использующие аналогичную систему нейронных сетей, сообщили о коэффициенте ошибок 0,27 процента, что улучшило предыдущий лучший результат. ^[20] В 2013 году было заявлено, что подход, основанный на регуляризации нейронных сетей с использованием DropConnect, обеспечивает коэффициент ошибок 0,21 процента. ^[21] В 2016 году лучшая производительность одиночной сверточной нейронной сети составила 0,25 процента ошибок. ^[22] По состоянию на август 2018 года лучшая производительность одиночной сверточной нейронной сети, обученной на обучающих данных MNIST без увеличения данных, составляет 0,25 процента ошибок. ^[22]^[23] Кроме того, Параллельный вычислительный центр (Хмельницкий, Украина) получил ансамбль всего из 5 сверточных нейронных сетей, который работает на MNIST с коэффициентом ошибок 0,21 процента. ^[24]^[25] Некоторые изображения в наборе тестовых данных едва читаются и могут помешать достижению уровня ошибок теста в 0%. ^[26] В 2018 году исследователи из факультета системной и информационной инженерии Университета Вирджинии объявили об ошибке 0,18% при одновременном объединении трех типов нейронных сетей (полностью связные, рекуррентные и сверточные нейронные сети). ^[27]

Классификаторы

Это таблица некоторых методов машинного обучения , используемых в наборе данных, и их коэффициентов ошибок по типам классификаторов:

Смотрите также

Рекомендации

^ "БАЗА ДАННЫХ МНИСТ рукописных цифр" . Ян ЛеКан , Институт Куранта, Нью-Йоркский университет Коринна Кортес, Google Labs, Нью-Йорк Кристофер Дж. К. Берджес, Microsoft Research, Редмонд.
^ «Опорные векторные машины, распознавание образов скорости - Vision Systems Design» . Проектирование систем технического зрения . Сентябрь 2004 года . Проверено 17 августа 2013 г.
^ Гангапутра, Сачин. «База данных рукописных цифр» . Проверено 17 августа 2013 г.
^ Цяо, Ю (2007). «БАЗА МНИСТ рукописных цифр» . Проверено 18 августа 2013 г.
^ Платт, Джон К. (1999). «Использование аналитического QP и разреженности для ускорения обучения машин опорных векторов» (PDF) . Достижения в области нейронных систем обработки информации : 557–563. Архивировано из оригинала (PDF) 4 марта 2016 года . Проверено 18 августа 2013 г.
^ Гротер, Патрик Дж. «Специальная база данных 19 NIST — база данных рукописных форм и символов» (PDF) . Национальный институт стандартов и технологий .
^ abcdef ЛеКун, Янн; Кортес, Коринна; Берджес, Кристофер Си Джей «База данных рукописных цифр MNIST». Веб-сайт Яна Лекуна yann.lecun.com . Проверено 30 апреля 2020 г.
^ Куссул, Эрнст; Байдык, Татьяна (2004). «Улучшенный метод распознавания рукописных цифр протестирован в базе данных MNIST». Вычисление изображений и зрительных образов . 22 (12): 971–981. doi :10.1016/j.imavis.2004.03.008.
^ Чжан, Бин; Шрихари, Саргур Н. (2004). «Быстрая классификация k-ближайших соседей с использованием деревьев на основе кластеров» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 26 (4): 525–528. дои : 10.1109/TPAMI.2004.1265868. PMID 15382657. S2CID 6883417 . Проверено 20 апреля 2020 г.
^ abcd ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение, применяемое для распознавания документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. дои : 10.1109/5.726791. S2CID 14542261 . Проверено 18 августа 2013 г.
^ НИСТ (4 апреля 2017 г.). «Набор данных EMNIST». НИСТ . Проверено 11 апреля 2022 г.
^ НИСТ (27 августа 2010 г.). «Специальная база данных NIST 19». НИСТ . Проверено 11 апреля 2022 г.
^ Коэн, Г.; Афшар, С.; Тэпсон, Дж.; ван Шайк, А. (2017). «EMNIST: расширение MNIST на рукописные письма». arXiv : 1702.05373 [cs.CV].
^ Коэн, Г.; Афшар, С.; Тэпсон, Дж.; ван Шайк, А. (2017). «EMNIST: расширение MNIST на рукописные письма». arXiv : 1702.05373v1 [cs.CV].
^ Л. Ботту и др., «Сравнение методов классификатора: пример распознавания рукописных цифр», Труды 12-й Международной конференции IAPR по распознаванию образов, Vol. 3 - Конференция C: Обработка сигналов (Кат. № 94CH3440-5), Иерусалим, Израиль, 1994 г., стр. 77-82, том 2, doi: 10.1109/ICPR.1994.576879.
^ Ядав, Чхави; Ботту, Леон (2019). «Нераскрытое дело: потерянные цифры MNIST». Достижения в области нейронных систем обработки информации . 32 . Curran Associates, Inc. arXiv : 1905.10498 .
^ аб Чиресеан, Дэн; Ули Мейер; Юрген Шмидхубер (2012). «Многостолбцовые глубокие нейронные сети для классификации изображений» (PDF) . Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . стр. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . дои : 10.1109/CVPR.2012.6248110. ISBN 978-1-4673-1228-8. S2CID 2161592.
^ Куссул, Эрнст; Татьяна Байдык (2004). «Улучшенный метод распознавания рукописных цифр протестирован в базе данных MNIST» (PDF) . Вычисление изображений и зрительных образов . 22 (12): 971–981. doi :10.1016/j.imavis.2004.03.008. Архивировано из оригинала (PDF) 21 сентября 2013 года . Проверено 20 сентября 2013 г.
^ Ранзато, Марк'Аурелио; Кристофер Поултни; Сумит Чопра; Янн ЛеКун (2006). «Эффективное изучение разреженных представлений с помощью энергетической модели» (PDF) . Достижения в области нейронных систем обработки информации . 19 :1137–1144 . Проверено 20 сентября 2013 г.
^ Чиресан, Дэн Клаудиу; Ули Мейер; Лука Мария Гамбарделла; Юрген Шмидхубер (2011). «Комитеты сверточных нейронных сетей для классификации рукописных символов» (PDF) . 2011 Международная конференция по анализу и распознаванию документов (ICDAR) . стр. 1135–1139. CiteSeerX 10.1.1.465.2138 . дои : 10.1109/ICDAR.2011.229. ISBN 978-1-4577-1350-7. S2CID 10122297. Архивировано из оригинала (PDF) 22 февраля 2016 года . Проверено 20 сентября 2013 г.
^ Ван, Ли; Мэтью Зейлер; Сиксин Чжан; Ян ЛеКун; Роб Фергюс (2013). Регуляризация нейронной сети с помощью DropConnect . Международная конференция по машинному обучению (ICML).
^ abc SimpleNet (2016). «Давайте сделаем это проще: используя простые архитектуры, чтобы превзойти по производительности более глубокие и сложные архитектуры». arXiv : 1608.06037 . Проверено 3 декабря 2020 г.
^ СимпНет (2018). «К принципиальному проектированию глубоких сверточных сетей: введение в SimpNet». Гитхаб . arXiv : 1802.06205 . Проверено 3 декабря 2020 г.
^ аб Романуке, Вадим. «Параллельный вычислительный центр (Хмельницкий, Украина) представляет собой ансамбль из 5 сверточных нейронных сетей, который работает на MNIST с коэффициентом ошибок 0,21 процента» . Проверено 24 ноября 2016 г.
^ Аб Романуке, Вадим (2016). «Расширение обучающих данных и усиление сверточных нейронных сетей для снижения частоты ошибок в наборе данных MNIST». Научно-исследовательский вестник НТУУ «Киевский политехнический институт» . 6 (6): 29–34. дои : 10.20535/1810-0546.2016.6.84115 .
^ Классификатор MNIST, GitHub. «Классифицируйте цифры MNIST с помощью сверточных нейронных сетей». Гитхаб . Проверено 3 августа 2018 г.
^ аб Ковсари, Камран; Хейдарисафа, Моджтаба; Браун, Дональд Э.; Мейманди, Киана Джафари; Барнс, Лаура Э. (3 мая 2018 г.). «RMDL: случайное многомодельное глубокое обучение для классификации». Материалы 2-й Международной конференции по информационным системам и интеллектуальному анализу данных . стр. 19–28. arXiv : 1805.01890 . дои : 10.1145/3206098.3206111. ISBN 9781450363549. S2CID 19208611.
^ Линдблад, Йоаким; Наташа Сладое (январь 2014 г.). «Линейные временные расстояния между нечеткими множествами с применением к сопоставлению с образцом и классификации». Транзакции IEEE при обработке изображений . 23 (1): 126–136. Бибкод : 2014ITIP...23..126L. дои : 10.1109/TIP.2013.2286904. PMID 24158476. S2CID 1908950.
^ Кейзерс, Дэниел; Томас Деселерс; Кристиан Голлан; Герман Ней (август 2007 г.). «Модели деформации для распознавания изображений». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 29 (8): 1422–1435. CiteSeerX 10.1.1.106.3963 . дои : 10.1109/TPAMI.2007.1153. PMID 17568145. S2CID 2528485.
^ Кегль, Балаж; Роберт Буса-Фекете (2009). «Продукты базовых классификаторов» (PDF) . Материалы 26-й ежегодной международной конференции по машинному обучению . стр. 497–504. дои : 10.1145/1553374.1553439. ISBN 9781605585161. S2CID 8460779 . Проверено 27 августа 2013 г.
^ «RandomForestSRC: Быстрые унифицированные случайные леса для выживания, регрессии и классификации (RF-SRC)» . 21 января 2020 г.
^ "Мехрад Махмудян / MNIST с RandomForest" .
^ Декост, Деннис; Шёлкопф, Бернхард (2002). «Обучение машин инвариантных опорных векторов». Машинное обучение . 46 (1–3): 161–190. дои : 10.1023/А:1012454411458 . ISSN 0885-6125. ОСЛК 703649027.
^ ab Патрис Ю. Симард; Дэйв Стейнкраус; Джон К. Платт (2003). «Лучшие практики использования сверточных нейронных сетей применительно к визуальному анализу документов». Материалы Седьмой Международной конференции по анализу и распознаванию документов . Том. 1. Институт инженеров электротехники и электроники . п. 958. дои :10.1109/ICDAR.2003.1227801. ISBN 978-0-7695-1960-9. S2CID 4659176.
^ Чиресан, Клаудиу Дан; Ули Мейер; Лука Мария Гамбарделла; Юрген Шмидхубер (декабрь 2010 г.). «Глубокие большие простые нейронные сети превосходны в распознавании рукописных цифр». Нейронные вычисления . 22 (12): 3207–20. arXiv : 1003.0358 . дои : 10.1162/NECO_a_00052. PMID 20858131. S2CID 1918673.
^ Романюк, Вадим. «Лучшая производительность одиночной сверточной нейронной сети за 18 эпох на расширенных обучающих данных в Параллельном вычислительном центре, Хмельницкий, Украина» . Проверено 16 ноября 2016 г.
^ Романюк, Вадим. «Параллельный вычислительный центр (Хмельницкий, Украина) предоставляет единственную сверточную нейронную сеть, работающую на MNIST с коэффициентом ошибок 0,27 процента» . Проверено 24 ноября 2016 г.
^ Ху, Цзе; Шен, Ли; Олбани, Сэмюэл; Солнце, Банда; Ву, Эньхуа (2019). «Сети сжатия и возбуждения». Транзакции IEEE по анализу шаблонов и машинному интеллекту . 42 (8): 2011–2023. arXiv : 1709.01507 . дои : 10.1109/TPAMI.2019.2913372. PMID 31034408. S2CID 140309863.
^ «GitHub — Matuzas77/MNIST-0.17: классификатор MNIST со средней ошибкой 0,17%» . Гитхаб . 25 февраля 2020 г.
^ Ан, Санхён; Ли, Минджун; Парк, Сангли; Ян, Хирин; Итак, Чонмин (04.10.2020). «Ансамбль простых моделей сверточных нейронных сетей для распознавания цифр MNIST». arXiv : 2008.10400 [cs.CV].

дальнейшее чтение

Чиресан, Дэн; Мейер, Ули; Шмидхубер, Юрген (июнь 2012 г.). «Многостолбцовые глубокие нейронные сети для классификации изображений» (PDF) . Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . Нью-Йорк, штат Нью-Йорк: Институт инженеров по электротехнике и электронике . стр. 3642–3649. arXiv : 1202.2745 . CiteSeerX 10.1.1.300.3283 . дои : 10.1109/CVPR.2012.6248110. ISBN 9781467312264. OCLC 812295155. S2CID 2161592 . Проверено 9 декабря 2013 г.

Внешние ссылки

Официальный веб-сайт
Визуализация базы данных MNIST — группы изображений рукописных цифр MNIST на GitHub