reCAPTCHA

reCAPTCHA Inc. ^[1] — это система CAPTCHA , принадлежащая Google . Она позволяет веб-хостерам различать человеческий и автоматизированный доступ к веб-сайтам. Первоначальная версия предлагала пользователям расшифровывать трудночитаемый текст или сопоставлять изображения. Версия 2 также предлагала пользователям расшифровывать текст или сопоставлять изображения, если анализ файлов cookie и визуализация холста предполагали, что страница загружается автоматически. ^[2] Начиная с версии 3, reCAPTCHA никогда не будет прерывать работу пользователей и должна запускаться автоматически, когда пользователи загружают страницы или нажимают кнопки. ^[3]

Первоначальная итерация сервиса представляла собой платформу массового сотрудничества , разработанную для оцифровки книг, особенно тех, которые были слишком неразборчивы для сканирования компьютерами . Подсказки для проверки использовали пары слов из отсканированных страниц, при этом одно известное слово использовалось в качестве контроля для проверки, а второе использовалось для краудсорсинга чтения неуверенного слова. ^[4] reCAPTCHA изначально была разработана Луисом фон Аном , Дэвидом Абрахамом, Мануэлем Блюмом , Майклом Кроуфордом, Беном Маурером, Колином Макмилленом и Эдисоном Таном в главном кампусе Университета Карнеги-Меллона в Питтсбурге . ^[5] Она была приобретена Google в сентябре 2009 года. ^[6] Система помогла оцифровать архивы The New York Times и впоследствии использовалась Google Books для аналогичных целей. ^[7]

Сообщалось, что система отображает более 100 миллионов CAPTCHA каждый день ^[8] на таких сайтах, как Facebook , TicketMaster, Twitter, 4chan , CNN.com , StumbleUpon , ^[9] Craigslist (с июня 2008 года) ^{[10] и на веб-сайте программы купонов}на цифровые телевизионные конвертеры Национального управления по телекоммуникациям и информации США (в рамках перехода США на цифровое телевидение ). ^[11]

В 2014 году Google отошла от первоначальной концепции сервиса, сосредоточившись на сокращении количества действий пользователя, необходимых для верификации пользователя, и предоставляя задачи по распознаванию человеком (например, идентификация изображений в наборе, которые удовлетворяют определенному запросу) только в том случае, если поведенческий анализ подозревает, что пользователь может быть ботом.

В октябре 2023 года было обнаружено, что чат-бот GPT-4 от OpenAI может решать CAPTCHA. ^[12]

Источник

Distributed Proofreaders был первым проектом, добровольно посвятившим свое время расшифровке отсканированного текста, который не мог быть прочитан программами оптического распознавания символов (OCR). Он работает с Project Gutenberg для оцифровки материалов, являющихся общественным достоянием , и использует методы, совершенно отличные от reCAPTCHA.

Программа reCAPTCHA была создана гватемальским ученым -компьютерщиком Луисом фон Аном ^[13] и получила поддержку от MacArthur Fellowship . Один из первых разработчиков CAPTCHA, он понял, что «непреднамеренно создал систему, которая тратила по мелочи, с десятисекундными интервалами, миллионы часов самого драгоценного ресурса: циклов человеческого мозга». ^[14]

Операция

reCAPTCHA v1 (распознавание текста с помощью человека)

Отсканированный текст подвергается анализу двумя разными OCR. Любое слово, которое по-разному расшифровывается двумя программами OCR или отсутствует в английском словаре, помечается как «подозрительное» и преобразуется в CAPTCHA. Подозрительное слово отображается вне контекста, иногда вместе с уже известным контрольным словом. Если человек правильно вводит контрольное слово, то ответ на сомнительное слово принимается как вероятно действительный. Если достаточное количество пользователей правильно вводят контрольное слово, но неправильно вводят второе слово, которое OCR не распознал, то цифровая версия документов может содержать неправильное слово. Идентификация, выполненная каждой программой OCR, получает значение 0,5 балла, а каждая интерпретация человеком получает полный балл. Как только данная идентификация достигает 2,5 баллов, слово считается действительным. Те слова, которым судьи-люди последовательно присваивают одну идентификацию, позже перерабатываются в качестве контрольных слов. ^[15] Если первые три догадки совпадают друг с другом, но не совпадают ни с одним из OCR, они считаются правильным ответом, и слово становится контрольным словом. ^[16] Когда шесть пользователей отклоняют слово до того, как будет выбрано какое-либо правильное написание, слово отбрасывается как нечитаемое. ^[16]

Первоначальный метод reCAPTCHA был разработан для показа сомнительных слов отдельно, как внеконтекстное исправление, а не в использовании, например, во фразе из пяти слов из исходного документа. ^[17] Кроме того, контрольное слово может ввести в заблуждение относительно контекста для второго слова, например, запрос "/metal/ /fife/" может быть введен как "metal file " из-за логической связи опиливания с металлическим инструментом, который считается более распространенным, чем музыкальный инструмент " fife ". ^{[ необходима цитата ]}

В 2012 году reCAPTCHA начала использовать фотографии, взятые из проекта Google Street View , в дополнение к отсканированным словам. ^[18] Пользователю будет предложено идентифицировать изображения пешеходных переходов, уличных фонарей и других объектов. Была выдвинута гипотеза, что данные используются Waymo (дочерней компанией Google) для обучения автономных транспортных средств, хотя неназванный представитель опроверг это, заявив, что данные использовались только для улучшения Google Maps по состоянию на середину 2021 года. ^[19]

Google взимает плату за использование reCAPTCHA на веб-сайтах, которые делают более миллиона запросов reCAPTCHA в месяц. ^[20]

reCAPTCHA v1 была объявлена неработоспособной и закрыта 31 марта 2018 года. ^[21]

reCAPTCHA v2 (флажок)

NoCAPTCHA reCAPTCHA

В 2013 году reCAPTCHA начала внедрять поведенческий анализ взаимодействий браузера, чтобы предсказать, является ли пользователь человеком или ботом. В следующем году Google начала развертывать новый API reCAPTCHA, включающий «no CAPTCHA reCAPTCHA» — где пользователям, которые считаются имеющими низкий риск, нужно только нажать на один флажок , чтобы подтвердить свою личность. CAPTCHA все еще может быть представлена, если система не уверена в риске пользователя; Google также представила новый тип CAPTCHA-задачи, разработанный для того, чтобы быть более доступным для мобильных пользователей, где пользователь должен выбрать изображения, соответствующие определенному запросу из сетки. ^[2]^[22]

reCAPTCHA v3 и reCAPTCHA Enterprise (невидимый)

В 2017 году Google представила новую «невидимую» reCAPTCHA, где проверка происходит в фоновом режиме, и никакие проблемы не отображаются вообще, если пользователь считается имеющим низкий уровень риска. ^[23]^[24]^[25] По словам бывшего « царя мошенничества с кликами » Google Шумана Гошемаджумдера , эта возможность «создает новый вид проблем, которые очень продвинутые боты все еще могут обойти, но при этом создает гораздо меньше помех для законопослушного человека». ^[25]

Выполнение

Тесты reCAPTCHA отображаются на центральном сайте проекта reCAPTCHA, который предоставляет слова для расшифровки. Это делается через JavaScript API , при этом сервер делает обратный вызов reCAPTCHA после отправки запроса. Проект reCAPTCHA предоставляет библиотеки для различных языков программирования и приложений, чтобы упростить этот процесс. reCAPTCHA — это бесплатная услуга, предоставляемая веб-сайтам для помощи в расшифровке, ^[26] но программное обеспечение reCAPTCHA не является программным обеспечением с открытым исходным кодом . ^[27]

Кроме того, reCAPTCHA предлагает плагины для нескольких платформ веб-приложений, включая ASP.NET , Ruby и PHP , для упрощения внедрения сервиса. ^[28]

Безопасность

Пример того, как были представлены задачи reCAPTCHA в 2010 году ^[29], содержащие слова «и зубила»

Основная цель системы CAPTCHA — блокировать спам-ботов, позволяя при этом использовать людей. 14 декабря 2009 года Джонатан Уилкинс опубликовал статью, описывающую слабые стороны reCAPTCHA, которые позволили ботам достичь уровня решения 18%. ^[30]^[31]^[32]

1 августа 2010 года Чад Хоук выступил с докладом на конференции DEF CON 18 Hacking Conference, в котором подробно описал метод устранения искажений, добавленных к изображениям, что позволило компьютерной программе определить правильный ответ в 10% случаев. ^[33]^[34] Система reCAPTCHA была изменена 21 июля 2010 года, до того, как Хоук должен был рассказать о своем методе. Хоук изменил свой метод на то, что он назвал «более простой» CAPTCHA, чтобы определить правильный ответ в 31,8% случаев. Хоук также упомянул о защитных мерах в системе, включая блокировку с высоким уровнем безопасности, если неверный ответ дается 32 раза подряд. ^[35]

26 мая 2012 года Адам, CP и Джеффбол из DC949 выступили с докладом на хакерской конференции LayerOne, в котором подробно описали, как им удалось достичь автоматизированного решения с точностью 99,1%. ^[36] Их тактика заключалась в использовании методов машинного обучения, подраздела искусственного интеллекта, для анализа аудиоверсии reCAPTCHA, которая доступна для людей с нарушениями зрения. Google выпустила новую версию reCAPTCHA всего за несколько часов до их выступления, внеся серьезные изменения как в аудиоверсию, так и в визуальную версию своего сервиса. В этом выпуске аудиоверсия была увеличена с 8 до 30 секунд и стала намного сложнее для понимания как для людей, так и для ботов. В ответ на это и следующее обновление участники DC949 выпустили еще две версии Stiltwalker, которые превзошли reCAPTCHA с точностью 60,95% и 59,4% соответственно. После каждого последующего перерыва Google обновлял reCAPTCHA в течение нескольких дней. По данным DC949, они часто возвращались к функциям, которые ранее были взломаны.

27 июня 2012 года Клаудия Крус, Фернандо Уседа и Леобардо Рейес опубликовали статью, в которой показана система, работающая на изображениях reCAPTCHA с точностью 82%. ^[37] Авторы не сообщили, может ли их система распознавать недавние изображения reCAPTCHA, хотя они утверждают, что их работа представляет собой интеллектуальное OCR и устойчива к некоторым, если не ко всем изменениям в базе данных изображений.

В презентации, представленной в августе 2012 года на BsidesLV 2012, DC949 назвал последнюю версию «непостижимо невозможной для людей» — они не смогли решить ее и вручную. ^[36] Организация по обеспечению доступности веб-сайтов WebAIM сообщила в мае 2012 года: «Более 90% респондентов [пользователей программ чтения с экрана] считают CAPTCHA очень или довольно сложной». ^[38]

Критика

Первоначальная версия reCAPTCHA подверглась критике как источник неоплачиваемой работы по содействию в расшифровке. ^[39]

Google получает прибыль от пользователей reCAPTCHA как от бесплатных работников для улучшения своих исследований в области искусственного интеллекта. ^[40]

Конфиденциальность

Текущая версия системы подверглась критике за ее зависимость от отслеживающих файлов cookie и продвижение привязки поставщика к сервисам Google; администраторам рекомендуется включать код отслеживания reCAPTCHA на все страницы своего веб-сайта для анализа поведения и «риска» пользователей, что определяет уровень трения, возникающего при использовании запроса reCAPTCHA. ^[41] Google заявила в своей политике конфиденциальности , что данные пользователей, собранные таким образом, не используются для персонализированной рекламы. Также было обнаружено, что система отдает предпочтение тем, у кого есть активный вход в учетную запись Google , и отображает более высокий риск для тех, кто использует анонимные прокси-серверы и службы VPN. ^[23]

Когда Google анонсировала reCAPTCHA v3.0, возникли опасения относительно конфиденциальности, поскольку она позволяет Google отслеживать пользователей на сторонних веб-сайтах. ^[23]

В апреле 2020 года Cloudflare перешла с reCAPTCHA на hCaptcha, ссылаясь на опасения по поводу конфиденциальности, связанные с потенциальным использованием Google данных, которые они собирают через reCAPTCHA, для целевой рекламы ^[42] и для сокращения эксплуатационных расходов, поскольку значительная часть клиентов Cloudflare не платят. В ответ Google сообщила журналу PC Magazine , что данные из reCAPTCHA никогда не используются в целях персонализированной рекламы. ^[20]

Доступность

Справочный центр Google утверждает, что reCAPTCHA не поддерживается для сообщества слепоглухих , ^[43] фактически блокируя таких пользователей от всех страниц, использующих сервис. Однако в настоящее время reCAPTCHA имеет самый длинный список соображений доступности среди всех сервисов CAPTCHA. ^[44]

Интерфейс

В одном из вариантов задач CAPTCHA изображения не подсвечиваются постепенно, а исчезают при нажатии и заменяются новым изображением, постепенно появляющимся, напоминая игру «Бей крота» .

Критика была направлена на длительную продолжительность появления и исчезновения изображений. ^[45]

Производные проекты

reCAPTCHA также создала проект Mailhide, который защищает адреса электронной почты на веб-страницах от сбора спамерами . ^[46] По умолчанию адрес электронной почты был преобразован в формат, который не позволял сканеру видеть полный адрес электронной почты; например, «[email protected]» был бы преобразован в «[email protected]». Затем посетитель нажимал на «...» и решал CAPTCHA, чтобы получить полный адрес электронной почты. Можно было также отредактировать всплывающий код так, чтобы ни один из адресов не был виден. Mailhide был прекращен в 2018 году, поскольку он полагался на reCAPTCHA v1. ^[47]

Ссылки

^ "Recaptcha Inc". OpenCorporates . 28 августа 2007 г. Архивировано из оригинала 20 августа 2023 г. Получено 20 августа 2023 г.
^ ab Shet, Vinay (3 декабря 2014 г.). «Вы робот? Представляем 'CAPTCHA the ReCAPTCHA PREDATORS». Архивировано из оригинала 3 сентября 2020 г. Получено 24 февраля 2021 г.
^ "reCAPTCHA v3". Архивировано из оригинала 25 сентября 2020 г. Получено 8 сентября 2020 г.
↑ Ahn, Luis von (6 декабря 2011 г.), Массовое онлайн-сотрудничество, архивировано из оригинала 15 июля 2020 г. , извлечено 14 апреля 2020 г.
^ "reCAPTCHA: About Us". Архивировано из оригинала 11 июня 2010 г. Получено 14 августа 2018 г.
^ "Обучение компьютеров чтению: Google приобретает reCAPTCHA". Архивировано из оригинала 19 мая 2013 г. Получено 16 сентября 2009 г.
^ «Расшифровка старых текстов, одно сумасшедшее, извилистое слово за раз». The New York Times . 28 марта 2011 г. Архивировано из оригинала 17 ноября 2017 г. Получено 20 ноября 2017 г.
^ "reCAPTCHA FAQ". Архивировано из оригинала 5 июля 2010 г. Получено 12 июня 2011 г.
↑ Рубенс, Пол (2 октября 2007 г.). «Оружие спама помогает сохранять книги». BBC. Архивировано из оригинала 18 мая 2013 г. Получено 3 октября 2007 г.
^ "Борьба со спамом, оцифровка книг". Блог Craigslist. Июнь 2008 г. Архивировано из оригинала 6 июля 2010 г. Получено 17 июня 2008 г.
^ "TV Converter Box Program". dtv2009.gov . Архивировано из оригинала 4 ноября 2009 года.
^ Эдвардс, Бендж (2 октября 2023 г.). «Запрос медальона мертвой бабушки обманывает ИИ Bing Chat, заставляя его решать головоломку безопасности». Ars Technica . Архивировано из оригинала 10 октября 2023 г. Получено 25 октября 2023 г.
^ ""Полное интервью: Луис фон Ан на Duolingo", Spark, ноябрь 2011 г.". Канадская вещательная корпорация. 30 ноября 2011 г. Архивировано из оригинала 3 июня 2012 г. Получено 10 июля 2013 г.
↑ Хатчинсон, Алекс (12 марта 2009 г.). «Кадровые ресурсы: работа, о которой вы даже не знали». The Walrus . Архивировано из оригинала 3 декабря 2015 г. Получено 7 декабря 2015 г.
^ Тиммер, Джон (14 августа 2008 г.). «CAPTCHAs работает? для оцифровки старых, поврежденных текстов, рукописей». Ars Technica . Архивировано из оригинала 24 января 2009 г. Получено 9 декабря 2008 г.
^ ab Luis; Maurer, Ben; McMillen, Colin; Abraham, David; Blum, Manuel (2008). "reCAPTCHA: Распознавание символов на основе человеческого фактора с помощью мер веб-безопасности"". Science . 321 (5895): 1465–1468. Bibcode :2008Sci...321.1465V. CiteSeerX 10.1.1.141.6563 . doi :10.1126/science.1160379. PMID 18703711. S2CID 18371056.
^ ""сомнительная достоверность результатов, если слова представлены вне контекста", Google Groups, 29 августа 2008 г.". Архивировано из оригинала 30 апреля 2011 г. Получено 10 июля 2013 г.
^ Перес, Сара (29 марта 2012 г.). «Google Now использует ReCAPTCHA для расшифровки адресов Street View». TechCrunch . Архивировано из оригинала 23 августа 2012 г. Получено 10 июля 2013 г.
^ Вега, Эдвард (14 мая 2021 г.). «Почему капчи становятся сложнее». Vox . Архивировано из оригинала 15 апреля 2022 г. Получено 15 апреля 2022 г.
^ ab "Cloudflare отказывается от Google's ReCAPTCHA из-за проблем с конфиденциальностью и затрат". PCMag . Архивировано из оригинала 19 июля 2020 г. Получено 18 июля 2020 г.
^ "Google reCAPTCHA v1 API Shutting Down in March 2018". ProgrammableWeb . Архивировано из оригинала 20 июня 2020 г. Получено 14 апреля 2020 г.
^ Гринберг, Энди (3 декабря 2014 г.). «Google теперь может сказать, что вы не робот, всего одним щелчком мыши». Wired . Архивировано из оригинала 2 октября 2015 г. Получено 1 октября 2015 г.
^ abc Schwab, Katharine (27 июня 2019 г.). «Новая reCAPTCHA от Google имеет темную сторону». Fast Company . Архивировано из оригинала 28 июня 2019 г. Получено 8 апреля 2020 г.
^ Амадео, Рон (9 марта 2017 г.). «ReCAPTCHA от Google становится «невидимой», отделяя ботов от людей без проблем». Ars Technica . Архивировано из оригинала 6 августа 2020 г. Получено 14 апреля 2020 г.
^ ab "Google только что сделал интернет немного менее раздражающим". Popular Science . 10 марта 2017 г. Архивировано из оригинала 5 февраля 2021 г. Получено 5 апреля 2017 г.
^ "FAQ". reCAPTCHA.net. Архивировано из оригинала 16 июля 2012 г.
^ "reCAPTCHA: Остановите спам, читайте книги". Архивировано из оригинала 19 июня 2020 г. Получено 14 января 2014 г.
^ "Руководство разработчика — reCAPTCHA". Google Inc. Архивировано из оригинала 24 ноября 2017 г. Получено 14 января 2014 г.
^ Гринберг, Энди (18 июня 2010 г.). «Эти тесты на зашифрованные слова для остановки спам-ботов тоже сложны для людей». Forbes . Архивировано из оригинала 9 сентября 2017 г. Получено 10 сентября 2017 г.
^ "Strong CAPTCHA Guidelines" (PDF) . Архивировано (PDF) из оригинала 23 июля 2011 г. . Получено 31 января 2011 г. .
^ "Google reCAPTCHA взломана новой атакой". The Register . Архивировано из оригинала 10 августа 2017 г. . Получено 10 августа 2017 г. .
^ "Google's reCAPTCHA помята". Архивировано из оригинала 10 марта 2010 г. Получено 31 января 2011 г.
^ "Def Con 18 Speakers". defcon.org. Архивировано из оригинала 20 октября 2010 г. Получено 17 ноября 2010 г.
^ "Decoding reCAPTCHA Paper". Чад Хоук. Архивировано из оригинала 19 августа 2010 г.
^ "Расшифровка reCAPTCHA Power Point". Чад Хоук. Архивировано из оригинала 24 октября 2010 г.
^ ab "Project Stiltwalker". Архивировано из оригинала 2 июля 2012 г. Получено 28 мая 2012 г.
^ Круз-Перес, Клаудия; Старостенко Олег; Уседа-Понга, Фернандо; Аларкон-Акино, Висенте; Рейес-Кабрера, Леобардо (27 июня 2012 г.), Карраско-Очоа, Хесус Ариэль; Мартинес-Тринидад, Хосе Франсиско; Ольвера Лопес, Хосе Артуро; Бойер, Ким Л. (ред.), «Взлом reCAPTCHA с непредсказуемым коллапсом: эвристическая сегментация и распознавание символов», Распознавание образов , том. 7329, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 155–165, doi : 10.1007/978-3-642-31149-9_16, ISBN 978-3-642-31148-2, S2CID 29097170 , получено 23 января 2013 г.
^ "Результаты опроса пользователей экранных ридеров № 4". Архивировано из оригинала 10 декабря 2017 г. Получено 19 апреля 2013 г.
^ Харрис, Дэвид Л. (23 января 2015 г.). «В иске женщины из Массачусетса Google обвиняется в использовании бесплатной рабочей силы для переписывания книг и газет». Boston Business Journal . Архивировано из оригинала 28 апреля 2015 г. Получено 4 сентября 2015 г.
^ "Никакой CAPTCHA: еще одна уловка, придуманная Google, чтобы извлечь из вас бесплатный цифровой труд". Архивировано из оригинала 12 ноября 2020 г. Получено 3 декабря 2020 г.
^ Тейлор, Крис (26 февраля 2024 г.). «Хватит раздавать данные своего сайта!». Prosopo .
^ "Переход от reCAPTCHA к hCaptcha". Блог Cloudflare . 8 апреля 2020 г. Архивировано из оригинала 12 августа 2020 г. Получено 18 июля 2020 г.
^ "Что такое CAPTCHA? - Справка администратора G Suite". Архивировано из оригинала 6 августа 2020 г. Получено 11 мая 2020 г.
^ "WCAG 1.1: Текстовые альтернативы [статья]". 6 октября 2020 г. Архивировано из оригинала 26 ноября 2020 г. Получено 10 декабря 2020 г.
^ "ReCaptcha чрезвычайно [sic] медленно исчезает · Выпуск № 268 · google/recaptcha". GitHub . Архивировано из оригинала 14 октября 2020 г. . Получено 14 октября 2020 г. .
^ "Mailhide: Бесплатная защита от спама". Архивировано из оригинала 2 января 2012 г. Получено 15 мая 2011 г.
^ "Mailhide: Service discontinued". Архивировано из оригинала 7 ноября 2012 г. Получено 3 марта 2019 г.

Дальнейшее чтение

Дзежа, Джош (1 февраля 2019 г.). «Почему CAPTCHA стали такими сложными». The Verge .
Шваб, Кэтрин (27 июня 2019 г.). «У новой reCAPTCHA от Google есть темная сторона». Fast Company .

Внешние ссылки

На Викискладе есть медиафайлы по теме ReCAPTCHA .

Официальный сайт