reCAPTCHA Inc. [1] — это система CAPTCHA , принадлежащая Google . Она позволяет веб-хостерам различать человеческий и автоматизированный доступ к веб-сайтам. Первоначальная версия предлагала пользователям расшифровывать трудночитаемый текст или сопоставлять изображения. Версия 2 также предлагала пользователям расшифровывать текст или сопоставлять изображения, если анализ файлов cookie и визуализация холста предполагали, что страница загружается автоматически. [2] Начиная с версии 3, reCAPTCHA никогда не будет прерывать работу пользователей и должна запускаться автоматически, когда пользователи загружают страницы или нажимают кнопки. [3]
Первоначальная итерация сервиса представляла собой платформу массового сотрудничества , разработанную для оцифровки книг, особенно тех, которые были слишком неразборчивы для сканирования компьютерами . Подсказки для проверки использовали пары слов из отсканированных страниц, при этом одно известное слово использовалось в качестве контроля для проверки, а второе использовалось для краудсорсинга чтения неуверенного слова. [4] reCAPTCHA изначально была разработана Луисом фон Аном , Дэвидом Абрахамом, Мануэлем Блюмом , Майклом Кроуфордом, Беном Маурером, Колином Макмилленом и Эдисоном Таном в главном кампусе Университета Карнеги-Меллона в Питтсбурге . [5] Она была приобретена Google в сентябре 2009 года. [6] Система помогла оцифровать архивы The New York Times и впоследствии использовалась Google Books для аналогичных целей. [7]
Сообщалось, что система отображает более 100 миллионов CAPTCHA каждый день [8] на таких сайтах, как Facebook , TicketMaster, Twitter, 4chan , CNN.com , StumbleUpon , [9] Craigslist (с июня 2008 года) [10] и на веб-сайте программы купонов на цифровые телевизионные конвертеры Национального управления по телекоммуникациям и информации США (в рамках перехода США на цифровое телевидение ). [11]
В 2014 году Google отошла от первоначальной концепции сервиса, сосредоточившись на сокращении количества действий пользователя, необходимых для верификации пользователя, и предоставляя задачи по распознаванию человеком (например, идентификация изображений в наборе, которые удовлетворяют определенному запросу) только в том случае, если поведенческий анализ подозревает, что пользователь может быть ботом.
В октябре 2023 года было обнаружено, что чат-бот GPT-4 от OpenAI может решать CAPTCHA. [12]
Distributed Proofreaders был первым проектом, добровольно посвятившим свое время расшифровке отсканированного текста, который не мог быть прочитан программами оптического распознавания символов (OCR). Он работает с Project Gutenberg для оцифровки материалов, являющихся общественным достоянием , и использует методы, совершенно отличные от reCAPTCHA.
Программа reCAPTCHA была создана гватемальским ученым -компьютерщиком Луисом фон Аном [13] и получила поддержку от MacArthur Fellowship . Один из первых разработчиков CAPTCHA, он понял, что «непреднамеренно создал систему, которая тратила по мелочи, с десятисекундными интервалами, миллионы часов самого драгоценного ресурса: циклов человеческого мозга». [14]
Отсканированный текст подвергается анализу двумя разными OCR. Любое слово, которое по-разному расшифровывается двумя программами OCR или отсутствует в английском словаре, помечается как «подозрительное» и преобразуется в CAPTCHA. Подозрительное слово отображается вне контекста, иногда вместе с уже известным контрольным словом. Если человек правильно вводит контрольное слово, то ответ на сомнительное слово принимается как вероятно действительный. Если достаточное количество пользователей правильно вводят контрольное слово, но неправильно вводят второе слово, которое OCR не распознал, то цифровая версия документов может содержать неправильное слово. Идентификация, выполненная каждой программой OCR, получает значение 0,5 балла, а каждая интерпретация человеком получает полный балл. Как только данная идентификация достигает 2,5 баллов, слово считается действительным. Те слова, которым судьи-люди последовательно присваивают одну идентификацию, позже перерабатываются в качестве контрольных слов. [15] Если первые три догадки совпадают друг с другом, но не совпадают ни с одним из OCR, они считаются правильным ответом, и слово становится контрольным словом. [16] Когда шесть пользователей отклоняют слово до того, как будет выбрано какое-либо правильное написание, слово отбрасывается как нечитаемое. [16]
Первоначальный метод reCAPTCHA был разработан для показа сомнительных слов отдельно, как внеконтекстное исправление, а не в использовании, например, во фразе из пяти слов из исходного документа. [17] Кроме того, контрольное слово может ввести в заблуждение относительно контекста для второго слова, например, запрос "/metal/ /fife/" может быть введен как "metal file " из-за логической связи опиливания с металлическим инструментом, который считается более распространенным, чем музыкальный инструмент " fife ". [ необходима цитата ]
В 2012 году reCAPTCHA начала использовать фотографии, взятые из проекта Google Street View , в дополнение к отсканированным словам. [18] Пользователю будет предложено идентифицировать изображения пешеходных переходов, уличных фонарей и других объектов. Была выдвинута гипотеза, что данные используются Waymo (дочерней компанией Google) для обучения автономных транспортных средств, хотя неназванный представитель опроверг это, заявив, что данные использовались только для улучшения Google Maps по состоянию на середину 2021 года. [19]
Google взимает плату за использование reCAPTCHA на веб-сайтах, которые делают более миллиона запросов reCAPTCHA в месяц. [20]
reCAPTCHA v1 была объявлена неработоспособной и закрыта 31 марта 2018 года. [21]
В 2013 году reCAPTCHA начала внедрять поведенческий анализ взаимодействий браузера, чтобы предсказать, является ли пользователь человеком или ботом. В следующем году Google начала развертывать новый API reCAPTCHA, включающий «no CAPTCHA reCAPTCHA» — где пользователям, которые считаются имеющими низкий риск, нужно только нажать на один флажок , чтобы подтвердить свою личность. CAPTCHA все еще может быть представлена, если система не уверена в риске пользователя; Google также представила новый тип CAPTCHA-задачи, разработанный для того, чтобы быть более доступным для мобильных пользователей, где пользователь должен выбрать изображения, соответствующие определенному запросу из сетки. [2] [22]
В 2017 году Google представила новую «невидимую» reCAPTCHA, где проверка происходит в фоновом режиме, и никакие проблемы не отображаются вообще, если пользователь считается имеющим низкий уровень риска. [23] [24] [25] По словам бывшего « царя мошенничества с кликами » Google Шумана Гошемаджумдера , эта возможность «создает новый вид проблем, которые очень продвинутые боты все еще могут обойти, но при этом создает гораздо меньше помех для законопослушного человека». [25]
Тесты reCAPTCHA отображаются на центральном сайте проекта reCAPTCHA, который предоставляет слова для расшифровки. Это делается через JavaScript API , при этом сервер делает обратный вызов reCAPTCHA после отправки запроса. Проект reCAPTCHA предоставляет библиотеки для различных языков программирования и приложений, чтобы упростить этот процесс. reCAPTCHA — это бесплатная услуга, предоставляемая веб-сайтам для помощи в расшифровке, [26] но программное обеспечение reCAPTCHA не является программным обеспечением с открытым исходным кодом . [27]
Кроме того, reCAPTCHA предлагает плагины для нескольких платформ веб-приложений, включая ASP.NET , Ruby и PHP , для упрощения внедрения сервиса. [28]
Основная цель системы CAPTCHA — блокировать спам-ботов, позволяя при этом использовать людей. 14 декабря 2009 года Джонатан Уилкинс опубликовал статью, описывающую слабые стороны reCAPTCHA, которые позволили ботам достичь уровня решения 18%. [30] [31] [32]
1 августа 2010 года Чад Хоук выступил с докладом на конференции DEF CON 18 Hacking Conference, в котором подробно описал метод устранения искажений, добавленных к изображениям, что позволило компьютерной программе определить правильный ответ в 10% случаев. [33] [34] Система reCAPTCHA была изменена 21 июля 2010 года, до того, как Хоук должен был рассказать о своем методе. Хоук изменил свой метод на то, что он назвал «более простой» CAPTCHA, чтобы определить правильный ответ в 31,8% случаев. Хоук также упомянул о защитных мерах в системе, включая блокировку с высоким уровнем безопасности, если неверный ответ дается 32 раза подряд. [35]
26 мая 2012 года Адам, CP и Джеффбол из DC949 выступили с докладом на хакерской конференции LayerOne, в котором подробно описали, как им удалось достичь автоматизированного решения с точностью 99,1%. [36] Их тактика заключалась в использовании методов машинного обучения, подраздела искусственного интеллекта, для анализа аудиоверсии reCAPTCHA, которая доступна для людей с нарушениями зрения. Google выпустила новую версию reCAPTCHA всего за несколько часов до их выступления, внеся серьезные изменения как в аудиоверсию, так и в визуальную версию своего сервиса. В этом выпуске аудиоверсия была увеличена с 8 до 30 секунд и стала намного сложнее для понимания как для людей, так и для ботов. В ответ на это и следующее обновление участники DC949 выпустили еще две версии Stiltwalker, которые превзошли reCAPTCHA с точностью 60,95% и 59,4% соответственно. После каждого последующего перерыва Google обновлял reCAPTCHA в течение нескольких дней. По данным DC949, они часто возвращались к функциям, которые ранее были взломаны.
27 июня 2012 года Клаудия Крус, Фернандо Уседа и Леобардо Рейес опубликовали статью, в которой показана система, работающая на изображениях reCAPTCHA с точностью 82%. [37] Авторы не сообщили, может ли их система распознавать недавние изображения reCAPTCHA, хотя они утверждают, что их работа представляет собой интеллектуальное OCR и устойчива к некоторым, если не ко всем изменениям в базе данных изображений.
В презентации, представленной в августе 2012 года на BsidesLV 2012, DC949 назвал последнюю версию «непостижимо невозможной для людей» — они не смогли решить ее и вручную. [36] Организация по обеспечению доступности веб-сайтов WebAIM сообщила в мае 2012 года: «Более 90% респондентов [пользователей программ чтения с экрана] считают CAPTCHA очень или довольно сложной». [38]
Первоначальная версия reCAPTCHA подверглась критике как источник неоплачиваемой работы по содействию в расшифровке. [39]
Google получает прибыль от пользователей reCAPTCHA как от бесплатных работников для улучшения своих исследований в области искусственного интеллекта. [40]
Текущая версия системы подверглась критике за ее зависимость от отслеживающих файлов cookie и продвижение привязки поставщика к сервисам Google; администраторам рекомендуется включать код отслеживания reCAPTCHA на все страницы своего веб-сайта для анализа поведения и «риска» пользователей, что определяет уровень трения, возникающего при использовании запроса reCAPTCHA. [41] Google заявила в своей политике конфиденциальности , что данные пользователей, собранные таким образом, не используются для персонализированной рекламы. Также было обнаружено, что система отдает предпочтение тем, у кого есть активный вход в учетную запись Google , и отображает более высокий риск для тех, кто использует анонимные прокси-серверы и службы VPN. [23]
Когда Google анонсировала reCAPTCHA v3.0, возникли опасения относительно конфиденциальности, поскольку она позволяет Google отслеживать пользователей на сторонних веб-сайтах. [23]
В апреле 2020 года Cloudflare перешла с reCAPTCHA на hCaptcha, ссылаясь на опасения по поводу конфиденциальности, связанные с потенциальным использованием Google данных, которые они собирают через reCAPTCHA, для целевой рекламы [42] и для сокращения эксплуатационных расходов, поскольку значительная часть клиентов Cloudflare не платят. В ответ Google сообщила журналу PC Magazine , что данные из reCAPTCHA никогда не используются в целях персонализированной рекламы. [20]
Справочный центр Google утверждает, что reCAPTCHA не поддерживается для сообщества слепоглухих , [43] фактически блокируя таких пользователей от всех страниц, использующих сервис. Однако в настоящее время reCAPTCHA имеет самый длинный список соображений доступности среди всех сервисов CAPTCHA. [44]
В одном из вариантов задач CAPTCHA изображения не подсвечиваются постепенно, а исчезают при нажатии и заменяются новым изображением, постепенно появляющимся, напоминая игру «Бей крота» .
Критика была направлена на длительную продолжительность появления и исчезновения изображений. [45]
reCAPTCHA также создала проект Mailhide, который защищает адреса электронной почты на веб-страницах от сбора спамерами . [46] По умолчанию адрес электронной почты был преобразован в формат, который не позволял сканеру видеть полный адрес электронной почты; например, «[email protected]» был бы преобразован в «[email protected]». Затем посетитель нажимал на «...» и решал CAPTCHA, чтобы получить полный адрес электронной почты. Можно было также отредактировать всплывающий код так, чтобы ни один из адресов не был виден. Mailhide был прекращен в 2018 году, поскольку он полагался на reCAPTCHA v1. [47]