reCAPTCHA Inc. [1] — это система CAPTCHA , принадлежащая Google . Это позволяет веб-хостам различать человеческий и автоматический доступ к веб-сайтам. В оригинальной версии пользователям предлагалось расшифровывать трудночитаемый текст или сопоставлять изображения. Версия 2 также просила пользователей расшифровать текст или сопоставить изображения, если анализ файлов cookie и рендеринг холста показал, что страница загружается автоматически. [2] Начиная с версии 3, reCAPTCHA никогда не отвлекает пользователей и запускается автоматически, когда пользователи загружают страницы или нажимают кнопки. [3]
Первоначальная версия сервиса представляла собой платформу массового сотрудничества , предназначенную для оцифровки книг, особенно тех, которые были слишком неразборчивы для сканирования на компьютерах . В подсказках для проверки использовались пары слов из отсканированных страниц, при этом одно известное слово использовалось в качестве контроля проверки, а второе использовалось для краудсорсинга чтения неопределенного слова. [4] reCAPTCHA была первоначально разработана Луисом фон Аном , Дэвидом Абрахамом, Мануэлем Блюмом , Майклом Кроуфордом, Беном Маурером, Колином Макмилленом и Эдисоном Таном в главном кампусе Университета Карнеги-Меллон в Питтсбурге . [5] Она была приобретена Google в сентябре 2009 года. [6] Система помогла оцифровать архивы The New York Times и впоследствии использовалась Google Books для аналогичных целей. [7]
Сообщается, что система отображает более 100 миллионов CAPTCHA каждый день [8] на таких сайтах, как Facebook , TicketMaster , Twitter , 4chan , CNN.com , StumbleUpon , [9] Craigslist (с июня 2008 г.), [10] и в США. Веб-сайт программы купонов на конвертер цифрового телевидения Национального управления по телекоммуникациям и информации (в рамках перехода на цифровое телевидение в США ). [11]
В 2014 году Google отклонил сервис от своей первоначальной концепции, сосредоточив внимание на уменьшении количества взаимодействия с пользователем, необходимого для проверки пользователя, и создавая проблемы распознавания человека (например, идентификацию изображений в наборе, которые удовлетворяют определенному запросу), если поведенческий анализ подозревает, что пользователь может быть ботом.
В октябре 2023 года было обнаружено, что чат- бот GPT-4 Bing Chat может решать CAPTCHA. [12]
Распределенные корректоры были первым проектом, который добровольно потратил время на расшифровку отсканированного текста, который не мог быть прочитан программами оптического распознавания символов (OCR). Он сотрудничает с Project Gutenberg для оцифровки материалов, являющихся общественным достоянием , и использует методы, совершенно отличные от reCAPTCHA.
Программа reCAPTCHA была разработана гватемальским ученым-компьютерщиком Луисом фон Аном [ 13] при поддержке стипендии Макартура . Будучи одним из первых разработчиков CAPTCHA, он понял, что «невольно создал систему, которая с десятисекундными интервалами тратила миллионы часов самого ценного ресурса: циклов человеческого мозга». [14]
Отсканированный текст подвергается анализу с помощью двух разных программ оптического распознавания символов. Любое слово, которое по-разному расшифровывается двумя программами OCR или которого нет в словаре английского языка, помечается как «подозрительное» и преобразуется в CAPTCHA. Подозрительное слово отображается вне контекста, иногда вместе с уже известным контрольным словом. Если человек правильно вводит контрольное слово, то ответ на сомнительное слово принимается как вероятно верный. Если достаточное количество пользователей правильно напечатают контрольное слово, но неправильно напечатают второе слово, которое OCR не распознает, то цифровая версия документов может в конечном итоге содержать неправильное слово. Идентификация, выполняемая каждой программой OCR, оценивается в 0,5 балла, а каждая интерпретация человеком оценивается в полный балл. Как только данная идентификация набирает 2,5 балла, слово считается действительным. Те слова, которым судьи-люди последовательно присваивают единую идентичность, позже перерабатываются в качестве контрольных слов. [16] Если первые три предположения совпадают друг с другом, но не совпадают ни с одним из OCR, они считаются правильным ответом, а слово становится контрольным. [17] Если шесть пользователей отклоняют слово до того, как будет выбрано правильное написание, слово отбрасывается как нечитаемое. [17]
Первоначальный метод reCAPTCHA был разработан для отображения сомнительных слов отдельно, как исправление вне контекста, а не в использовании, например, в фразе из пяти слов из исходного документа. [18] Кроме того, управляющее слово может ввести в заблуждение контекст второго слова, например, запрос на ввод «/metal//fife/» как «металлический напильник », поскольку логическая связь опиливания металлическим инструментом считается более распространен, чем музыкальный инструмент « файф ». [ нужна цитата ]
В 2012 году reCAPTCHA начала использовать помимо отсканированных слов фотографии, взятые из проекта Google Street View . [19] Пользователю будет предложено идентифицировать изображения пешеходных переходов, уличных фонарей и других объектов. Была выдвинута гипотеза, что данные используются Waymo (дочерней компанией Google) для обучения беспилотных транспортных средств, хотя неназванный представитель опроверг это, заявив, что по состоянию на середину 2021 года данные использовались только для улучшения Google Maps. [20]
Google взимает плату за использование reCAPTCHA на веб-сайтах, которые отправляют более миллиона запросов reCAPTCHA в месяц. [21]
В 2013 году reCAPTCHA начала реализовывать поведенческий анализ взаимодействия браузера, чтобы предсказать, является ли пользователь человеком или ботом. В следующем году Google начал развертывать новый API reCAPTCHA с функцией «no CAPTCHA reCAPTCHA», при которой пользователям, которые относятся к группе низкого риска, нужно всего лишь установить один флажок , чтобы подтвердить свою личность. CAPTCHA все равно может быть представлена, если система не уверена в риске пользователя; Google также представил новый тип задачи CAPTCHA, призванный сделать ее более доступной для мобильных пользователей: пользователь должен выбрать изображения, соответствующие определенному запросу, из сетки. [2] [22]
В 2017 году Google представил новую «невидимую» reCAPTCHA, в которой проверка происходит в фоновом режиме, и никакие проблемы вообще не отображаются, если считается, что пользователь относится к группе низкого риска. [23] [24] [25] По словам бывшего «царя Google по мошенничеству с кликами » Шумана Госемаджумдера , эта возможность «создает новый вид проблемы, которую очень продвинутые боты все еще могут обойти, но создает гораздо меньше препятствий для законного человека. " [25]
Срок службы reCAPTCHA v1 был объявлен прекращенным и прекращено 31 марта 2018 г. [26]
Тесты reCAPTCHA отображаются с центрального сайта проекта reCAPTCHA, который предоставляет слова для расшифровки. Это делается через API JavaScript , при этом сервер выполняет обратный вызов reCAPTCHA после отправки запроса. Проект reCAPTCHA предоставляет библиотеки для различных языков программирования и приложений, чтобы упростить этот процесс. reCAPTCHA — это бесплатная услуга, предоставляемая веб-сайтам для помощи в расшифровке [27] , но программное обеспечение reCAPTCHA не имеет открытого исходного кода . [28]
Кроме того, reCAPTCHA предлагает плагины для нескольких платформ веб-приложений, включая ASP.NET , Ruby и PHP , для упрощения реализации службы. [29]
Основная цель системы CAPTCHA — блокировать спам-боты, разрешая пользователям доступ к ней. 14 декабря 2009 года Джонатан Уилкинс опубликовал статью, описывающую недостатки reCAPTCHA, которые позволяли ботам достигать уровня решения 18%. [31] [32] [33]
1 августа 2010 года Чад Хоук выступил на хакерской конференции DEF CON 18 с подробным описанием метода устранения искажений, добавляемых к изображениям, которые позволяли компьютерной программе определять действительный ответ в 10% случаев. [34] [35] Система reCAPTCHA была модифицирована 21 июля 2010 года, до того, как Хоук рассказал о своем методе. Хоук модифицировал свой метод, сделав его «более простым» CAPTCHA, чтобы определить действительный ответ в 31,8% случаев. Хоук также упомянул защитные меры безопасности в системе, в том числе блокировку с высоким уровнем безопасности, если неверный ответ дается 32 раза подряд. [36]
26 мая 2012 года Адам, CP и Джеффбол из DC949 выступили с презентацией на хакерской конференции LayerOne, в которой подробно рассказали, как им удалось создать автоматизированное решение с точностью 99,1%. [37] Их тактика заключалась в использовании методов машинного обучения (подобласти искусственного интеллекта) для анализа аудиоверсии reCAPTCHA, доступной для слабовидящих. Google выпустил новую версию reCAPTCHA всего за несколько часов до их выступления, внося серьезные изменения как в аудио, так и в визуальную версию своего сервиса. В этом выпуске продолжительность аудиоверсии была увеличена с 8 до 30 секунд, и ее гораздо сложнее понять как людям, так и ботам. В ответ на это и следующее обновление члены DC949 выпустили еще две версии Stiltwalker, которые превзошли reCAPTCHA с точностью 60,95% и 59,4% соответственно. После каждого последующего перерыва Google обновлял reCAPTCHA в течение нескольких дней. По данным DC949, они часто возвращались к ранее взломанным функциям.
27 июня 2012 года Клаудия Круз, Фернандо Уседа и Леобардо Рейес опубликовали статью, показывающую систему, работающую на изображениях reCAPTCHA с точностью 82%. [38] Авторы не сообщили, способна ли их система решать последние изображения reCAPTCHA, хотя они заявляют, что их работа является интеллектуальным распознаванием текста и устойчива к некоторым, если не ко всем, изменениям в базе данных изображений.
В презентации, состоявшейся в августе 2012 года на BsidesLV 2012, DC949 назвал последнюю версию «непостижимо невозможной для людей» — они также не смогли решить их вручную. [37] Организация веб-доступности WebAIM сообщила в мае 2012 года: «Более 90% респондентов [пользователей программ чтения с экрана] считают CAPTCHA очень или несколько сложной задачей». [39]
Первоначальная версия reCAPTCHA подверглась критике как источник неоплачиваемой работы по расшифровке. [40]
Google получает прибыль от пользователей reCAPTCHA как бесплатных работников для улучшения своих исследований в области искусственного интеллекта. [41]
Текущая версия системы подверглась критике за ее зависимость от файлов cookie отслеживания и поощрение привязки поставщика к сервисам Google; администраторам рекомендуется включать код отслеживания reCAPTCHA на все страницы своего веб-сайта для анализа поведения и «риска» пользователей, что определяет уровень проблем, возникающих при использовании запроса reCAPTCHA. [42] Google заявила в своей политике конфиденциальности , что пользовательские данные, собранные таким образом, не используются для персонализированной рекламы. Также было обнаружено, что система отдает предпочтение тем, у кого есть активный вход в учетную запись Google , и демонстрирует более высокий риск для тех, кто использует анонимизирующие прокси и службы VPN. [23]
Обеспокоенность по поводу конфиденциальности возникла, когда Google анонсировала reCAPTCHA v3.0, поскольку она позволяет Google отслеживать пользователей на веб-сайтах, не принадлежащих Google. [23]
В апреле 2020 года Cloudflare перешла с reCAPTCHA на hCaptcha, ссылаясь на опасения конфиденциальности по поводу потенциального использования Google данных, которые они вспоминают через reCAPTCHA, для целевой рекламы [43] и для сокращения операционных расходов, поскольку значительная часть клиентов Cloudflare не платит. . В ответ Google сообщил журналу PC Magazine , что данные reCAPTCHA никогда не используются в целях персонализированной рекламы. [21]
В справочном центре Google говорится, что reCAPTCHA не поддерживается для сообщества слепоглухих , [44] что фактически блокирует таким пользователям доступ ко всем страницам, использующим эту услугу. Тем не менее, reCAPTCHA в настоящее время имеет самый длинный список рекомендаций по доступности среди всех служб CAPTCHA. [45]
В одном из вариантов задач CAPTCHA изображения не подсвечиваются постепенно, а исчезают при нажатии и заменяются новым изображением, исчезающим, напоминающим « ударь крота» .
Критика была направлена на длительную продолжительность исчезновения и появления изображений. [46]
reCAPTCHA также создала проект Mailhide, который защищает адреса электронной почты на веб-страницах от сбора спамерами . [47] По умолчанию адрес электронной почты был преобразован в формат, который не позволял сканеру видеть полный адрес электронной почты; например, «[email protected]» было бы преобразовано в «[email protected]». Затем посетитель нажмет «...» и решит CAPTCHA, чтобы получить полный адрес электронной почты. Можно также отредактировать всплывающий код, чтобы ни один адрес не был виден. Поддержка Mailhide была прекращена в 2018 году, поскольку она использовала reCAPTCHA v1. [48]
{{cite book}}
: CS1 maint: location missing publisher (link)