Глубокая паутина

Глубокая сеть , ^[1] невидимая сеть , ^[2] или скрытая сеть ^[3] — это части Всемирной паутины , содержимое которых не индексируется стандартными программами веб-поисковиков . Это отличие от « поверхностной сети », которая доступна каждому, кто пользуется Интернетом. ^[4] Ученому-компьютерщику Майклу К. Бергману приписывают изобретение этого термина в 2001 году в качестве термина для индексации поиска. ^[5]

Доступ к сайтам Deep Web можно получить по прямому URL-адресу или IP-адресу , но для доступа к реальному контенту может потребоваться ввод пароля или другой информации безопасности. ^[6]^[7] Глубокие веб-сайты используются для веб-почты , онлайн-банкинга , облачных хранилищ , страниц и профилей в социальных сетях с ограниченным доступом , а также веб-форумов , которые требуют регистрации для просмотра контента. Сюда также входят платные услуги, такие как видео по запросу , а также некоторые онлайн-журналы и газеты.

Терминология

Первое объединение терминов «глубокая сеть» и « даркнет » произошло в 2009 году, когда терминология поиска в глубокой сети обсуждалась вместе с незаконной деятельностью, происходящей во Freenet и даркнете . ^[8] Эта преступная деятельность включает торговлю личными паролями, фальшивыми документами, удостоверяющими личность , наркотиками, огнестрельным оружием и детской порнографией . ^[9]

С тех пор, после их использования в репортажах СМИ о черном рынке веб-сайта Silk Road , средства массовой информации обычно использовали термин «глубокая сеть» как синоним даркнета или даркнета , сравнение, которое некоторые отвергают как неточное ^{[10] и, следовательно}, стало постоянный источник путаницы. ^[11] Репортеры Wired Ким Зеттер ^[12] и Энди Гринберг ^[13] рекомендуют использовать эти термины по-разному. В то время как глубокая сеть — это ссылка на любой сайт, к которому не может получить доступ традиционная поисковая система, темная сеть — это часть глубокой сети, которая была намеренно скрыта и недоступна для стандартных браузеров и методов. ^[14]^[15]^[16]^[17]^[18]^[^{чрезмерное цитирование}^]

Неиндексированный контент

Бергман в статье о глубокой сети, опубликованной в The Journal of Electronic Publishing , упомянул, что Джилл Эллсуорт использовала термин « Невидимая сеть» в 1994 году для обозначения веб-сайтов, которые не были зарегистрированы ни в одной поисковой системе. ^[19] Бергман процитировал статью Фрэнка Гарсии, опубликованную в январе 1996 года: ^[20]

Это был бы сайт, который, возможно, был бы разумно спроектирован, но его не удосужились зарегистрировать ни в одной поисковой системе. Значит, их никто не найдет! Вы скрыты. Я называю это невидимой паутиной.

Еще одно раннее использование термина «Невидимая паутина» было осуществлено Брюсом Маунтом и Мэтью Б. Коллом из Personal Library Software в описании программы Deep Web № 1, найденном в пресс-релизе от декабря 1996 года. ^[21]

Первое использование термина « глубокая паутина» , ныне общепринятого, произошло в вышеупомянутом исследовании Бергмана 2001 года. ^[19]

Методы индексирования

Методы, предотвращающие индексацию веб-страниц традиционными поисковыми системами, можно отнести к одной или нескольким из следующих категорий:

Контекстная сеть : страницы с содержимым, различным для разных контекстов доступа (например, диапазонов IP-адресов клиентов или предыдущей последовательности навигации).
Динамический контент : динамические страницы , которые возвращаются в ответ на отправленный запрос или доступны только через форму, особенно если используются элементы ввода открытого домена (например, текстовые поля); в таких областях трудно ориентироваться без знания предметной области .
Контент с ограниченным доступом : сайты, которые ограничивают доступ к своим страницам техническим способом (например, с помощью стандарта исключения роботов или CAPTCHA или директивы no-store, которая запрещает поисковым системам просматривать их и создавать кэшированные копии). ^[22] На сайтах может использоваться внутренняя поисковая система для просмотра таких страниц. ^[23]^[24]
Не-HTML/текстовое содержимое : текстовое содержимое, закодированное в мультимедийных файлах (изображениях или видео) или в определенных форматах файлов, не распознаваемых поисковыми системами.
Частный Интернет : сайты, требующие регистрации и входа в систему (ресурсы, защищенные паролем).
Скриптовый контент : страницы, доступные только по ссылкам, созданным с помощью JavaScript , а также контент, динамически загружаемый с веб-серверов с помощью решений Flash или Ajax .
Программное обеспечение : определенный контент намеренно скрыт от обычного Интернета и доступен только с помощью специального программного обеспечения, такого как Tor , I2P или другого программного обеспечения даркнета. Например, Tor позволяет пользователям анонимно получать доступ к веб-сайтам, используя адрес сервера .onion , скрывая свой IP-адрес.
Несвязанный контент : страницы, на которые нет ссылок с других страниц, что может помешать программам веб-сканирования получить доступ к контенту. Этот контент называется страницами без обратных ссылок (также называемыми входными ссылками). Кроме того, поисковые системы не всегда обнаруживают все обратные ссылки с искомых веб-страниц.
Веб-архивы . Службы веб-архивирования, такие как Wayback Machine, позволяют пользователям просматривать архивные версии веб-страниц с течением времени, включая веб-сайты, которые стали недоступны и не индексируются поисковыми системами, такими как Google. Wayback Machine можно назвать программой для просмотра глубокой сети, поскольку веб-архивы, созданные не в настоящем, не могут быть проиндексированы, поскольку прошлые версии веб-сайтов невозможно просмотреть с помощью поиска. Все веб-сайты время от времени обновляются, поэтому веб-архивы считаются контентом Deep Web. ^[25]

Типы контента

Хотя не всегда возможно напрямую обнаружить содержимое конкретного веб-сервера для его индексации, доступ к сайту потенциально возможен косвенный (из-за уязвимостей компьютера ).

Чтобы обнаружить контент в Интернете, поисковые системы используют веб-сканеры , которые переходят по гиперссылкам через известные номера виртуальных портов протокола . Этот метод идеально подходит для поиска контента в поверхностной сети, но часто неэффективен при поиске контента в глубокой сети. Например, эти сканеры не пытаются найти динамические страницы, являющиеся результатом запросов к базе данных, из-за неопределенного количества возможных запросов. ^[26] Было отмечено, что это можно преодолеть (частично), предоставив ссылки на результаты запроса, но это может непреднамеренно повысить популярность сайта в глубокой сети.

DeepPeep , Intute , Deep Web Technologies , Scirus и Ahmia.fi — это несколько поисковых систем, получивших доступ к глубокой сети. У Intute закончилось финансирование, и по состоянию на июль 2011 года он представляет собой временный статический архив. ^[27] Scirus ушел на пенсию ближе к концу января 2013 года. ^[28]

Исследователи изучают, как можно автоматически сканировать глубокую сеть, включая контент, доступ к которому возможен только с помощью специального программного обеспечения, такого как Tor . В 2001 году Шрирам Рагхаван и Гектор Гарсиа-Молина (Стэнфордский факультет компьютерных наук, Стэнфордский университет) ^[29]^[30] представили архитектурную модель сканера скрытой сети, который использовал важные термины, предоставленные пользователями или собранные из интерфейсов запросов для запроса. веб-форму и сканировать контент Deep Web. Александрос Нтулас, Петрос Зерфос и Чонху Чо из Калифорнийского университета в Лос-Анджелесе создали сканер скрытой сети, который автоматически генерирует осмысленные запросы для выдачи результатов в поисковых формах. ^[31] Было предложено несколько языков запросов форм (например, DEQUEL ^[32] ), которые, помимо выдачи запроса, также позволяют извлекать структурированные данные из страниц результатов. Еще одним примером является DeepPeep, проект Университета Юты , спонсируемый Национальным научным фондом , который собрал скрытые веб-источники (веб-формы) в различных областях на основе новых специализированных методов сканирования. ^[33]^[34]

Коммерческие поисковые системы начали изучать альтернативные методы сканирования глубокой сети. Протокол Sitemap (впервые разработанный и представленный Google в 2005 году) и OAI-PMH — это механизмы, которые позволяют поисковым системам и другим заинтересованным сторонам обнаруживать ресурсы глубокой сети на определенных веб-серверах. Оба механизма позволяют веб-серверам рекламировать доступные по ним URL-адреса, тем самым обеспечивая автоматическое обнаружение ресурсов, которые не связаны напрямую с поверхностной сетью. Система глубокого веб-интерфейса Google вычисляет отправку для каждой HTML-формы и добавляет полученные HTML-страницы в индекс поисковой системы Google. Обнаруженные результаты составляют тысячу запросов в секунду к контенту глубокой сети. ^[35] В этой системе предварительный расчет представленных материалов осуществляется с использованием трех алгоритмов:

выбор входных значений для входных данных текстового поиска, которые принимают ключевые слова,
определение входных данных, которые принимают только значения определенного типа (например, дата) и
выбор небольшого количества входных комбинаций, которые генерируют URL-адреса, подходящие для включения в индекс веб-поиска.

В 2008 году, чтобы облегчить пользователям скрытых сервисов Tor доступ и поиск скрытого суффикса .onion , Аарон Шварц разработал Tor2web — прокси-приложение, способное обеспечивать доступ посредством обычных веб-браузеров. ^[36] В этом приложении ссылки на глубокий веб-сайт отображаются в виде случайной последовательности букв, за которой следует домен верхнего уровня .onion .

Смотрите также

дальнейшее чтение

Баркер, Джо (январь 2004 г.). «Невидимая сеть: что это такое, почему она существует, как ее найти и присущая ей двусмысленность». Калифорнийский университет, Беркли, Интернет-семинары обучающей библиотеки. Архивировано из оригинала 29 июля 2005 года . Проверено 26 июля 2011 г..
Басу, Сайкат (14 марта 2010 г.). «10 поисковых систем для исследования невидимой сети». MakeUseOf.com..
Озкан, Акин (ноябрь 2014 г.). «Глубокая паутина / Дерин Интернет». Архивировано из оригинала 8 ноября 2014 года . Проверено 6 ноября 2014 г..
Гручавка, Стив (июнь 2006 г.). «Практическое руководство по глубокой сети». Архивировано из оригинала 5 января 2014 года . Проверено 28 февраля 2007 г..
Гамильтон, Найджел (2003). «Механика метапоисковой системы Deep Net». 12-я конференция Всемирной паутины..
Он, Бин; Чанг, Кевин Чен-Чуан (2003). «Сопоставление статистических схем в интерфейсах веб-запросов» (PDF) . Материалы Международной конференции ACM SIGMOD 2003 г. по управлению данными . Архивировано из оригинала (PDF) 20 июля 2011 года.
Хауэлл О'Нил, Патрик (октябрь 2013 г.). «Как искать в глубокой сети». Ежедневная точка ..
Ипейротис, Панайотис Г.; Гравано, Луис; Сахами, Мехран (2001). «Исследовать, подсчитывать и классифицировать: категоризация баз данных в скрытой сети» (PDF) . Материалы Международной конференции ACM SIGMOD 2001 года по управлению данными . стр. 67–78. Архивировано из оригинала (PDF) 12 сентября 2006 года . Проверено 26 сентября 2006 г.
Кинг, Джон Д.; Ли, Юэфэн; Тао, Дэниел; Наяк, Ричи (ноябрь 2007 г.). «Знания о мире горнодобывающей промышленности для анализа контента поисковых систем» (PDF) . Веб-аналитика и агентские системы . 5 (3): 233–53. Архивировано из оригинала (PDF) 3 декабря 2008 г. Проверено 26 июля 2011 г.
МакКаун, Фрэнк; Лю, Сяомин; Нельсон, Майкл Л.; Зубайр, Мохаммад (март – апрель 2006 г.). «Покрытие корпуса OAI-PMH поисковыми системами» (PDF) . IEEE Интернет-вычисления . 10 (2): 66–73. дои : 10.1109/MIC.2006.41. S2CID 15511914.
Прайс, Гэри; Шерман, Крис (июль 2001 г.). Невидимая паутина: раскрытие источников информации, которые поисковые системы не видят . Книги КиберЭйджа. ISBN 978-0-910965-51-4.
Шестаков, Денис (июнь 2008 г.). Интерфейсы поиска в Интернете: запросы и характеристики . Докторские диссертации TUCS 104, Университет Турку
Вориски, Питер (11 декабря 2008 г.). «Фирмы стремятся сделать федеральную сеть более доступной для поиска». Вашингтон Пост . п. Д01.
Райт, Алекс (март 2004 г.). «В поисках глубокой сети». Салон . Архивировано из оригинала 9 марта 2007 года..
Ученые, обнаженные (декабрь 2014 г.). «Интернет: хорошее, плохое и ужасное – углубленное исследование Интернета и даркнета голыми учёными Кембриджского университета» (подкаст).

Внешние ссылки

СМИ, связанные с глубокой паутиной, на Викискладе?
Словарное определение глубокой сети в Викисловаре