Глубокая паутина

Глубокая паутина ^[1], невидимая паутина [ ^2] или скрытая паутина ^[3] — это части Всемирной паутины , содержимое которых не индексируется стандартными программами поисковых систем . ^[4] Это контрастирует с « поверхностной паутиной », которая доступна любому пользователю Интернета. ^[5] Изобретение этого термина в 2001 году приписывают компьютерному ученому Майклу К. Бергману как термина индексации поиска. ^[6]

Доступ к сайтам Deep Web можно получить по прямому URL или IP-адресу , но для доступа к фактическому контенту может потребоваться ввод пароля или другой информации о безопасности. ^[7]^[8] Использование сайтов Deep Web включает веб-почту , онлайн-банкинг , облачное хранилище , страницы и профили социальных сетей с ограниченным доступом , а также веб-форумы , требующие регистрации для просмотра контента. Сюда также входят платные услуги, такие как видео по запросу и некоторые онлайн-журналы и газеты.

Терминология

Первое смешение терминов «глубокая паутина» и « темная паутина » произошло в 2009 году, когда терминология поиска в глубокой паутине обсуждалась вместе с незаконной деятельностью, происходящей в Freenet и darknet . ^[9] Эта преступная деятельность включает торговлю личными паролями , поддельными документами, удостоверяющими личность , наркотиками , огнестрельным оружием и детской порнографией . ^[10]

С тех пор, после их использования в репортажах СМИ о черном рынке сайта Silk Road , СМИ, как правило, использовали «глубокую паутину» как синоним темной паутины или даркнета , сравнение, которое некоторые отвергают как неточное ^[11] и, следовательно, стало постоянным источником путаницы. ^[12] Репортеры Wired Ким Зеттер ^[13] и Энди Гринберг ^[14] рекомендуют использовать эти термины в разных модах. В то время как глубокая паутина является ссылкой на любой сайт, к которому не может получить доступ традиционная поисковая система, темная паутина является частью глубокой паутины, которая была намеренно скрыта и недоступна для стандартных браузеров и методов. ^[15]^[16]^[17]^[18]^[19]^{[ чрезмерное цитирование ]}

Неиндексированный контент

Бергман в статье о глубокой паутине, опубликованной в The Journal of Electronic Publishing , упомянул, что Джилл Эллсворт использовала термин «Невидимая паутина» в 1994 году для обозначения веб-сайтов, которые не были зарегистрированы ни в одной поисковой системе. ^[20] Бергман процитировал статью Фрэнка Гарсии от января 1996 года: ^[21]

Это был бы сайт, который, возможно, разумно спроектирован, но они не потрудились зарегистрировать его ни в одной из поисковых систем. Поэтому никто не может их найти! Вы скрыты. Я называю это невидимой сетью.

Еще одно раннее использование термина Invisible Web было сделано Брюсом Маунтом и Мэтью Б. Коллом из Personal Library Software в описании программы Deep Web № 1, найденной в пресс-релизе от декабря 1996 года. ^[22]

Первое использование специального термина « глубокая паутина» , который теперь является общепринятым, произошло в вышеупомянутом исследовании Бергмана 2001 года. ^[20]

Методы индексации

Методы, препятствующие индексации веб-страниц традиционными поисковыми системами, можно отнести к одной или нескольким из следующих категорий:

Контекстный веб : страницы с содержимым, различающимся для разных контекстов доступа (например, диапазоны клиентских IP-адресов или предыдущая последовательность навигации).
Динамический контент : динамические страницы , которые возвращаются в ответ на отправленный запрос или к которым можно получить доступ только через форму, особенно если используются элементы ввода открытого домена (например, текстовые поля); в таких полях трудно ориентироваться без знания предметной области .
Контент с ограниченным доступом : сайты, которые ограничивают доступ к своим страницам техническими способами (например, используя стандарт исключения роботов или CAPTCHA , или директиву no-store, которая запрещает поисковым системам просматривать их и создавать кэшированные копии). ^[23] Сайты могут иметь внутреннюю поисковую систему для изучения таких страниц. ^[24]^[25]
Не-HTML/текстовый контент : текстовый контент, закодированный в файлах мультимедиа (изображения или видео) или в определенных форматах файлов, не распознаваемых поисковыми системами.
Частные веб-сайты : сайты, требующие регистрации и входа в систему (ресурсы, защищенные паролем).
Скриптовый контент : страницы, доступ к которым возможен только по ссылкам, созданным с помощью JavaScript, а также контент, динамически загружаемый с веб-серверов с помощью решений Flash или Ajax .
Программное обеспечение : определенный контент намеренно скрыт от обычного Интернета, доступ к нему возможен только с помощью специального программного обеспечения, такого как Tor , I2P или другого программного обеспечения darknet. Например, Tor позволяет пользователям получать доступ к веб-сайтам, используя адрес сервера .onion анонимно, скрывая свой IP-адрес.
Несвязанный контент : страницы, на которые не ссылаются другие страницы, что может помешать программам веб-сканирования получить доступ к контенту. Такой контент называется страницами без обратных ссылок (также известными как входящие ссылки). Кроме того, поисковые системы не всегда обнаруживают все обратные ссылки с искомых веб-страниц.
Веб-архивы : веб-архивные сервисы, такие как Wayback Machine, позволяют пользователям просматривать архивные версии веб-страниц с течением времени, включая веб-сайты, которые стали недоступными и не индексируются поисковыми системами, такими как Google. ^[6] Wayback Machine можно назвать программой для просмотра глубокой паутины, поскольку веб-архивы, которые не относятся к настоящему времени, не могут быть проиндексированы, поскольку прошлые версии веб-сайтов невозможно просмотреть с помощью поиска. Все веб-сайты обновляются в определенное время, поэтому веб-архивы считаются контентом Deep Web. ^[26]

Типы контента

Хотя не всегда возможно напрямую обнаружить содержимое определенного веб-сервера, чтобы его можно было проиндексировать, к сайту потенциально можно получить косвенный доступ (из-за уязвимостей компьютера ).

Для обнаружения контента в Интернете поисковые системы используют веб-краулеры , которые следуют по гиперссылкам через известные номера виртуальных портов протокола . Этот метод идеален для обнаружения контента в поверхностном Интернете, но часто неэффективен при поиске контента в глубоком Интернете. Например, эти краулеры не пытаются найти динамические страницы, которые являются результатом запросов к базе данных из-за неопределенного количества возможных запросов. ^[6] Было отмечено, что это можно преодолеть (частично), предоставляя ссылки на результаты запросов, но это может непреднамеренно увеличить популярность сайта в глубоком Интернете.

DeepPeep , Intute , Deep Web Technologies , Scirus и Ahmia.fi — вот несколько поисковых систем, которые получили доступ к глубокой паутине. Intute исчерпал финансирование и теперь является временным статическим архивом по состоянию на июль 2011 года. ^[27] Scirus вышел на пенсию в конце января 2013 года. ^[28]

Исследователи изучали, как можно автоматически сканировать глубокую паутину, включая контент, доступ к которому возможен только с помощью специального программного обеспечения, такого как Tor . В 2001 году Шрирам Рагхаван и Гектор Гарсия-Молина (Стэнфордский факультет компьютерных наук, Стэнфордский университет) ^[29]^[30] представили архитектурную модель для скрытого веб-краулера, который использовал важные термины, предоставленные пользователями или собранные из интерфейсов запросов, для запроса веб-формы и сканирования контента глубокой паутины. Александрос Нтулас, Петрос Зерфос и Джунгху Чо из Калифорнийского университета в Лос-Анджелесе создали скрытый веб-краулер, который автоматически генерировал осмысленные запросы для выдачи по формам поиска. ^[31] Было предложено несколько языков запросов форм (например, DEQUEL ^[32] ), которые, помимо выдачи запроса, также позволяют извлекать структурированные данные со страниц результатов. Еще одна попытка — DeepPeep, проект Университета Юты , спонсируемый Национальным научным фондом , который собирал скрытые веб-источники (веб-формы) в различных доменах на основе новых методов целенаправленного сканирования. ^[33]^[34]

Коммерческие поисковые системы начали изучать альтернативные методы сканирования глубокой паутины. Протокол Sitemap (впервые разработанный и представленный Google в 2005 году) и OAI-PMH — это механизмы, которые позволяют поисковым системам и другим заинтересованным сторонам обнаруживать ресурсы глубокой паутины на определенных веб-серверах. Оба механизма позволяют веб-серверам рекламировать URL-адреса, которые доступны на них, тем самым позволяя автоматически обнаруживать ресурсы, которые не связаны напрямую с поверхностной паутиной. Система поверхностного просмотра глубокой паутины Google вычисляет отправки для каждой HTML-формы и добавляет полученные HTML-страницы в индекс поисковой системы Google. Выведенные результаты составляют тысячу запросов в секунду к контенту глубокой паутины. ^[35] В этой системе предварительный расчет отправок выполняется с использованием трех алгоритмов:

выбор входных значений для текстового поиска, которые принимают ключевые слова,
определение входных данных, которые принимают только значения определенного типа (например, дата) и
выбор небольшого количества комбинаций входных данных, которые генерируют URL-адреса, подходящие для включения в индекс веб-поиска.

В 2008 году, чтобы облегчить пользователям скрытых сервисов Tor доступ и поиск скрытого суффикса .onion , Аарон Шварц разработал Tor2web — прокси-приложение, способное предоставлять доступ с помощью обычных веб-браузеров. ^[36] При использовании этого приложения ссылки на deep web выглядят как случайная последовательность букв, за которыми следует домен верхнего уровня .onion .

Смотрите также

Ссылки

^ Гамильтон, Найджел (2019–2020). «Механика метапоисковой системы Deep Net». В Исайасе, Педро; Пальма душ Рейс, Антониу (ред.). Материалы Международной конференции IADIS по электронному обществу . ИДИС Пресс. стр. 1034–6. CiteSeerX 10.1.1.90.5847 . ISBN 978-972-98947-0-1.
^ Девайн, Джейн; Эггер-Сидер, Франсин (август 2021 г.). «За пределами Google: невидимая сеть в академической библиотеке». Журнал академического библиотековедения . 30 (4): 265–269. doi :10.1016/j.acalib.2004.04.010.
^ Рагхаван, Шрирам; Гарсия-Молина, Гектор (11–14 сентября 2001 г.). «Crawling the Hidden Web». 27-я Международная конференция по сверхбольшим базам данных .
^ Maor, Etay. «Council Post: Lessons Learned From Tracing Cybercrime's Evolution On The Dark Web». Forbes . Получено 22 сентября 2024 г.
^ "Surface Web". Computer Hope . Получено 20 июня 2018 г.
^ abc Райт, Алекс (22 февраля 2009 г.). «Изучение «Глубокой паутины», которую Google не может понять». The New York Times . Получено 2 сентября 2019 г. [ ...] Майк Бергман, компьютерный ученый и консультант, которому приписывают создание термина «Глубокая паутина».
^ Мадхаван Дж., Ко Д., Кот Л., Ганапати В., Расмуссен А. и Халеви А. (2008). Поиск в глубокой сети Google. Труды Фонда VLDB, 1 (2), 1241–52.
^ Шедден, Сэм (8 июня 2014 г.). «Как вы хотите, чтобы я это сделал? Должно ли это выглядеть как несчастный случай? – Убийца, продающий хит в сети; раскрыто внутри Deep Web». Sunday Mail . Архивировано из оригинала 1 марта 2020 г.
↑ Беккет, Энди (26 ноября 2009 г.). «Темная сторона интернета» . Получено 9 августа 2015 г.
^ D. Day. Самый легкий улов: не будьте еще одной рыбой в темной сети. Университет Уэйк Форест: выступления на TEDx . Архивировано из оригинала 13 ноября 2021 г.
^ «Прояснение путаницы – Deep Web против Dark Web». BrightPlanet. 27 марта 2014 г.
↑ Соломон, Джейн (6 мая 2015 г.). «Глубокая паутина против темной паутины» . Получено 26 мая 2015 г.
↑ NPR Staff (25 мая 2014 г.). "Going Dark: The Internet Behind The Internet" . Получено 29 мая 2015 г.
^ Гринберг, Энди (19 ноября 2014 г.). «Хакерский лексикон: что такое Dark Web?» . Получено 6 июня 2015 г.
^ «Влияние Dark Web на управление Интернетом и кибербезопасность» (PDF) . 20 января 2014 г. Архивировано из оригинала (PDF) 16 января 2017 г. Получено 15 января 2017 г.
^ Лам, Квок-Ян; Чи, Чи-Хун; Цин, Сихан (23 ноября 2016 г.). Безопасность информации и коммуникаций: 18-я международная конференция, ICICS 2016, Сингапур, Сингапур, 29 ноября – 2 декабря 2016 г., Труды. Springer. ISBN 9783319500119. Получено 15 января 2017 г. .
^ "The Deep Web против The Dark Web | Блог Dictionary.com". Блог Dictionary. 6 мая 2015 г. Получено 15 января 2017 г.
^ Akhgar, Babak; Bayerl, P. Saskia; Sampson, Fraser (1 января 2017 г.). Расследование разведданных с открытым исходным кодом: от стратегии к реализации. Springer. ISBN 9783319476711. Получено 15 января 2017 г. .
^ «Что такое даркнет и кто им пользуется?». The Globe and Mail . Получено 15 января 2017 г.
^ ab Бергман, Майкл К (август 2001 г.). «Глубокая паутина: обнаружение скрытых ценностей». Журнал электронных публикаций . 7 (1). doi : 10.3998/3336451.0007.104 . hdl : 2027/spo.3336451.0007.104 .
^ Гарсия, Фрэнк (январь 1996 г.). «Бизнес и маркетинг в Интернете». Masthead . 15 (1). Архивировано из оригинала 5 декабря 1996 г. Получено 24 февраля 2009 г.
^ @1 начинался с 5,7 терабайт контента, что, по оценкам, в 30 раз превышало размер зарождающейся Всемирной паутины; PLS была приобретена AOL в 1998 году, и @1 была заброшена. "PLS представляет AT1, первую службу поиска в Интернете 'второго поколения'" (пресс-релиз). Программное обеспечение для персональных библиотек. Декабрь 1996 г. Архивировано из оригинала 21 октября 1997 г. Получено 24 февраля 2009 г.
^ Филдинг, Р.; Ноттингем, М.; Решке, Дж. (2014). Филдинг, Р.; Ноттингем, М.; Решке, Дж. (ред.). "Протокол передачи гипертекста (HTTP/1.1): кэширование". Internet Engineering Task Force . doi :10.17487/RFC7234 . Получено 30 июля 2014 г. .
^ Специальный:Поиск
^ «Поиск в архиве Интернета».
^ Wiener-Bronner, Danielle (10 июня 2015 г.). «NASA индексирует «Глубокую паутину», чтобы показать человечеству, чего не сделает Google». Fusion. Архивировано из оригинала 30 июня 2015 г. Получено 27 июня 2015 г. Существуют и другие более простые версии Memex, которые уже доступны. «Если вы когда-либо использовали Wayback Machine Интернет-архива», который выдает вам прошлые версии веб-сайта, недоступные через Google, то технически вы искали в Глубокой паутине, сказал Крис Мэттманн .
^ "Intute FAQ, мертвая ссылка" . Получено 13 октября 2012 г.
^ "Elsevier закрывает Popular Science Search Engine". library.bldrdoc.gov . Декабрь 2013 г. Архивировано из оригинала 23 июня 2015 г. Получено 22 июня 2015 г. к концу января 2014 г. Elsevier закроет Scirus, свою бесплатную научную поисковую систему. Scirus является широкомасштабным исследовательским инструментом, в котором для поиска проиндексировано более 575 миллионов элементов, включая веб-страницы, предварительные статьи, патенты и репозитории.
^ Шрирам Рагхаван; Гарсия-Молина, Гектор (2000). «Crawling the Hidden Web» (PDF) . Технический отчет Стэнфордских цифровых библиотек. Архивировано из оригинала (PDF) 8 мая 2018 г. Получено 27 декабря 2008 г.
^ Рагхаван, Шрирам; Гарсия-Молина, Гектор (2001). «Ползание по скрытой паутине» (PDF) . Труды 27-й Международной конференции по сверхбольшим базам данных (VLDB) . стр. 129–38.
^ Александрос, Нтулас; Зерфос, Петрос; Чо, Джунгху (2005). «Загрузка скрытого веб-контента» (PDF) . UCLA Computer Science . Получено 24 февраля 2009 г.
^ Шестаков, Денис; Бхоумик, Соурав С.; Лим, И-Пэн (2005). «DEQUE: Запросы к Deep Web» (PDF) . Data & Knowledge Engineering . 52 (3): 273–311. doi :10.1016/S0169-023X(04)00107-7.
^ Барбоса, Лучано; Фрейре, Джулиана (2007). Адаптивный краулер для обнаружения скрытых точек входа в сеть (PDF) . WWW Conference 2007. Архивировано из оригинала (PDF) 5 июня 2011 г. Получено 20 марта 2009 г.
^ Барбоса, Лучано; Фрейре, Джулиана (2005). Поиск скрытых веб-баз данных (PDF) . WebDB 2005. Архивировано из оригинала (PDF) 5 июня 2011 г. Получено 20 марта 2009 г.
^ Мадхаван, Джайант; Ко, Дэвид; Кот, Люция; Ганапати, Вигнеш; Расмуссен, Алекс; Халеви, Алон (2008). Deep-Web Crawl от Google (PDF) . PVLDB '08, 23-28 августа 2008 г., Окленд, Новая Зеландия. VLDB Endowment, ACM. Архивировано из оригинала (PDF) 16 сентября 2012 г. . Получено 17 апреля 2009 г.
^ Аарон, Шварц. «В защиту анонимности» . Получено 4 февраля 2014 г.

Дальнейшее чтение

Баркер, Джо (январь 2004 г.). «Невидимая паутина: что это такое, почему она существует, как ее найти и присущая ей неоднозначность». Калифорнийский университет в Беркли, Интернет-семинары библиотеки обучения. Архивировано из оригинала 29 июля 2005 г. Получено 26 июля 2011 г..
Басу, Сайкат (14 марта 2010 г.). «10 поисковых систем для исследования невидимой паутины». MakeUseOf.com..
Озкан, Акин (ноябрь 2014 г.). "Deep Web/Derin İnternet". Архивировано из оригинала 8 ноября 2014 г. Получено 6 ноября 2014 г..
Gruchawka, Steve (июнь 2006). "How-To Guide to the Deep Web". Архивировано из оригинала 5 января 2014 года . Получено 28 февраля 2007 года ..
Гамильтон, Найджел (2003). «Механика метапоисковой системы Deep Net». 12-я конференция World Wide Web..
Хе, Бин; Чанг, Кевин Чен-Чуань (2003). "Статистическое сопоставление схем в интерфейсах веб-запросов" (PDF) . Труды Международной конференции ACM SIGMOD 2003 года по управлению данными . Архивировано из оригинала (PDF) 20 июля 2011 г.
Хауэлл О'Нил, Патрик (октябрь 2013 г.). «Как искать в Deep Web». The Daily Dot ..
Ipeirotis, Panagiotis G.; Gravano, Luis; Sahami, Mehran (2001). "Probe, Count, and Classify: Categorizing Hidden-Web Databases" (PDF) . Труды Международной конференции ACM SIGMOD 2001 года по управлению данными . стр. 67–78. Архивировано из оригинала (PDF) 12 сентября 2006 г. . Получено 26 сентября 2006 г. .
King, John D.; Li, Yuefeng; Tao, Daniel; Nayak, Richi (ноябрь 2007 г.). «Mining World Knowledge for Analysis of Search Engine Content» (PDF) . Web Intelligence and Agent Systems . 5 (3): 233–53. Архивировано из оригинала (PDF) 3 декабря 2008 г. . Получено 26 июля 2011 г. .
Маккаун, Фрэнк; Лю, Сяомин; Нельсон, Майкл Л.; Зубайр, Мохаммад (март–апрель 2006 г.). «Охват поисковой системой корпуса OAI-PMH» (PDF) . IEEE Internet Computing . 10 (2): 66–73. doi :10.1109/MIC.2006.41. S2CID 15511914.
Прайс, Гэри; Шерман, Крис (июль 2001 г.). Невидимая паутина: раскрытие источников информации, которые поисковые системы не видят . CyberAge Books. ISBN 978-0-910965-51-4.
Шестаков, Денис (июнь 2008). Интерфейсы поиска в Интернете: запросы и характеристики . TUCS Докторские диссертации 104, Университет Турку
Whoriskey, Peter (11 декабря 2008 г.). «Фирмы настаивают на более удобном для поиска федеральном Интернете». The Washington Post . стр. D01.
Райт, Алекс (март 2004). "В поисках Deep Web". Салон . Архивировано из оригинала 9 марта 2007..
Ученые, Naked (декабрь 2014 г.). «Интернет: хорошее, плохое и уродливое – Глубокое исследование Интернета и Dark Web от ученых Кембриджского университета Naked» (подкаст).
Кинг, Джон Д. (июль 2009 г.). Анализ контента поисковой системы (PDF) (диссертация). Технологический университет Квинсленда.

Внешние ссылки

Медиа, связанные с Deep Web на Wikimedia Commons
Словарное определение термина deep web в Викисловаре