Content of the World Wide Web that is not indexed by search engines
Глубокая паутина [1], невидимая паутина [ 2] или скрытая паутина [3] — это части Всемирной паутины , содержимое которых не индексируется стандартными программами поисковых систем . [4] Это контрастирует с « поверхностной паутиной », которая доступна любому пользователю Интернета. [5] Изобретение этого термина в 2001 году приписывают компьютерному ученому Майклу К. Бергману как термина индексации поиска. [6]
Доступ к сайтам Deep Web можно получить по прямому URL или IP-адресу , но для доступа к фактическому контенту может потребоваться ввод пароля или другой информации о безопасности. [7] [8] Использование сайтов Deep Web включает веб-почту , онлайн-банкинг , облачное хранилище , страницы и профили социальных сетей с ограниченным доступом , а также веб-форумы , требующие регистрации для просмотра контента. Сюда также входят платные услуги, такие как видео по запросу и некоторые онлайн-журналы и газеты.
Терминология
Первое смешение терминов «глубокая паутина» и « темная паутина » произошло в 2009 году, когда терминология поиска в глубокой паутине обсуждалась вместе с незаконной деятельностью, происходящей в Freenet и darknet . [9] Эта преступная деятельность включает торговлю личными паролями , поддельными документами, удостоверяющими личность , наркотиками , огнестрельным оружием и детской порнографией . [10]
С тех пор, после их использования в репортажах СМИ о черном рынке сайта Silk Road , СМИ, как правило, использовали «глубокую паутину» как синоним темной паутины или даркнета , сравнение, которое некоторые отвергают как неточное [11] и, следовательно, стало постоянным источником путаницы. [12] Репортеры Wired Ким Зеттер [13] и Энди Гринберг [14] рекомендуют использовать эти термины в разных модах. В то время как глубокая паутина является ссылкой на любой сайт, к которому не может получить доступ традиционная поисковая система, темная паутина является частью глубокой паутины, которая была намеренно скрыта и недоступна для стандартных браузеров и методов. [15] [16] [17] [18] [19] [ чрезмерное цитирование ]
Неиндексированный контент
Бергман в статье о глубокой паутине, опубликованной в The Journal of Electronic Publishing , упомянул, что Джилл Эллсворт использовала термин «Невидимая паутина» в 1994 году для обозначения веб-сайтов, которые не были зарегистрированы ни в одной поисковой системе. [20] Бергман процитировал статью Фрэнка Гарсии от января 1996 года: [21]
Это был бы сайт, который, возможно, разумно спроектирован, но они не потрудились зарегистрировать его ни в одной из поисковых систем. Поэтому никто не может их найти! Вы скрыты. Я называю это невидимой сетью.
Еще одно раннее использование термина Invisible Web было сделано Брюсом Маунтом и Мэтью Б. Коллом из Personal Library Software в описании программы Deep Web № 1, найденной в пресс-релизе от декабря 1996 года. [22]
Первое использование специального термина « глубокая паутина» , который теперь является общепринятым, произошло в вышеупомянутом исследовании Бергмана 2001 года. [20]
Методы индексации
Методы, препятствующие индексации веб-страниц традиционными поисковыми системами, можно отнести к одной или нескольким из следующих категорий:
- Контекстный веб : страницы с содержимым, различающимся для разных контекстов доступа (например, диапазоны клиентских IP-адресов или предыдущая последовательность навигации).
- Динамический контент : динамические страницы , которые возвращаются в ответ на отправленный запрос или к которым можно получить доступ только через форму, особенно если используются элементы ввода открытого домена (например, текстовые поля); в таких полях трудно ориентироваться без знания предметной области .
- Контент с ограниченным доступом : сайты, которые ограничивают доступ к своим страницам техническими способами (например, используя стандарт исключения роботов или CAPTCHA , или директиву no-store, которая запрещает поисковым системам просматривать их и создавать кэшированные копии). [23] Сайты могут иметь внутреннюю поисковую систему для изучения таких страниц. [24] [25]
- Не-HTML/текстовый контент : текстовый контент, закодированный в файлах мультимедиа (изображения или видео) или в определенных форматах файлов, не распознаваемых поисковыми системами.
- Частные веб-сайты : сайты, требующие регистрации и входа в систему (ресурсы, защищенные паролем).
- Скриптовый контент : страницы, доступ к которым возможен только по ссылкам, созданным с помощью JavaScript, а также контент, динамически загружаемый с веб-серверов с помощью решений Flash или Ajax .
- Программное обеспечение : определенный контент намеренно скрыт от обычного Интернета, доступ к нему возможен только с помощью специального программного обеспечения, такого как Tor , I2P или другого программного обеспечения darknet. Например, Tor позволяет пользователям получать доступ к веб-сайтам, используя адрес сервера .onion анонимно, скрывая свой IP-адрес.
- Несвязанный контент : страницы, на которые не ссылаются другие страницы, что может помешать программам веб-сканирования получить доступ к контенту. Такой контент называется страницами без обратных ссылок (также известными как входящие ссылки). Кроме того, поисковые системы не всегда обнаруживают все обратные ссылки с искомых веб-страниц.
- Веб-архивы : веб-архивные сервисы, такие как Wayback Machine, позволяют пользователям просматривать архивные версии веб-страниц с течением времени, включая веб-сайты, которые стали недоступными и не индексируются поисковыми системами, такими как Google. [6] Wayback Machine можно назвать программой для просмотра глубокой паутины, поскольку веб-архивы, которые не относятся к настоящему времени, не могут быть проиндексированы, поскольку прошлые версии веб-сайтов невозможно просмотреть с помощью поиска. Все веб-сайты обновляются в определенное время, поэтому веб-архивы считаются контентом Deep Web. [26]
Типы контента
Хотя не всегда возможно напрямую обнаружить содержимое определенного веб-сервера, чтобы его можно было проиндексировать, к сайту потенциально можно получить косвенный доступ (из-за уязвимостей компьютера ).
Для обнаружения контента в Интернете поисковые системы используют веб-краулеры , которые следуют по гиперссылкам через известные номера виртуальных портов протокола . Этот метод идеален для обнаружения контента в поверхностном Интернете, но часто неэффективен при поиске контента в глубоком Интернете. Например, эти краулеры не пытаются найти динамические страницы, которые являются результатом запросов к базе данных из-за неопределенного количества возможных запросов. [6] Было отмечено, что это можно преодолеть (частично), предоставляя ссылки на результаты запросов, но это может непреднамеренно увеличить популярность сайта в глубоком Интернете.
DeepPeep , Intute , Deep Web Technologies , Scirus и Ahmia.fi — вот несколько поисковых систем, которые получили доступ к глубокой паутине. Intute исчерпал финансирование и теперь является временным статическим архивом по состоянию на июль 2011 года. [27] Scirus вышел на пенсию в конце января 2013 года. [28]
Исследователи изучали, как можно автоматически сканировать глубокую паутину, включая контент, доступ к которому возможен только с помощью специального программного обеспечения, такого как Tor . В 2001 году Шрирам Рагхаван и Гектор Гарсия-Молина (Стэнфордский факультет компьютерных наук, Стэнфордский университет) [29] [30] представили архитектурную модель для скрытого веб-краулера, который использовал важные термины, предоставленные пользователями или собранные из интерфейсов запросов, для запроса веб-формы и сканирования контента глубокой паутины. Александрос Нтулас, Петрос Зерфос и Джунгху Чо из Калифорнийского университета в Лос-Анджелесе создали скрытый веб-краулер, который автоматически генерировал осмысленные запросы для выдачи по формам поиска. [31] Было предложено несколько языков запросов форм (например, DEQUEL [32] ), которые, помимо выдачи запроса, также позволяют извлекать структурированные данные со страниц результатов. Еще одна попытка — DeepPeep, проект Университета Юты , спонсируемый Национальным научным фондом , который собирал скрытые веб-источники (веб-формы) в различных доменах на основе новых методов целенаправленного сканирования. [33] [34]
Коммерческие поисковые системы начали изучать альтернативные методы сканирования глубокой паутины. Протокол Sitemap (впервые разработанный и представленный Google в 2005 году) и OAI-PMH — это механизмы, которые позволяют поисковым системам и другим заинтересованным сторонам обнаруживать ресурсы глубокой паутины на определенных веб-серверах. Оба механизма позволяют веб-серверам рекламировать URL-адреса, которые доступны на них, тем самым позволяя автоматически обнаруживать ресурсы, которые не связаны напрямую с поверхностной паутиной. Система поверхностного просмотра глубокой паутины Google вычисляет отправки для каждой HTML-формы и добавляет полученные HTML-страницы в индекс поисковой системы Google. Выведенные результаты составляют тысячу запросов в секунду к контенту глубокой паутины. [35] В этой системе предварительный расчет отправок выполняется с использованием трех алгоритмов:
- выбор входных значений для текстового поиска, которые принимают ключевые слова,
- определение входных данных, которые принимают только значения определенного типа (например, дата) и
- выбор небольшого количества комбинаций входных данных, которые генерируют URL-адреса, подходящие для включения в индекс веб-поиска.
В 2008 году, чтобы облегчить пользователям скрытых сервисов Tor доступ и поиск скрытого суффикса .onion , Аарон Шварц разработал Tor2web — прокси-приложение, способное предоставлять доступ с помощью обычных веб-браузеров. [36] При использовании этого приложения ссылки на deep web выглядят как случайная последовательность букв, за которыми следует домен верхнего уровня .onion .
Смотрите также
Ссылки
- ^ Гамильтон, Найджел (2019–2020). «Механика метапоисковой системы Deep Net». В Исайасе, Педро; Пальма душ Рейс, Антониу (ред.). Материалы Международной конференции IADIS по электронному обществу . ИДИС Пресс. стр. 1034–6. CiteSeerX 10.1.1.90.5847 . ISBN 978-972-98947-0-1.
- ^ Девайн, Джейн; Эггер-Сидер, Франсин (август 2021 г.). «За пределами Google: невидимая сеть в академической библиотеке». Журнал академического библиотековедения . 30 (4): 265–269. doi :10.1016/j.acalib.2004.04.010.
- ^ Рагхаван, Шрирам; Гарсия-Молина, Гектор (11–14 сентября 2001 г.). «Crawling the Hidden Web». 27-я Международная конференция по сверхбольшим базам данных .
- ^ Maor, Etay. «Council Post: Lessons Learned From Tracing Cybercrime's Evolution On The Dark Web». Forbes . Получено 22 сентября 2024 г.
- ^ "Surface Web". Computer Hope . Получено 20 июня 2018 г.
- ^ abc Райт, Алекс (22 февраля 2009 г.). «Изучение «Глубокой паутины», которую Google не может понять». The New York Times . Получено 2 сентября 2019 г. [
...] Майк Бергман, компьютерный ученый и консультант, которому приписывают создание термина «Глубокая паутина».
- ^ Мадхаван Дж., Ко Д., Кот Л., Ганапати В., Расмуссен А. и Халеви А. (2008). Поиск в глубокой сети Google. Труды Фонда VLDB, 1 (2), 1241–52.
- ^ Шедден, Сэм (8 июня 2014 г.). «Как вы хотите, чтобы я это сделал? Должно ли это выглядеть как несчастный случай? – Убийца, продающий хит в сети; раскрыто внутри Deep Web». Sunday Mail . Архивировано из оригинала 1 марта 2020 г.
- ↑ Беккет, Энди (26 ноября 2009 г.). «Темная сторона интернета» . Получено 9 августа 2015 г.
- ^ D. Day. Самый легкий улов: не будьте еще одной рыбой в темной сети. Университет Уэйк Форест: выступления на TEDx . Архивировано из оригинала 13 ноября 2021 г.
- ^ «Прояснение путаницы – Deep Web против Dark Web». BrightPlanet. 27 марта 2014 г.
- ↑ Соломон, Джейн (6 мая 2015 г.). «Глубокая паутина против темной паутины» . Получено 26 мая 2015 г.
- ↑ NPR Staff (25 мая 2014 г.). "Going Dark: The Internet Behind The Internet" . Получено 29 мая 2015 г.
- ^ Гринберг, Энди (19 ноября 2014 г.). «Хакерский лексикон: что такое Dark Web?» . Получено 6 июня 2015 г.
- ^ «Влияние Dark Web на управление Интернетом и кибербезопасность» (PDF) . 20 января 2014 г. Архивировано из оригинала (PDF) 16 января 2017 г. Получено 15 января 2017 г.
- ^ Лам, Квок-Ян; Чи, Чи-Хун; Цин, Сихан (23 ноября 2016 г.). Безопасность информации и коммуникаций: 18-я международная конференция, ICICS 2016, Сингапур, Сингапур, 29 ноября – 2 декабря 2016 г., Труды. Springer. ISBN 9783319500119. Получено 15 января 2017 г. .
- ^ "The Deep Web против The Dark Web | Блог Dictionary.com". Блог Dictionary. 6 мая 2015 г. Получено 15 января 2017 г.
- ^ Akhgar, Babak; Bayerl, P. Saskia; Sampson, Fraser (1 января 2017 г.). Расследование разведданных с открытым исходным кодом: от стратегии к реализации. Springer. ISBN 9783319476711. Получено 15 января 2017 г. .
- ^ «Что такое даркнет и кто им пользуется?». The Globe and Mail . Получено 15 января 2017 г.
- ^ ab Бергман, Майкл К (август 2001 г.). «Глубокая паутина: обнаружение скрытых ценностей». Журнал электронных публикаций . 7 (1). doi : 10.3998/3336451.0007.104 . hdl : 2027/spo.3336451.0007.104 .
- ^ Гарсия, Фрэнк (январь 1996 г.). «Бизнес и маркетинг в Интернете». Masthead . 15 (1). Архивировано из оригинала 5 декабря 1996 г. Получено 24 февраля 2009 г.
- ^ @1 начинался с 5,7 терабайт контента, что, по оценкам, в 30 раз превышало размер зарождающейся Всемирной паутины; PLS была приобретена AOL в 1998 году, и @1 была заброшена. "PLS представляет AT1, первую службу поиска в Интернете 'второго поколения'" (пресс-релиз). Программное обеспечение для персональных библиотек. Декабрь 1996 г. Архивировано из оригинала 21 октября 1997 г. Получено 24 февраля 2009 г.
- ^ Филдинг, Р.; Ноттингем, М.; Решке, Дж. (2014). Филдинг, Р.; Ноттингем, М.; Решке, Дж. (ред.). "Протокол передачи гипертекста (HTTP/1.1): кэширование". Internet Engineering Task Force . doi :10.17487/RFC7234 . Получено 30 июля 2014 г. .
- ^ Специальный:Поиск
- ^ «Поиск в архиве Интернета».
- ^ Wiener-Bronner, Danielle (10 июня 2015 г.). «NASA индексирует «Глубокую паутину», чтобы показать человечеству, чего не сделает Google». Fusion. Архивировано из оригинала 30 июня 2015 г. Получено 27 июня 2015 г. Существуют
и другие более простые версии Memex, которые уже доступны. «Если вы когда-либо использовали Wayback Machine Интернет-архива», который выдает вам прошлые версии веб-сайта, недоступные через Google, то технически вы искали в Глубокой паутине, сказал
Крис Мэттманн
.
- ^ "Intute FAQ, мертвая ссылка" . Получено 13 октября 2012 г.
- ^ "Elsevier закрывает Popular Science Search Engine". library.bldrdoc.gov . Декабрь 2013 г. Архивировано из оригинала 23 июня 2015 г. Получено 22 июня 2015 г.
к концу января 2014 г. Elsevier закроет Scirus, свою бесплатную научную поисковую систему. Scirus является широкомасштабным исследовательским инструментом, в котором для поиска проиндексировано более 575 миллионов элементов, включая веб-страницы, предварительные статьи, патенты и репозитории.
- ^ Шрирам Рагхаван; Гарсия-Молина, Гектор (2000). «Crawling the Hidden Web» (PDF) . Технический отчет Стэнфордских цифровых библиотек. Архивировано из оригинала (PDF) 8 мая 2018 г. Получено 27 декабря 2008 г.
- ^ Рагхаван, Шрирам; Гарсия-Молина, Гектор (2001). «Ползание по скрытой паутине» (PDF) . Труды 27-й Международной конференции по сверхбольшим базам данных (VLDB) . стр. 129–38.
- ^ Александрос, Нтулас; Зерфос, Петрос; Чо, Джунгху (2005). «Загрузка скрытого веб-контента» (PDF) . UCLA Computer Science . Получено 24 февраля 2009 г.
- ^ Шестаков, Денис; Бхоумик, Соурав С.; Лим, И-Пэн (2005). «DEQUE: Запросы к Deep Web» (PDF) . Data & Knowledge Engineering . 52 (3): 273–311. doi :10.1016/S0169-023X(04)00107-7.
- ^ Барбоса, Лучано; Фрейре, Джулиана (2007). Адаптивный краулер для обнаружения скрытых точек входа в сеть (PDF) . WWW Conference 2007. Архивировано из оригинала (PDF) 5 июня 2011 г. Получено 20 марта 2009 г.
- ^ Барбоса, Лучано; Фрейре, Джулиана (2005). Поиск скрытых веб-баз данных (PDF) . WebDB 2005. Архивировано из оригинала (PDF) 5 июня 2011 г. Получено 20 марта 2009 г.
- ^ Мадхаван, Джайант; Ко, Дэвид; Кот, Люция; Ганапати, Вигнеш; Расмуссен, Алекс; Халеви, Алон (2008). Deep-Web Crawl от Google (PDF) . PVLDB '08, 23-28 августа 2008 г., Окленд, Новая Зеландия. VLDB Endowment, ACM. Архивировано из оригинала (PDF) 16 сентября 2012 г. . Получено 17 апреля 2009 г.
- ^ Аарон, Шварц. «В защиту анонимности» . Получено 4 февраля 2014 г.
Дальнейшее чтение
- Баркер, Джо (январь 2004 г.). «Невидимая паутина: что это такое, почему она существует, как ее найти и присущая ей неоднозначность». Калифорнийский университет в Беркли, Интернет-семинары библиотеки обучения. Архивировано из оригинала 29 июля 2005 г. Получено 26 июля 2011 г..
- Басу, Сайкат (14 марта 2010 г.). «10 поисковых систем для исследования невидимой паутины». MakeUseOf.com..
- Озкан, Акин (ноябрь 2014 г.). "Deep Web/Derin İnternet". Архивировано из оригинала 8 ноября 2014 г. Получено 6 ноября 2014 г..
- Gruchawka, Steve (июнь 2006). "How-To Guide to the Deep Web". Архивировано из оригинала 5 января 2014 года . Получено 28 февраля 2007 года ..
- Гамильтон, Найджел (2003). «Механика метапоисковой системы Deep Net». 12-я конференция World Wide Web..
- Хе, Бин; Чанг, Кевин Чен-Чуань (2003). "Статистическое сопоставление схем в интерфейсах веб-запросов" (PDF) . Труды Международной конференции ACM SIGMOD 2003 года по управлению данными . Архивировано из оригинала (PDF) 20 июля 2011 г.
- Хауэлл О'Нил, Патрик (октябрь 2013 г.). «Как искать в Deep Web». The Daily Dot ..
- Ipeirotis, Panagiotis G.; Gravano, Luis; Sahami, Mehran (2001). "Probe, Count, and Classify: Categorizing Hidden-Web Databases" (PDF) . Труды Международной конференции ACM SIGMOD 2001 года по управлению данными . стр. 67–78. Архивировано из оригинала (PDF) 12 сентября 2006 г. . Получено 26 сентября 2006 г. .
- King, John D.; Li, Yuefeng; Tao, Daniel; Nayak, Richi (ноябрь 2007 г.). «Mining World Knowledge for Analysis of Search Engine Content» (PDF) . Web Intelligence and Agent Systems . 5 (3): 233–53. Архивировано из оригинала (PDF) 3 декабря 2008 г. . Получено 26 июля 2011 г. .
- Маккаун, Фрэнк; Лю, Сяомин; Нельсон, Майкл Л.; Зубайр, Мохаммад (март–апрель 2006 г.). «Охват поисковой системой корпуса OAI-PMH» (PDF) . IEEE Internet Computing . 10 (2): 66–73. doi :10.1109/MIC.2006.41. S2CID 15511914.
- Прайс, Гэри; Шерман, Крис (июль 2001 г.). Невидимая паутина: раскрытие источников информации, которые поисковые системы не видят . CyberAge Books. ISBN 978-0-910965-51-4.
- Шестаков, Денис (июнь 2008). Интерфейсы поиска в Интернете: запросы и характеристики . TUCS Докторские диссертации 104, Университет Турку
- Whoriskey, Peter (11 декабря 2008 г.). «Фирмы настаивают на более удобном для поиска федеральном Интернете». The Washington Post . стр. D01.
- Райт, Алекс (март 2004). "В поисках Deep Web". Салон . Архивировано из оригинала 9 марта 2007..
- Ученые, Naked (декабрь 2014 г.). «Интернет: хорошее, плохое и уродливое – Глубокое исследование Интернета и Dark Web от ученых Кембриджского университета Naked» (подкаст).
- Кинг, Джон Д. (июль 2009 г.). Анализ контента поисковой системы (PDF) (диссертация). Технологический университет Квинсленда.
Внешние ссылки
- Медиа, связанные с Deep Web на Wikimedia Commons
- Словарное определение термина deep web в Викисловаре