stringtranslate.com

Глубокая паутина

Глубокая паутина [1], невидимая паутина [ 2] или скрытая паутина [3] — это части Всемирной паутины , содержимое которых не индексируется стандартными программами поисковых систем . [4] Это контрастирует с « поверхностной паутиной », которая доступна любому пользователю Интернета. [5] Изобретение этого термина в 2001 году приписывают компьютерному ученому Майклу К. Бергману как термина индексации поиска. [6]

Доступ к сайтам Deep Web можно получить по прямому URL или IP-адресу , но для доступа к фактическому контенту может потребоваться ввод пароля или другой информации о безопасности. [7] [8] Использование сайтов Deep Web включает веб-почту , онлайн-банкинг , облачное хранилище , страницы и профили социальных сетей с ограниченным доступом , а также веб-форумы , требующие регистрации для просмотра контента. Сюда также входят платные услуги, такие как видео по запросу и некоторые онлайн-журналы и газеты.

Терминология

Первое смешение терминов «глубокая паутина» и « темная паутина » произошло в 2009 году, когда терминология поиска в глубокой паутине обсуждалась вместе с незаконной деятельностью, происходящей в Freenet и darknet . [9] Эта преступная деятельность включает торговлю личными паролями, поддельными документами, удостоверяющими личность , наркотиками, огнестрельным оружием и детской порнографией . [10]

С тех пор, после их использования в репортажах СМИ о черном рынке сайта Silk Road , СМИ, как правило, использовали «глубокую паутину» как синоним темной паутины или даркнета , сравнение, которое некоторые отвергают как неточное [11] и, следовательно, стало постоянным источником путаницы. [12] Репортеры Wired Ким Зеттер [13] и Энди Гринберг [14] рекомендуют использовать эти термины в разных модах. В то время как глубокая паутина является ссылкой на любой сайт, к которому не может получить доступ традиционная поисковая система, темная паутина является частью глубокой паутины, которая была намеренно скрыта и недоступна для стандартных браузеров и методов. [15] [16] [17] [18] [19] [ чрезмерное цитирование ]

Неиндексированный контент

Бергман в статье о глубокой паутине, опубликованной в The Journal of Electronic Publishing , упомянул, что Джилл Эллсворт использовала термин «Невидимая паутина» в 1994 году для обозначения веб-сайтов, которые не были зарегистрированы ни в одной поисковой системе. [20] Бергман процитировал статью Фрэнка Гарсии от января 1996 года: [21]

Это был бы сайт, который, возможно, разумно спроектирован, но они не потрудились зарегистрировать его ни в одной из поисковых систем. Поэтому никто не может их найти! Вы скрыты. Я называю это невидимой сетью.

Еще одно раннее использование термина Invisible Web было сделано Брюсом Маунтом и Мэтью Б. Коллом из Personal Library Software в описании программы Deep Web № 1, найденном в пресс-релизе от декабря 1996 года. [22]

Первое использование специального термина « глубокая паутина» , который теперь является общепринятым, произошло в вышеупомянутом исследовании Бергмана 2001 года. [20]

Методы индексации

Методы, препятствующие индексации веб-страниц традиционными поисковыми системами, можно отнести к одной или нескольким из следующих категорий:

  1. Контекстный веб : страницы с содержимым, различающимся для разных контекстов доступа (например, диапазоны клиентских IP-адресов или предыдущая последовательность навигации).
  2. Динамический контент : динамические страницы , которые возвращаются в ответ на отправленный запрос или к которым можно получить доступ только через форму, особенно если используются элементы ввода открытого домена (например, текстовые поля); в таких полях трудно ориентироваться без знания предметной области .
  3. Контент с ограниченным доступом : сайты, которые ограничивают доступ к своим страницам техническими способами (например, используя стандарт исключения роботов или CAPTCHA , или директиву no-store, которая запрещает поисковым системам просматривать их и создавать кэшированные копии). [23] Сайты могут иметь внутреннюю поисковую систему для изучения таких страниц. [24] [25]
  4. Не-HTML/текстовый контент : текстовый контент, закодированный в файлах мультимедиа (изображения или видео) или в определенных форматах файлов, не распознаваемых поисковыми системами.
  5. Частные веб-сайты : сайты, требующие регистрации и входа в систему (ресурсы, защищенные паролем).
  6. Скриптовый контент : страницы, доступ к которым возможен только по ссылкам, созданным с помощью JavaScript, а также контент, динамически загружаемый с веб-серверов с помощью решений Flash или Ajax .
  7. Программное обеспечение : определенный контент намеренно скрыт от обычного Интернета, доступ к нему возможен только с помощью специального программного обеспечения, такого как Tor , I2P или другого программного обеспечения darknet. Например, Tor позволяет пользователям получать доступ к веб-сайтам, используя адрес сервера .onion анонимно, скрывая свой IP-адрес.
  8. Несвязанный контент : страницы, на которые не ссылаются другие страницы, что может помешать программам веб-сканирования получить доступ к контенту. Такой контент называется страницами без обратных ссылок (также известными как входящие ссылки). Кроме того, поисковые системы не всегда обнаруживают все обратные ссылки с искомых веб-страниц.
  9. Веб-архивы : веб-архивные сервисы, такие как Wayback Machine, позволяют пользователям просматривать архивные версии веб-страниц с течением времени, включая веб-сайты, которые стали недоступными и не индексируются поисковыми системами, такими как Google. [6] Wayback Machine можно назвать программой для просмотра глубокой паутины, поскольку веб-архивы, которые не относятся к настоящему времени, не могут быть проиндексированы, поскольку прошлые версии веб-сайтов невозможно просмотреть с помощью поиска. Все веб-сайты обновляются в определенное время, поэтому веб-архивы считаются контентом Deep Web. [26]

Типы контента

Хотя не всегда возможно напрямую обнаружить содержимое определенного веб-сервера, чтобы его можно было проиндексировать, к сайту потенциально можно получить косвенный доступ (из-за уязвимостей компьютера ).

Для обнаружения контента в Интернете поисковые системы используют веб-краулеры , которые следуют по гиперссылкам через известные номера виртуальных портов протокола . Этот метод идеален для обнаружения контента в поверхностном Интернете, но часто неэффективен при поиске контента в глубоком Интернете. Например, эти краулеры не пытаются найти динамические страницы, которые являются результатом запросов к базе данных из-за неопределенного количества возможных запросов. [6] Было отмечено, что это можно преодолеть (частично), предоставляя ссылки на результаты запросов, но это может непреднамеренно увеличить популярность сайта в глубоком Интернете.

DeepPeep , Intute , Deep Web Technologies , Scirus и Ahmia.fi — вот несколько поисковых систем, которые получили доступ к глубокой паутине. Intute исчерпал финансирование и теперь является временным статическим архивом по состоянию на июль 2011 года. [27] Scirus вышел на пенсию в конце января 2013 года. [28]

Исследователи изучали, как можно автоматически сканировать глубокую паутину, включая контент, доступ к которому возможен только с помощью специального программного обеспечения, такого как Tor . В 2001 году Шрирам Рагхаван и Гектор Гарсия-Молина (кафедра компьютерных наук Стэнфордского университета) [29] [30] представили архитектурную модель для скрытого веб-краулера, который использовал важные термины, предоставленные пользователями или собранные из интерфейсов запросов, для запроса веб-формы и сканирования контента глубокой паутины. Александрос Нтулас, Петрос Зерфос и Джунгху Чо из Калифорнийского университета в Лос-Анджелесе создали скрытый веб-краулер, который автоматически генерировал осмысленные запросы для выдачи по формам поиска. [31] Было предложено несколько языков запросов форм (например, DEQUEL [32] ), которые, помимо выдачи запроса, также позволяют извлекать структурированные данные со страниц результатов. Еще одна попытка — DeepPeep, проект Университета Юты , спонсируемый Национальным научным фондом , который собирал скрытые веб-источники (веб-формы) в различных доменах на основе новых методов целенаправленного сканирования. [33] [34]

Коммерческие поисковые системы начали изучать альтернативные методы сканирования глубокой паутины. Протокол Sitemap (впервые разработанный и представленный Google в 2005 году) и OAI-PMH — это механизмы, которые позволяют поисковым системам и другим заинтересованным сторонам обнаруживать ресурсы глубокой паутины на определенных веб-серверах. Оба механизма позволяют веб-серверам рекламировать URL-адреса, которые доступны на них, тем самым позволяя автоматически обнаруживать ресурсы, которые не связаны напрямую с поверхностной паутиной. Система поверхностного поиска Google в глубокой паутине вычисляет отправки для каждой HTML-формы и добавляет полученные HTML-страницы в индекс поисковой системы Google. Выведенные результаты составляют тысячу запросов в секунду к контенту глубокой паутины. [35] В этой системе предварительный расчет отправок выполняется с использованием трех алгоритмов:

  1. выбор входных значений для текстового поиска, которые принимают ключевые слова,
  2. определение входных данных, которые принимают только значения определенного типа (например, дата) и
  3. выбор небольшого количества входных комбинаций, которые генерируют URL-адреса, подходящие для включения в индекс веб-поиска.

В 2008 году, чтобы облегчить пользователям скрытых сервисов Tor доступ и поиск скрытого суффикса .onion , Аарон Шварц разработал Tor2web — прокси-приложение, способное предоставлять доступ с помощью обычных веб-браузеров. [36] При использовании этого приложения ссылки на deep web выглядят как случайная последовательность букв, за которыми следует домен верхнего уровня .onion .

Смотрите также

Ссылки

  1. ^ Гамильтон, Найджел (2019–2020). «Механика метапоисковой системы Deep Net». В Isaías, Pedro; Palma dos Reis, António (ред.). Труды Международной конференции IADIS по электронному обществу . IADIS Press. стр. 1034–6. CiteSeerX  10.1.1.90.5847 . ISBN 978-972-98947-0-1.
  2. ^ Девайн, Джейн; Эггер-Сидер, Франсин (август 2021 г.). «За пределами Google: невидимая сеть в академической библиотеке». Журнал академического библиотековедения . 30 (4): 265–269. doi :10.1016/j.acalib.2004.04.010.
  3. ^ Рагхаван, Шрирам; Гарсия-Молина, Гектор (11–14 сентября 2001 г.). «Crawling the Hidden Web». 27-я Международная конференция по сверхбольшим базам данных .
  4. ^ Maor, Etay. «Council Post: Lessons Learned From Tracing Cybercrime's Evolution On The Dark Web». Forbes . Получено 22 сентября 2024 г.
  5. ^ "Surface Web". Computer Hope . Получено 20 июня 2018 г.
  6. ^ abc Райт, Алекс (22 февраля 2009 г.). «Изучение «Глубокой паутины», которую Google не может понять». The New York Times . Получено 2 сентября 2019 г. [ ...] Майк Бергман, компьютерный ученый и консультант, которому приписывают создание термина «Глубокая паутина».
  7. ^ Мадхаван Дж., Ко Д., Кот Л., Ганапати В., Расмуссен А. и Халеви А. (2008). Поиск в глубокой сети Google. Труды Фонда VLDB, 1 (2), 1241–52.
  8. ^ Шедден, Сэм (8 июня 2014 г.). «Как вы хотите, чтобы я это сделал? Должно ли это выглядеть как несчастный случай? – Убийца, продающий хит в сети; раскрыто внутри Deep Web». Sunday Mail . Архивировано из оригинала 1 марта 2020 г.
  9. Беккет, Энди (26 ноября 2009 г.). «Темная сторона интернета» . Получено 9 августа 2015 г.
  10. ^ D. Day. Самый легкий улов: не будьте еще одной рыбой в темной сети. Университет Уэйк Форест: выступления на TEDx . Архивировано из оригинала 13 ноября 2021 г.
  11. ^ «Прояснение путаницы – Deep Web против Dark Web». BrightPlanet. 27 марта 2014 г.
  12. Соломон, Джейн (6 мая 2015 г.). «Глубокая паутина против темной паутины» . Получено 26 мая 2015 г.
  13. NPR Staff (25 мая 2014 г.). "Going Dark: The Internet Behind The Internet" . Получено 29 мая 2015 г.
  14. ^ Гринберг, Энди (19 ноября 2014 г.). «Хакерский лексикон: что такое Dark Web?» . Получено 6 июня 2015 г.
  15. ^ «Влияние Dark Web на управление Интернетом и кибербезопасность» (PDF) . 20 января 2014 г. Архивировано из оригинала (PDF) 16 января 2017 г. Получено 15 января 2017 г.
  16. ^ Лам, Квок-Ян; Чи, Чи-Хун; Цин, Сихан (23 ноября 2016 г.). Безопасность информации и коммуникаций: 18-я международная конференция, ICICS 2016, Сингапур, Сингапур, 29 ноября – 2 декабря 2016 г., Труды. Springer. ISBN 9783319500119. Получено 15 января 2017 г. .
  17. ^ "The Deep Web против The Dark Web | Блог Dictionary.com". Блог Dictionary. 6 мая 2015 г. Получено 15 января 2017 г.
  18. ^ Akhgar, Babak; Bayerl, P. Saskia; Sampson, Fraser (1 января 2017 г.). Расследование разведданных с открытым исходным кодом: от стратегии к реализации. Springer. ISBN 9783319476711. Получено 15 января 2017 г. .
  19. ^ «Что такое даркнет и кто им пользуется?». The Globe and Mail . Получено 15 января 2017 г.
  20. ^ ab Бергман, Майкл К (август 2001 г.). «Глубокая паутина: обнаружение скрытых ценностей». Журнал электронных публикаций . 7 (1). doi : 10.3998/3336451.0007.104 . hdl : 2027/spo.3336451.0007.104 .
  21. ^ Гарсия, Фрэнк (январь 1996 г.). «Бизнес и маркетинг в Интернете». Masthead . 15 (1). Архивировано из оригинала 5 декабря 1996 г. Получено 24 февраля 2009 г.
  22. ^ @1 начинался с 5,7 терабайт контента, что, по оценкам, в 30 раз превышало размер зарождающейся Всемирной паутины; PLS была приобретена AOL в 1998 году, и @1 была заброшена. "PLS представляет AT1, первую службу поиска в Интернете 'второго поколения'" (пресс-релиз). Программное обеспечение для персональных библиотек. Декабрь 1996 г. Архивировано из оригинала 21 октября 1997 г. Получено 24 февраля 2009 г.
  23. ^ Филдинг, Р.; Ноттингем, М.; Решке, Дж. (2014). Филдинг, Р.; Ноттингем, М.; Решке, Дж. (ред.). "Протокол передачи гипертекста (HTTP/1.1): кэширование". Internet Engineering Task Force . doi :10.17487/RFC7234 . Получено 30 июля 2014 г. .
  24. ^ Специальный:Поиск
  25. ^ «Поиск в интернет-архиве».
  26. ^ Wiener-Bronner, Danielle (10 июня 2015 г.). «NASA индексирует «Глубокую паутину», чтобы показать человечеству, чего не сделает Google». Fusion. Архивировано из оригинала 30 июня 2015 г. Получено 27 июня 2015 г. Существуют и другие более простые версии Memex, которые уже доступны. «Если вы когда-либо использовали Wayback Machine Интернет-архива», которая выдает вам прошлые версии веб-сайта, недоступные через Google, то технически вы искали в Глубокой паутине, сказал Крис Мэттманн .
  27. ^ "Intute FAQ, мертвая ссылка" . Получено 13 октября 2012 г.
  28. ^ "Elsevier закрывает Popular Science Search Engine". library.bldrdoc.gov . Декабрь 2013 г. Архивировано из оригинала 23 июня 2015 г. Получено 22 июня 2015 г. к концу января 2014 г. Elsevier закроет Scirus, свою бесплатную научную поисковую систему. Scirus является широкомасштабным исследовательским инструментом, в котором для поиска проиндексировано более 575 миллионов элементов, включая веб-страницы, предварительные статьи, патенты и репозитории.
  29. ^ Шрирам Рагхаван; Гарсия-Молина, Гектор (2000). «Crawling the Hidden Web» (PDF) . Технический отчет Стэнфордских цифровых библиотек. Архивировано из оригинала (PDF) 8 мая 2018 г. Получено 27 декабря 2008 г.
  30. ^ Рагхаван, Шрирам; Гарсия-Молина, Гектор (2001). «Ползание по скрытой паутине» (PDF) . Труды 27-й Международной конференции по сверхбольшим базам данных (VLDB) . стр. 129–38.
  31. ^ Александрос, Нтулас; Зерфос, Петрос; Чо, Джунгху (2005). «Загрузка скрытого веб-контента» (PDF) . UCLA Computer Science . Получено 24 февраля 2009 г.
  32. ^ Шестаков, Денис; Бхоумик, Соурав С.; Лим, И-Пэн (2005). «DEQUE: Запросы в Deep Web» (PDF) . Data & Knowledge Engineering . 52 (3): 273–311. doi :10.1016/S0169-023X(04)00107-7.
  33. ^ Барбоса, Лучано; Фрейре, Джулиана (2007). Адаптивный краулер для обнаружения скрытых точек входа в Интернет (PDF) . WWW Conference 2007. Архивировано из оригинала (PDF) 5 июня 2011 г. Получено 20 марта 2009 г.
  34. ^ Барбоса, Лучано; Фрейре, Джулиана (2005). Поиск скрытых веб-баз данных (PDF) . WebDB 2005. Архивировано из оригинала (PDF) 5 июня 2011 г. Получено 20 марта 2009 г.
  35. ^ Мадхаван, Джайант; Ко, Дэвид; Кот, Люция; Ганапати, Вигнеш; Расмуссен, Алекс; Халеви, Алон (2008). Deep-Web Crawl от Google (PDF) . PVLDB '08, 23-28 августа 2008 г., Окленд, Новая Зеландия. VLDB Endowment, ACM. Архивировано из оригинала (PDF) 16 сентября 2012 г. . Получено 17 апреля 2009 г.
  36. ^ Аарон, Шварц. «В защиту анонимности» . Получено 4 февраля 2014 г.

Дальнейшее чтение

Внешние ссылки