stringtranslate.com

Глубокая паутина

Глубокая сеть , [1] невидимая сеть , [2] или скрытая сеть [3] — это части Всемирной паутины , содержимое которых не индексируется стандартными программами веб-поисковиков . Это отличие от « поверхностной сети », которая доступна каждому, кто пользуется Интернетом. [4] Ученому-компьютерщику Майклу К. Бергману приписывают изобретение этого термина в 2001 году в качестве термина для индексации поиска. [5]

Доступ к сайтам Deep Web можно получить по прямому URL-адресу или IP-адресу , но для доступа к реальному контенту может потребоваться ввод пароля или другой информации безопасности. [6] [7] Глубокие веб-сайты используются для веб-почты , онлайн-банкинга , облачных хранилищ , страниц и профилей в социальных сетях с ограниченным доступом , а также веб-форумов , которые требуют регистрации для просмотра контента. Сюда также входят платные услуги, такие как видео по запросу , а также некоторые онлайн-журналы и газеты.

Терминология

Первое объединение терминов «глубокая сеть» и « даркнет » произошло в 2009 году, когда терминология поиска в глубокой сети обсуждалась вместе с незаконной деятельностью, происходящей во Freenet и даркнете . [8] Эта преступная деятельность включает торговлю личными паролями, фальшивыми документами, удостоверяющими личность , наркотиками, огнестрельным оружием и детской порнографией . [9]

С тех пор, после их использования в репортажах СМИ о черном рынке веб-сайта Silk Road , средства массовой информации обычно использовали термин «глубокая сеть» как синоним даркнета или даркнета , сравнение, которое некоторые отвергают как неточное [10] и, следовательно , стало постоянный источник путаницы. [11] Репортеры Wired Ким Зеттер [12] и Энди Гринберг [13] рекомендуют использовать эти термины по-разному. В то время как глубокая сеть — это ссылка на любой сайт, к которому не может получить доступ традиционная поисковая система, темная сеть — это часть глубокой сети, которая была намеренно скрыта и недоступна для стандартных браузеров и методов. [14] [15] [16] [17] [18] [ чрезмерное цитирование ]

Неиндексированный контент

Бергман в статье о глубокой сети, опубликованной в The Journal of Electronic Publishing , упомянул, что Джилл Эллсуорт использовала термин « Невидимая сеть» в 1994 году для обозначения веб-сайтов, которые не были зарегистрированы ни в одной поисковой системе. [19] Бергман процитировал статью Фрэнка Гарсии, опубликованную в январе 1996 года: [20]

Это был бы сайт, который, возможно, был бы разумно спроектирован, но его не удосужились зарегистрировать ни в одной поисковой системе. Значит, их никто не найдет! Вы скрыты. Я называю это невидимой паутиной.

Еще одно раннее использование термина «Невидимая паутина» было осуществлено Брюсом Маунтом и Мэтью Б. Коллом из Personal Library Software в описании программы Deep Web № 1, найденном в пресс-релизе от декабря 1996 года. [21]

Первое использование термина « глубокая паутина» , ныне общепринятого, произошло в вышеупомянутом исследовании Бергмана 2001 года. [19]

Методы индексирования

Методы, предотвращающие индексацию веб-страниц традиционными поисковыми системами, можно отнести к одной или нескольким из следующих категорий:

  1. Контекстная сеть : страницы с содержимым, различным для разных контекстов доступа (например, диапазонов IP-адресов клиентов или предыдущей последовательности навигации).
  2. Динамический контент : динамические страницы , которые возвращаются в ответ на отправленный запрос или доступны только через форму, особенно если используются элементы ввода открытого домена (например, текстовые поля); в таких областях трудно ориентироваться без знания предметной области .
  3. Контент с ограниченным доступом : сайты, которые ограничивают доступ к своим страницам техническим способом (например, с помощью стандарта исключения роботов или CAPTCHA или директивы no-store, которая запрещает поисковым системам просматривать их и создавать кэшированные копии). [22] На сайтах может использоваться внутренняя поисковая система для просмотра таких страниц. [23] [24]
  4. Не-HTML/текстовое содержимое : текстовое содержимое, закодированное в мультимедийных файлах (изображениях или видео) или в определенных форматах файлов, не распознаваемых поисковыми системами.
  5. Частный Интернет : сайты, требующие регистрации и входа в систему (ресурсы, защищенные паролем).
  6. Скриптовый контент : страницы, доступные только по ссылкам, созданным с помощью JavaScript , а также контент, динамически загружаемый с веб-серверов с помощью решений Flash или Ajax .
  7. Программное обеспечение : определенный контент намеренно скрыт от обычного Интернета и доступен только с помощью специального программного обеспечения, такого как Tor , I2P или другого программного обеспечения даркнета. Например, Tor позволяет пользователям анонимно получать доступ к веб-сайтам, используя адрес сервера .onion , скрывая свой IP-адрес.
  8. Несвязанный контент : страницы, на которые нет ссылок с других страниц, что может помешать программам веб-сканирования получить доступ к контенту. Этот контент называется страницами без обратных ссылок (также называемыми входными ссылками). Кроме того, поисковые системы не всегда обнаруживают все обратные ссылки с искомых веб-страниц.
  9. Веб-архивы . Службы веб-архивирования, такие как Wayback Machine, позволяют пользователям просматривать архивные версии веб-страниц с течением времени, включая веб-сайты, которые стали недоступны и не индексируются поисковыми системами, такими как Google. Wayback Machine можно назвать программой для просмотра глубокой сети, поскольку веб-архивы, созданные не в настоящем, не могут быть проиндексированы, поскольку прошлые версии веб-сайтов невозможно просмотреть с помощью поиска. Все веб-сайты время от времени обновляются, поэтому веб-архивы считаются контентом Deep Web. [25]

Типы контента

Хотя не всегда возможно напрямую обнаружить содержимое конкретного веб-сервера для его индексации, доступ к сайту потенциально возможен косвенный (из-за уязвимостей компьютера ).

Чтобы обнаружить контент в Интернете, поисковые системы используют веб-сканеры , которые переходят по гиперссылкам через известные номера виртуальных портов протокола . Этот метод идеально подходит для поиска контента в поверхностной сети, но часто неэффективен при поиске контента в глубокой сети. Например, эти сканеры не пытаются найти динамические страницы, являющиеся результатом запросов к базе данных, из-за неопределенного количества возможных запросов. [26] Было отмечено, что это можно преодолеть (частично), предоставив ссылки на результаты запроса, но это может непреднамеренно повысить популярность сайта в глубокой сети.

DeepPeep , Intute , Deep Web Technologies , Scirus и Ahmia.fi — это несколько поисковых систем, получивших доступ к глубокой сети. У Intute закончилось финансирование, и по состоянию на июль 2011 года он представляет собой временный статический архив. [27] Scirus ушел на пенсию ближе к концу января 2013 года. [28]

Исследователи изучают, как можно автоматически сканировать глубокую сеть, включая контент, доступ к которому возможен только с помощью специального программного обеспечения, такого как Tor . В 2001 году Шрирам Рагхаван и Гектор Гарсиа-Молина (Стэнфордский факультет компьютерных наук, Стэнфордский университет) [29] [30] представили архитектурную модель сканера скрытой сети, который использовал важные термины, предоставленные пользователями или собранные из интерфейсов запросов для запроса. веб-форму и сканировать контент Deep Web. Александрос Нтулас, Петрос Зерфос и Чонху Чо из Калифорнийского университета в Лос-Анджелесе создали сканер скрытой сети, который автоматически генерирует осмысленные запросы для выдачи результатов в поисковых формах. [31] Было предложено несколько языков запросов форм (например, DEQUEL [32] ), которые, помимо выдачи запроса, также позволяют извлекать структурированные данные из страниц результатов. Еще одним примером является DeepPeep, проект Университета Юты , спонсируемый Национальным научным фондом , который собрал скрытые веб-источники (веб-формы) в различных областях на основе новых специализированных методов сканирования. [33] [34]

Коммерческие поисковые системы начали изучать альтернативные методы сканирования глубокой сети. Протокол Sitemap (впервые разработанный и представленный Google в 2005 году) и OAI-PMH — это механизмы, которые позволяют поисковым системам и другим заинтересованным сторонам обнаруживать ресурсы глубокой сети на определенных веб-серверах. Оба механизма позволяют веб-серверам рекламировать доступные по ним URL-адреса, тем самым обеспечивая автоматическое обнаружение ресурсов, которые не связаны напрямую с поверхностной сетью. Система глубокого веб-интерфейса Google вычисляет отправку для каждой HTML-формы и добавляет полученные HTML-страницы в индекс поисковой системы Google. Обнаруженные результаты составляют тысячу запросов в секунду к контенту глубокой сети. [35] В этой системе предварительный расчет представленных материалов осуществляется с использованием трех алгоритмов:

  1. выбор входных значений для входных данных текстового поиска, которые принимают ключевые слова,
  2. определение входных данных, которые принимают только значения определенного типа (например, дата) и
  3. выбор небольшого количества входных комбинаций, которые генерируют URL-адреса, подходящие для включения в индекс веб-поиска.

В 2008 году, чтобы облегчить пользователям скрытых сервисов Tor доступ и поиск скрытого суффикса .onion , Аарон Шварц разработал Tor2web — прокси-приложение, способное обеспечивать доступ посредством обычных веб-браузеров. [36] В этом приложении ссылки на глубокий веб-сайт отображаются в виде случайной последовательности букв, за которой следует домен верхнего уровня .onion .

Смотрите также

Рекомендации

  1. ^ Гамильтон, Найджел (2019–2020). «Механика метапоисковой системы Deep Net». В Исайасе, Педро; Пальма душ Рейс, Антониу (ред.). Материалы Международной конференции IADIS по электронному обществу . ИДИС Пресс. стр. 1034–6. CiteSeerX  10.1.1.90.5847 . ISBN 978-972-98947-0-1.
  2. ^ Дивайн, Джейн; Эггер-Сидер, Франсин (август 2021 г.). «За пределами Google: невидимая сеть в академической библиотеке». Журнал академического библиотечного дела . 30 (4): 265–269. дои : 10.1016/j.acalib.2004.04.010.
  3. ^ Рагхаван, Шрирам; Гарсиа-Молина, Гектор (11–14 сентября 2001 г.). «Полазить по скрытой паутине». 27-я Международная конференция по очень большим базам данных .
  4. ^ "Поверхностная сеть". Компьютерная надежда . Проверено 20 июня 2018 г.
  5. Райт, Алекс (22 февраля 2009 г.). «Исследование «глубокой сети», которую Google не может охватить». Нью-Йорк Таймс . Проверено 2 сентября 2019 г. [...] Майк Бергман, ученый-компьютерщик и консультант, которому приписывают создание термина Deep Web.
  6. ^ Мадхаван Дж., Ко Д., Кот Л., Ганапати В., Расмуссен А. и Халеви А. (2008). Поиск в глубокой сети Google. Труды Фонда VLDB, 1 (2), 1241–52.
  7. Шедден, Сэм (8 июня 2014 г.). «Как вы хотите, чтобы я это сделал? Должно ли это выглядеть как несчастный случай? - Убийца, продающий хит в сети; раскрыт в глубокой паутине». Воскресная почта . Архивировано из оригинала 1 марта 2020 года.
  8. Беккет, Энди (26 ноября 2009 г.). «Тёмная сторона Интернета» . Проверено 9 августа 2015 г.
  9. ^ Д. День. Самый простой улов: не будьте еще одной рыбой в темной сети. Университет Уэйк Форест: выступления TEDx . Архивировано из оригинала 13 ноября 2021 года.
  10. ^ «Разъяснение путаницы – глубокая сеть против темной сети» . Яркая Планета. 27 марта 2014 г.
  11. Соломон, Джейн (6 мая 2015 г.). «Глубокая паутина против темной паутины» . Проверено 26 мая 2015 г.
  12. Сотрудники NPR (25 мая 2014 г.). «Темнота: Интернет за Интернетом» . Проверено 29 мая 2015 г.
  13. Гринберг, Энди (19 ноября 2014 г.). «Хакерский лексикон: что такое даркнет?» . Проверено 6 июня 2015 г.
  14. ^ «Влияние даркнета на управление Интернетом и кибербезопасность» (PDF) . 20 января 2014 г. Архивировано из оригинала (PDF) 16 января 2017 г. . Проверено 15 января 2017 г.
  15. ^ Лам, Квок-Ян; Чи, Чи-Хун; Цин, Сихан (23 ноября 2016 г.). Информационная и коммуникационная безопасность: 18-я Международная конференция ICICS 2016, Сингапур, Сингапур, 29 ноября – 2 декабря 2016 г., Труды. Спрингер. ISBN 9783319500119. Проверено 15 января 2017 г.
  16. ^ «Глубокая паутина против темной паутины | Блог Dictionary.com» . Словарный блог. 6 мая 2015 года . Проверено 15 января 2017 г.
  17. ^ Ахгар, Бабак; Байерл, П. Саския; Сэмпсон, Фрейзер (1 января 2017 г.). Разведывательное расследование с открытым исходным кодом: от стратегии к реализации. Спрингер. ISBN 9783319476711. Проверено 15 января 2017 г.
  18. ^ «Что такое даркнет и кто его использует?». Глобус и почта . Проверено 15 января 2017 г.
  19. ^ Аб Бергман, Майкл К. (август 2001 г.). «Глубокая паутина: обнаружение скрытой ценности». Журнал электронного издательства . 7 (1). дои : 10.3998/3336451.0007.104 . hdl : 2027/spo.3336451.0007.104 .
  20. ^ Гарсия, Фрэнк (январь 1996 г.). «Бизнес и маркетинг в Интернете». Заголовок . 15 (1). Архивировано из оригинала 5 декабря 1996 года . Проверено 24 февраля 2009 г.
  21. ^ @1 начинался с 5,7 терабайт контента, что, по оценкам, в 30 раз превышает размер зарождающейся Всемирной паутины; PLS была приобретена AOL в 1998 году, а @1 была заброшена. «PLS представляет AT1, первую службу поиска в Интернете второго поколения» (пресс-релиз). Программное обеспечение для личной библиотеки. Декабрь 1996. Архивировано из оригинала 21 октября 1997 года . Проверено 24 февраля 2009 г.
  22. ^ Филдинг, Р.; Ноттингем, М.; Решке, Дж. (2014). Филдинг, Р.; Ноттингем, М.; Решке, Дж. (ред.). «Протокол передачи гипертекста (HTTP/1.1): Кэширование». Рабочая группа по интернет-инжинирингу . дои : 10.17487/RFC7234 . Проверено 30 июля 2014 г.
  23. ^ Специальное предложение: Поиск
  24. ^ «Поиск в интернет-архиве» .
  25. Винер-Броннер, Даниэль (10 июня 2015 г.). «НАСА индексирует «глубокую сеть», чтобы показать человечеству то, чего не сделает Google». Слияние. Архивировано из оригинала 30 июня 2015 года . Проверено 27 июня 2015 г. Уже доступны другие более простые версии Memex. «Если вы когда-либо использовали Wayback Machine Интернет-архива», которая дает вам прошлые версии веб-сайта, недоступные через Google, то технически вы осуществляли поиск в Deep Web, — сказал Крис Мэттманн .
  26. Райт, Алекс (22 февраля 2009 г.). «Исследование «глубокой сети», которую Google не может охватить». Нью-Йорк Таймс . Проверено 23 февраля 2009 г.
  27. ^ «Часто задаваемые вопросы по Intute, неработающая ссылка» . Проверено 13 октября 2012 г.
  28. ^ «Elsevier упразднит научно-популярную поисковую систему» ​​. библиотека.bldrdoc.gov . Декабрь 2013. Архивировано из оригинала 23 июня 2015 года . Проверено 22 июня 2015 г. К концу января 2014 года Elsevier прекратит поддержку Scirus, своей бесплатной научной поисковой системы. Scirus представляет собой широкомасштабный исследовательский инструмент: для поиска проиндексировано более 575 миллионов элементов, включая веб-страницы, предпечатные статьи, патенты и репозитории.
  29. ^ Шрирам Рагхаван; Гарсиа-Молина, Гектор (2000). «Полазить по скрытой паутине» (PDF) . Технический отчет Стэнфордских цифровых библиотек. Архивировано из оригинала (PDF) 8 мая 2018 года . Проверено 27 декабря 2008 г.
  30. ^ Рагхаван, Шрирам; Гарсия-Молина, Гектор (2001). «Полазить по скрытой паутине» (PDF) . Материалы 27-й Международной конференции по очень большим базам данных (VLDB) . стр. 129–38.
  31. ^ Александрос, Нтулас; Зерфос, Петрос; Чо, Чонху (2005). «Загрузка скрытого веб-контента» (PDF) . Информатика Калифорнийского университета в Лос-Анджелесе . Проверено 24 февраля 2009 г.
  32. ^ Шестаков, Денис; Бхоумик, Сурав С.; Лим, И-Пэн (2005). «DEQUE: Запросы в глубокую сеть» (PDF) . Инженерия данных и знаний . 52 (3): 273–311. дои : 10.1016/S0169-023X(04)00107-7.
  33. ^ Барбоза, Лучано; Фрейре, Юлиана (2007). Адаптивный сканер для поиска точек входа в скрытую сеть (PDF) . WWW Conference 2007. Архивировано из оригинала (PDF) 5 июня 2011 года . Проверено 20 марта 2009 г.
  34. ^ Барбоза, Лучано; Фрейре, Юлиана (2005). Поиск баз данных в скрытой сети (PDF) . WebDB 2005. Архивировано из оригинала (PDF) 5 июня 2011 года . Проверено 20 марта 2009 г.
  35. ^ Мадхаван, Джаянт; Ко, Дэвид; Кот, Люция; Ганапати, Виньеш; Расмуссен, Алекс; Халеви, Алон (2008). Глубокое сканирование Google (PDF) . PVLDB '08, 23-28 августа 2008 г., Окленд, Новая Зеландия. Фонд ВЛДБ, ACM. Архивировано из оригинала (PDF) 16 сентября 2012 года . Проверено 17 апреля 2009 г.
  36. ^ Аарон, Шварц. «В защиту анонимности» . Проверено 4 февраля 2014 г.

дальнейшее чтение

Внешние ссылки