Гнилая ссылка обычно приводит к сообщению об ошибке
Феномен URL-адресов, которые перестают функционировать
Гниль ссылок (также называемая смертью ссылки , разрушением ссылки или порчей ссылки ) — это явление, когда гиперссылки имеют тенденцию со временем переставать указывать на исходный целевой файл , веб-страницу или сервер из-за того, что этот ресурс перемещается на новый адрес или становится постоянно недоступен. Ссылка, которая больше не указывает на свою цель, часто называемая неработающей , мертвой или потерянной ссылкой, представляет собой особую форму висячего указателя .
Скорость разрушения ссылок является предметом изучения и исследования из-за ее важности для способности Интернета сохранять информацию. Оценки этого показателя резко различаются в разных исследованиях. Специалисты в области информации предупреждают, что гниение ссылок может привести к исчезновению важных архивных данных, что потенциально может повлиять на правовую систему и науку.
Распространенность
В ряде исследований изучалась распространенность гниения ссылок во Всемирной паутине , в научной литературе, в которой URL-адреса используются для цитирования веб-контента, а также в цифровых библиотеках .
Исследование 2002 года показало, что разрушение ссылок в цифровых библиотеках происходит значительно медленнее, чем в Интернете: около 3% объектов перестают быть доступными через год [1] (что соответствует периоду полураспада почти 23 года).
Исследование 2003 года показало, что в Интернете примерно одна ссылка из каждых 200 ломается каждую неделю [2] , что предполагает период полураспада 138 недель. Этот показатель во многом был подтвержден исследованием ссылок на Yahoo!, проведенным в 2016–2017 годах. Каталог (который прекратил обновляться в 2014 году после 21 года разработки), в котором период полураспада ссылок каталога составил два года. [3]
Исследование 2004 года показало, что подмножества веб-ссылок (например, ссылки на определенные типы файлов или ссылки, размещенные в академических учреждениях) могут иметь совершенно разные периоды полураспада. [4] URL-адреса, выбранные для публикации, имеют больший срок действия, чем средний URL-адрес. Исследование, проведенное Weblock в 2015 году, проанализировало более 180 000 ссылок из полнотекстовых корпусов трех крупных издателей с открытым доступом и обнаружило, что период полураспада составляет около 14 лет, [5] в целом подтверждает исследование 2005 года, которое показало, что половина URL-адресов Статьи , цитируемые в журнале D-Lib Magazine, были активны через 10 лет после публикации. [6] Другие исследования обнаружили более высокие показатели гниения ссылок в академической литературе, но обычно предполагают, что период полураспада составляет четыре года или больше. [7] [8] Исследование, проведенное в 2013 году в BMC Bioinformatics, проанализировало около 15 000 ссылок в рефератах из индекса цитирования Thomson Reuters Web of Science и обнаружило, что средний срок жизни веб-страниц составляет 9,3 года, и только 62% из них были заархивированы. [9] Исследование внешних ссылок в статьях New York Times, опубликованных в период с 1996 по 2019 год, в 2021 году выявило период полураспада около 15 лет (со значительными различиями между темами контента), но отметило, что 13% функциональных ссылок больше не ведут на оригинал. контент — явление, называемое дрейфом контента . [10]
Исследование 2013 года показало, что 49% ссылок в решениях Верховного суда США мертвы. [11]
Исследование 2023 года, посвященное информационным панелям США по COVID-19, показало, что 23% информационных панелей штатов, доступных в феврале 2021 года, больше не были доступны по предыдущим URL-адресам в апреле 2023 года. [12]
Причины
Гниль ссылок может возникнуть в результате нескольких событий. Целевая веб-страница может быть удалена. Сервер, на котором размещена целевая страница, может выйти из строя, быть отключен от обслуживания или переехать на новое доменное имя . Еще в 1999 году было отмечено, что при том объеме материала, который можно хранить на жестком диске, «отказ одного диска может быть подобен сожжению библиотеки в Александрии». [13] Регистрация доменного имени может истечь или быть передана другому лицу. Некоторые причины могут привести к тому, что ссылка не сможет найти какую-либо цель и вернет ошибку, например HTTP 404 . Другие причины могут привести к тому, что ссылка будет вести на целевой контент, отличный от того, который был задуман автором ссылки.
Другие причины неработающих ссылок включают в себя:
реструктуризация веб-сайтов, которая приводит к изменению URL-адресов (например, domain.net/pine_treeможет быть перенесена на domain.net/tree/pine)
перемещение ранее бесплатного контента за платный доступ [12]
изменение в архитектуре сервера, которое приводит к тому, что такой код, как PHP, работает по-другому
динамическое содержимое страницы, такое как результаты поиска, которое меняется в зависимости от дизайна
удаление целевой страницы и/или ее содержимого
наличие информации, специфичной для пользователя (например, имени пользователя) внутри ссылки
Стратегии предотвращения порчи ссылок могут быть сосредоточены на размещении контента там, где вероятность его сохранения выше, создании ссылок, которые с меньшей вероятностью будут повреждены, принятии мер по сохранению существующих ссылок или восстановлении ссылок, цели которых были перемещены или удалены. [ нужна цитата ]
Создание URL-адресов, которые не будут меняться со временем, является фундаментальным методом предотвращения гниения ссылок. Превентивное планирование отстаивали Тим Бернерс-Ли и другие пионеры Интернета. [14]
Стратегии, касающиеся авторства ссылок, включают:
связывание с первичными, а не вторичными источниками и определение приоритета стабильных сайтов [4]
избегание ссылок, указывающих на ресурсы, на личных страницах исследователей [6]
использование механизмов перенаправления , таких как HTTP 301, для автоматического направления браузеров и сканеров к перемещенному контенту. [ нужна цитата ]
использование систем управления контентом , которые могут автоматически обновлять ссылки при перемещении контента на одном сайте или автоматически заменять ссылки каноническими URL-адресами [22]
интеграция поисковых ресурсов в страницы HTTP 404 [23]
Обнаружение неработающих ссылок может выполняться вручную или автоматически. Автоматизированные методы включают плагины для систем управления контентом , а также автономные средства проверки неработающих ссылок, такие как Xenu's Link Sleuth . Автоматическая проверка может не обнаружить ссылки, возвращающие программную ошибку 404 , или ссылки, возвращающие ответ 200 OK , но указывающие на измененный контент. [24]
Марквелл, Джон; Брукс, Дэвид В. (2002). «Неработающие ссылки: эфемерная природа образовательных WWW-гиперссылок». Журнал научного образования и технологий . 11 (2): 105–108. дои : 10.1023/А: 1014627511641. S2CID 60802264.
Гомес, Дэниел; Сильва, Марио Х. (2006). «Моделирование устойчивости информации в Интернете» (PDF) . Материалы 6-й Международной конференции по веб-инженерии . МКВЕ'06. Архивировано из оригинала (PDF) 16 июля 2011 г. Проверено 14 сентября 2010 г.
Деллавалль, Роберт П.; Хестер, Эрик Дж.; Хейлиг, Лорен Ф.; Дрейк, Аманда Л.; Кунцман, Джефф В.; Грабер, Марла; Шиллинг, Лиза М. (2003). «Идет, идет, уходит: потерянные ссылки в Интернете». Наука . 302 (5646): 787–788. дои : 10.1126/science.1088234. PMID 14593153. S2CID 154604929.
Келер, Уоллес (1999). «Анализ постоянства и постоянства веб-страниц и веб-сайтов». Журнал Американского общества информатики . 50 (2): 162–180. doi :10.1002/(SICI)1097-4571(1999)50:2<162::AID-ASI7>3.0.CO;2-B.
Селитто, Кармин (2005). «Влияние непостоянных цитирований в Интернете: исследование 123 публикаций научных конференций» (PDF) . Журнал Американского общества информатики и технологий . 56 (7): 695–703. CiteSeerX 10.1.1.473.2732 . дои : 10.1002/asi.20159.
Рекомендации
^ Нельсон, Майкл Л.; Аллен, Б. Данетт (2002). «Сохранение и доступность объектов в цифровых библиотеках». Журнал D-Lib . 8 (1). doi : 10.1045/январь 2002-нельсон . Архивировано из оригинала 19 июля 2020 г. Проверено 24 сентября 2019 г.
^ Феттерли, Деннис; Манасс, Марк; Найорк, Марк; Винер, Джанет (2003). «Масштабное исследование эволюции веб-страниц». Материалы 12-й международной конференции по Всемирной паутине . Архивировано из оригинала 9 июля 2011 года . Проверено 14 сентября 2010 г.
^ ван дер Грааф, Ганс. «Период полураспада ссылки составляет два года». Блог ZOMDir . Архивировано из оригинала 17 октября 2017 г. Проверено 31 января 2019 г.
^ Аб Келер, Уоллес (2004). «Продолжение продольного исследования веб-страниц: рассмотрение устойчивости документов». Информационные исследования . 9 (2). Архивировано из оригинала 11 сентября 2017 г. Проверено 31 января 2019 г.
^ "Отчет о веб-блоках за все время" . Август 2015. Архивировано из оригинала 4 марта 2016 года . Проверено 12 января 2016 г.
^ аб МакКаун, Фрэнк; Чан, Шеффан; Нельсон, Майкл Л.; Боллен, Йохан (2005). «Наличие и постоянство веб-ссылок в журнале D-Lib Magazine» (PDF) . Материалы 5-го Международного семинара по веб-архивированию и цифровой сохранности (IWAW'05) . Архивировано из оригинала (PDF) 17 июля 2012 г. Проверено 12 октября 2005 г.
^ Спинеллис, Диомидис (2003). «Распад и неудачи веб-ссылок». Коммуникации АКМ . 46 (1): 71–77. CiteSeerX 10.1.1.12.9599 . дои : 10.1145/602421.602422. S2CID 17750450. Архивировано из оригинала 23 июля 2020 г. Проверено 29 сентября 2007 г.
^ Стив Лоуренс ; Дэвид М. Пеннок; Гэри Уильям Флейк ; и другие. (март 2001 г.). «Постоянство веб-ссылок в научных исследованиях». Компьютер . 34 (3): 26–31. CiteSeerX 10.1.1.97.9695 . дои : 10.1109/2.901164. ISSN 0018-9162. Викиданные Q21012586.
^ Хеннесси, Джейсон; Сиджин Ге, Стивен (2013). «Междисциплинарное исследование распада ссылок и эффективности методов смягчения последствий». БМК Биоинформатика . 14 (Дополнение 14): S5. дои : 10.1186/1471-2105-14-S14-S5 . ПМЦ 3851533 . ПМИД 24266891.
^ «Что эфемерность Интернета означает для ваших гиперссылок» . Обзор журналистики Колумбии . Архивировано из оригинала 2 августа 2021 г. Проверено 2 августа 2021 г.
^ Гарбер, Меган (23 сентября 2013 г.). «49% ссылок, упомянутых в решениях Верховного суда, не работают». Атлантический океан . Проверено 10 января 2024 г.
^ Аб Адамс, Аарон М.; Чен, Сян; Ли, Вэйдун; Чуанжун, Чжан (27 июля 2023 г.). «Нормализация пандемии: изучение картографических проблем на информационных панелях правительства штата по COVID-19». Журнал карт . 19 (5): 1–9. дои : 10.1080/17445647.2023.2235385 .
^ Бернерс-Ли, Тим (1998). «Крутые URI не меняются». Архивировано из оригинала 02 марта 2000 г. Проверено 31 января 2019 г.
↑ ab Kille, Лейтон Уолтер (8 ноября 2014 г.). «Растущая проблема «гниения ссылок» в Интернете и передовой опыт для СМИ и онлайн-издателей». Ресурс для журналистов, Гарвардская школа Кеннеди. Архивировано из оригинала 12 января 2015 года . Проверено 16 января 2015 г.
^ Сицилия, Мигель-Анхель и др. «Децентрализованные постоянные идентификаторы: базовая модель неизменяемых обработчиков. Архивировано 10 мая 2023 г. в Wayback Machine ». Procedia Computer Science 146 (2019): 123-130.
^ «Интернет-архив: Цифровая библиотека бесплатных книг, фильмов, музыки и Wayback Machine» . 10 марта 2001 г. Архивировано из оригинала 26 января 1997 года . Проверено 7 октября 2013 г.
^ Эйзенбах, Гюнтер; Трудель, Матье (2005). «Идем, идем, все еще здесь: использование службы WebCite для постоянного архивирования цитируемых веб-страниц». Журнал медицинских интернет-исследований . 7 (5): е60. дои : 10.2196/jmir.7.5.e60 . ПМК 1550686 . ПМИД 16403724.
^ Зиттрейн, Джонатан; Альберт, Кендра; Лессиг, Лоуренс (12 июня 2014 г.). «Перма: определение и решение проблемы гниения ссылок и ссылок в юридических цитатах» (PDF) . Управление юридической информацией . 14 (2): 88–99. дои : 10.1017/S1472669614000255. S2CID 232390360. Архивировано (PDF) из оригинала 1 ноября 2020 года . Проверено 10 июня 2020 г.
^ «Центр Беркмана Гарвардского университета выпускает Amber, инструмент «взаимной помощи» для блоггеров и владельцев веб-сайтов, помогающий поддерживать доступность Интернета | Центр Беркмана» . cyber.law.harvard.edu . Архивировано из оригинала 2 февраля 2016 г. Проверено 28 января 2016 г.
^ «Arweave - экосистема, управляемая сообществом» . arweave.org . Архивировано из оригинала 15 марта 2023 г. Проверено 15 марта 2023 г.
^ Рённ-Йенсен, Йеспер (05 октября 2007 г.). «Программное обеспечение исключает ошибки пользователя и Linkrot». Justaddwater.dk. Архивировано из оригинала 11 октября 2007 года . Проверено 5 октября 2007 г.
^ Мюллер, Джон (14 декабря 2007 г.). «К вашему сведению, новейшие функции панели инструментов Google» . Центральный блог Google для веб-мастеров. Архивировано из оригинала 13 сентября 2008 года . Проверено 9 июля 2008 г.
^ Бар-Йосеф, Зив; Бродер, Андрей З.; Кумар, Рави; Томкинс, Эндрю (2004). «Sic Transit Gloria telae: к пониманию распада Интернета». Материалы 13-й международной конференции по Всемирной паутине – WWW '04 . стр. 328–337. CiteSeerX 10.1.1.1.9406 . дои : 10.1145/988672.988716. ISBN978-1581138443.
Внешние ссылки
Послушайте эту статью ( 6 минут )
Этот аудиофайл был создан на основе редакции этой статьи от 13 августа 2023 года и не отражает последующие изменения. ( 13 августа 2023 г. )
На веб-страницах Wikibook Authoring есть страница на тему: Предотвращение гниения ссылок.
Найдите ссылку rot или linkrot в Викисловаре, бесплатном словаре.
Перспективность ваших URI
Нильсен, Якоб (14 июня 1998 г.). «Боевой Линкрот». Архивировано из оригинала 23 декабря 2012 года.