Феномен URL-адресов, имеющих тенденцию прекращать работу
Ссылка гниет (также называется смертью ссылки , разрывом ссылки или ссылочной гнилью ) — это явление, при котором гиперссылки со временем перестают указывать на свой изначально целевой файл , веб-страницу или сервер из-за того, что этот ресурс перемещается на новый адрес или становится постоянно недоступным. Ссылка, которая больше не указывает на свою цель, часто называемая сломанной , мертвой или осиротевшей ссылкой, является особой формой висячего указателя .
Скорость гниения ссылок является предметом изучения и исследования из-за ее значимости для способности интернета сохранять информацию. Оценки этой скорости значительно различаются в разных исследованиях. Специалисты по информации предупреждают, что гниение ссылок может привести к исчезновению важных архивных данных, что может повлиять на правовую систему и науку.
Обычно неработающие ссылки на веб-сайты могут немедленно перенаправлять пользователя на домашнюю страницу веб-сайта, еще больше запутывая пользователей и затрудняя получение URL-адреса неработающей ссылки.
Распространенность
В ряде исследований изучалась распространенность неработающих ссылок во Всемирной паутине , в научной литературе, использующей URL-адреса для цитирования веб-контента, а также в цифровых библиотеках .
В исследовании внешних ссылок Million Dollar Homepage , проведенном в 2023 году , было обнаружено, что 27% ссылок приводили к загрузке сайта без перенаправлений, 45% ссылок были перенаправлены, а 28% возвращали различные сообщения об ошибках. [1]
Исследование 2002 года показало, что устаревание ссылок в цифровых библиотеках происходит значительно медленнее, чем в Интернете, и обнаружило, что около 3% объектов становятся недоступными через год [2] (что соответствует периоду полураспада около 23 лет).
Исследование 2003 года показало, что в Интернете примерно одна ссылка из 200 ломалась каждую неделю, [3] что предполагает период полураспада в 138 недель. Этот показатель был в значительной степени подтвержден исследованием ссылок в Yahoo! Directory (который прекратил обновляться в 2014 году после 21 года разработки), проведенным в 2016–2017 годах, которое показало, что период полураспада ссылок каталога составляет два года. [4]
Исследование 2004 года показало, что подмножества веб-ссылок (например, ссылки на определенные типы файлов или ссылки, размещенные академическими учреждениями) могут иметь существенно разные периоды полураспада. [5] URL-адреса, выбранные для публикации, по-видимому, имеют большую долговечность, чем средний URL-адрес. Исследование Weblock 2015 года проанализировало более 180 000 ссылок из референтных материалов в полнотекстовых корпусах трех основных издателей открытого доступа и обнаружило период полураспада около 14 лет, [6] в целом подтверждая исследование 2005 года, которое показало, что половина URL-адресов, цитируемых в статьях журнала D-Lib Magazine, были активны через 10 лет после публикации. [7] Другие исследования обнаружили более высокие показатели старения ссылок в академической литературе, но обычно предполагают период полураспада четыре года или больше. [8] [9] Исследование 2013 года в BMC Bioinformatics проанализировало около 15 000 ссылок в рефератах из индекса цитирования Web of Science Thomson Reuters и обнаружило, что медианная продолжительность жизни веб-страниц составляла 9,3 года, и только 62% были заархивированы. [10] Исследование 2021 года внешних ссылок в статьях New York Times, опубликованных в период с 1996 по 2019 год, обнаружило период полураспада около 15 лет (со значительными различиями между темами контента), но отметило, что 13% функциональных ссылок больше не ведут к исходному контенту — явление, называемое дрейфом контента . [11]
Исследование 2013 года показало, что 49% ссылок в решениях Верховного суда США недействительны. [12]
Исследование 2023 года, посвященное панелям мониторинга COVID-19 в США , показало, что 23% панелей мониторинга штатов, доступных в феврале 2021 года, в апреле 2023 года были недоступны по предыдущим URL-адресам. [13]
Pew Research обнаружил, что в 2023 году 38% страниц 2013 года пропали без вести. Кроме того, в 2023 году 54% статей английской Википедии имели неработающие ссылки в разделе «ссылки», а 23% новостных статей ссылались на неработающие URL-адреса. [14]
Причины
Сбой ссылок может быть вызван несколькими причинами. Целевая веб-страница может быть удалена. Сервер, на котором размещена целевая страница, может выйти из строя, быть выведен из эксплуатации или перенесен на новое доменное имя . Еще в 1999 году было отмечено, что при том количестве материала, который может храниться на жестком диске, «сбой одного диска может быть подобен сожжению Александрийской библиотеки». [15] Регистрация доменного имени может быть аннулирована или передана другой стороне. Некоторые причины приведут к тому, что ссылка не сможет найти ни одну цель и вернет ошибку, такую как HTTP 404. Другие причины приведут к тому, что ссылка будет вести на контент, отличный от того, который был задуман автором ссылки.
Другие причины неработающих ссылок включают в себя:
реструктуризация веб-сайтов, которая приводит к изменению URL-адресов (например, domain.net/pine_treeможет быть перемещена на domain.net/tree/pine)
перемещение ранее бесплатного контента за пределы платного доступа [13]
изменение архитектуры сервера, которое приводит к тому, что код, например PHP, работает по-другому
динамическое содержимое страницы, такое как результаты поиска, которое изменяется в соответствии с дизайном
удаление целевой страницы и/или ее содержимого
наличие в ссылке информации, специфичной для пользователя (например, имени пользователя)
Стратегии предотвращения порчи ссылок могут быть сосредоточены на размещении контента там, где вероятность его сохранения выше, создании ссылок, которые с меньшей вероятностью будут сломаны, принятии мер по сохранению существующих ссылок или восстановлении ссылок, цели которых были перемещены или удалены. [ необходима цитата ]
Создание URL-адресов, которые не будут меняться со временем, является основным методом предотвращения гниения ссылок. Превентивное планирование было выдвинуто Тимом Бернерсом-Ли и другими пионерами веба. [16]
Стратегии, касающиеся авторства ссылок, включают:
ссылки на первичные, а не вторичные источники и приоритет стабильных сайтов [5]
избегание ссылок, указывающих на ресурсы на личных страницах исследователей [7]
использование систем управления контентом , которые могут автоматически обновлять ссылки при перемещении контента на том же сайте или автоматически заменять ссылки каноническими URL-адресами [24]
интеграция поисковых ресурсов в страницы HTTP 404 [25]
Обнаружение неработающих ссылок может выполняться вручную или автоматически. Автоматизированные методы включают плагины для систем управления контентом , а также автономные средства проверки неработающих ссылок, такие как Xenu's Link Sleuth . Автоматическая проверка может не обнаружить ссылки, которые возвращают мягкую ошибку 404 , или ссылки, которые возвращают ответ 200 OK, но указывают на измененный контент. [26]
^ Szymura, Sav (2023-09-11). "Link rot: что это такое и как это предотвратить?". Wolfenden . Получено 2024-08-02 .
^ Нельсон, Майкл Л.; Аллен, Б. Данетт (2002). «Сохранение и доступность объектов в цифровых библиотеках». Журнал D-Lib . 8 (1). doi : 10.1045/january2002-nelson . Архивировано из оригинала 2020-07-19 . Получено 2019-09-24 .
^ Fetterly, Dennis; Manasse, Mark; Najork, Marc; Wiener, Janet (2003). "Крупномасштабное исследование эволюции веб-страниц". Труды 12-й международной конференции по Всемирной паутине . Архивировано из оригинала 9 июля 2011 г. Получено 14 сентября 2010 г.
^ ван дер Грааф, Ганс. "Срок полураспада ссылки составляет два года". Блог ZOMDir . Архивировано из оригинала 17-10-2017 . Получено 31-01-2019 .
^ ab Koehler, Wallace (2004). "Продолжение продольного исследования веб-страниц: рассмотрение сохранения документов". Information Research . 9 (2). Архивировано из оригинала 2017-09-11 . Получено 2019-01-31 .
^ "All-Time Weblock Report". Август 2015. Архивировано из оригинала 4 марта 2016. Получено 12 января 2016 .
^ ab McCown, Frank; Chan, Sheffan; Nelson, Michael L.; Bollen, Johan (2005). "Доступность и сохранение веб-ссылок в журнале D-Lib" (PDF) . Труды 5-го Международного семинара по веб-архивированию и цифровому сохранению (IWAW'05) . Архивировано из оригинала (PDF) 2012-07-17 . Получено 2005-10-12 .
^ Spinellis, Diomidis (2003). «Упадок и неудачи веб-ссылок». Сообщения ACM . 46 (1): 71–77. CiteSeerX 10.1.1.12.9599 . doi :10.1145/602421.602422. S2CID 17750450. Архивировано из оригинала 23.07.2020 . Получено 29.09.2007 .
^ Стив Лоуренс ; Дэвид М. Пеннок; Гэри Уильям Флейк ; и др. (март 2001 г.). «Сохранение веб-ссылок в научных исследованиях». Computer . 34 (3): 26–31. CiteSeerX 10.1.1.97.9695 . doi :10.1109/2.901164. ISSN 0018-9162. Wikidata Q21012586.
^ Хеннесси, Джейсон; Сицзинь Ге, Стивен (2013). «Междисциплинарное исследование распада связей и эффективности методов смягчения последствий». BMC Bioinformatics . 14 (Suppl 14): S5. doi : 10.1186/1471-2105-14-S14-S5 . PMC 3851533. PMID 24266891 .
^ «Что эфемерность Интернета означает для ваших гиперссылок». Columbia Journalism Review . Архивировано из оригинала 2021-08-02 . Получено 2021-08-02 .
^ Гарбер, Меган (23.09.2013). «49% ссылок, цитируемых в решениях Верховного суда, не работают». The Atlantic . Получено 10.01.2024 .
^ ab Адамс, Аарон М.; Чэнь, Сян; Ли, Вэйдун; Чуаньжун, Чжан (27 июля 2023 г.). «Нормализация пандемии: изучение картографических проблем на панелях управления государственными органами по COVID-19». Journal of Maps . 19 (5): 1–9. doi : 10.1080/17445647.2023.2235385 .
^ Чапекис, Афина; Бестватер, Сэмюэл; Реми, Эмма; Риверо, Гонсало (17 мая 2024 г.). «Когда исчезает онлайн-контент». Pew Research Center . Получено 19 мая 2024 г.
^ МакГранаган, Мэтью (1999). «Сеть, картография и доверие». Картографические перспективы (32): 3–5. doi : 10.14714/CP32.624 .
^ Бернерс-Ли, Тим (1998). "Cool URIs Don't Change". Архивировано из оригинала 2000-03-02 . Получено 2019-01-31 .
^ ab Kille, Leighton Walter (8 ноября 2014 г.). «Растущая проблема интернет-«линк-рота» и передовой опыт для СМИ и онлайн-издателей». Journalist's Resource, Harvard Kennedy School. Архивировано из оригинала 12 января 2015 г. Получено 16 января 2015 г.
^ Сицилия, Мигель-Анхель и др. «Децентрализованные постоянные идентификаторы: базовая модель для неизменяемых обработчиков. Архивировано 10 мая 2023 г. в Wayback Machine ». Procedia computer science 146 (2019): 123–130.
^ "Интернет-архив: цифровая библиотека бесплатных книг, фильмов, музыки и Wayback Machine". 2001-03-10. Архивировано из оригинала 26 января 1997 года . Получено 7 октября 2013 года .
^ Эйзенбах, Гюнтер; Трудель, Матье (2005). «Идем, идем, все еще там: использование сервиса WebCite для постоянного архивирования цитируемых веб-страниц». Журнал медицинских интернет-исследований . 7 (5): e60. doi : 10.2196/jmir.7.5.e60 . PMC 1550686. PMID 16403724 .
^ Zittrain, Jonathan; Albert, Kendra; Lessig, Lawrence (12 июня 2014 г.). «Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations» (PDF) . Legal Information Management . 14 (2): 88–99. doi :10.1017/S1472669614000255. S2CID 232390360. Архивировано (PDF) из оригинала 1 ноября 2020 г. . Получено 10 июня 2020 г. .
^ "Центр Беркмана Гарвардского университета выпускает Amber, инструмент "взаимной помощи" для блогеров и владельцев веб-сайтов, чтобы помочь сохранить доступность Интернета | Центр Беркмана". cyber.law.harvard.edu . Архивировано из оригинала 2016-02-02 . Получено 2016-01-28 .
^ Рённ-Йенсен, Йеспер (2007-10-05). "Программное обеспечение устраняет ошибки пользователей и линкор". Justaddwater.dk. Архивировано из оригинала 11 октября 2007 г. Получено 5 октября 2007 г.
^ Мюллер, Джон (14.12.2007). "К сведению о последних функциях панели инструментов Google". Блог Google Webmaster Central. Архивировано из оригинала 13 сентября 2008 г. Получено 9 июля 2008 г.
^ Бар-Йосеф, Зив; Бродер, Андрей З.; Кумар, Рави; Томкинс, Эндрю (2004). «Sic transit gloria telae: towards an understanding of the Web's decay». Труды 13-й международной конференции по Всемирной паутине – WWW '04 . С. 328–337. CiteSeerX 10.1.1.1.9406 . doi :10.1145/988672.988716. ISBN978-1581138443.
Дальнейшее чтение
Марквелл, Джон; Брукс, Дэвид В. (2002). «Неработающие ссылки: эфемерная природа образовательных гиперссылок в Интернете». Журнал «Научное образование и технологии» . 11 (2): 105–108. doi :10.1023/A:1014627511641. S2CID 60802264.
Гомес, Даниэль; Сильва, Марио Дж. (2006). "Моделирование сохранения информации в Интернете" (PDF) . Труды 6-й Международной конференции по веб-инженерии . ICWE'06. Архивировано из оригинала (PDF) 2011-07-16 . Получено 14 сентября 2010 .
Деллавалле, Роберт П.; Хестер, Эрик Дж.; Хейлиг, Лорен Ф.; Дрейк, Аманда Л.; Кунцман, Джефф В.; Грабер, Марла; Шиллинг, Лиза М. (2003). «Going, Going, Gone: Lost Internet References». Science . 302 (5646): 787–788. doi :10.1126/science.1088234. PMID 14593153. S2CID 154604929.
Келер, Уоллес (1999). «Анализ постоянства и долговечности веб-страниц и веб-сайтов». Журнал Американского общества информационной науки . 50 (2): 162–180. doi :10.1002/(SICI)1097-4571(1999)50:2<162::AID-ASI7>3.0.CO;2-B.
Sellitto, Carmine (2005). «Влияние непостоянных ссылок, размещенных в Интернете: исследование 123 научных конференционных публикаций» (PDF) . Журнал Американского общества информационной науки и технологий . 56 (7): 695–703. CiteSeerX 10.1.1.473.2732 . doi :10.1002/asi.20159.
Внешние ссылки
На веб-страницах Wikibook Authoring есть страница на тему: Предотвращение порчи ссылок
Найдите термины «link rot» или «linkrot» в Викисловаре, бесплатном словаре.
Подготовка ваших URI к будущему
Нильсен, Якоб (14 июня 1998 г.). "Борьба с Линкротом". Архивировано из оригинала 23 декабря 2012 г.