stringtranslate.com

Машина Wayback

Wayback Machine — это цифровой архив Всемирной паутины, основанный Internet Archive , американской некоммерческой организацией со штаб-квартирой в Сан-Франциско, Калифорния . Созданный в 1996 году и представленный публике в 2001 году, он позволяет пользователям «возвращаться назад во времени», чтобы увидеть, как выглядели веб-сайты в прошлом. Его основатели, Брюстер Кейл и Брюс Джиллиат , разработали Wayback Machine для предоставления «универсального доступа ко всем знаниям» путем сохранения архивных копий несуществующих веб-страниц. [2]

Запущенная 10 мая 1996 года, Wayback Machine к концу 2009 года сохранила более 38,2 миллиарда веб-страниц. По состоянию на 3 января 2024 года Wayback Machine заархивировала более 860 миллиардов веб-страниц и более 99 петабайт данных. [3] [4]

История

Wayback Machine начала архивировать кэшированные веб-страницы в 1996 году. Одна из самых ранних известных страниц была архивирована 10 мая 1996 года по адресу( UTC ). [5]

Основатели Internet Archive Брюстер Кейл и Брюс Джиллиат запустили Wayback Machine в Сан-Франциско , Калифорния , [6] в октябре 2001 года, [7] [8] в первую очередь для решения проблемы исчезновения веб-контента при его изменении или при закрытии веб-сайта. [9] Сервис позволяет пользователям просматривать архивные версии веб-страниц во времени, что архив называет «трехмерным индексом». [10] Кейл и Джиллиат создали машину, надеясь архивировать весь Интернет и предоставить «универсальный доступ ко всем знаниям». [11] Название «Wayback Machine» является отсылкой к вымышленному устройству для путешествий во времени в анимационном мультфильме «Приключения Рокки и Буллвинкля и друзей » 1960-х годов. [12] [13] [14] В сегменте мультфильма под названием «Невероятная история Пибоди» персонажи Мистер Пибоди и Шерман используют « Wayback Machine », чтобы стать свидетелями и участниками известных исторических событий.

С 1996 по 2001 год информация хранилась на цифровой ленте, и Кейл время от времени позволял исследователям и ученым подключаться к «неуклюжей» базе данных . [15] Когда в 2001 году архиву исполнилось пять лет, он был представлен и открыт для публики на церемонии в Калифорнийском университете в Беркли . [16] К моменту запуска Wayback Machine он уже содержал более 10 миллиардов архивных страниц. [17] Данные хранятся в большом кластере узлов Linux Интернет-архива . [11] Время от времени он пересматривает и архивирует новые версии веб-сайтов (см. технические подробности ниже). [18] Сайты также можно захватывать вручную, вводя URL-адрес веб-сайта в поле поиска, при условии, что веб-сайт позволяет Wayback Machine « сканировать » его и сохранять данные. [19]

30 октября 2020 года Wayback Machine начала проверку фактов контента. [20] С января 2022 года домены рекламных серверов отключены от сбора данных. [21]

В мае 2021 года, к 25-летию Архива Интернета, Wayback Machine представила «Машину Wayforward», которая позволяет пользователям «путешествовать в Интернет 2046 года, где знания находятся в осаде ». [22] [23]

Техническая информация

Программное обеспечение Wayback Machine было разработано для « сканирования » Интернета и загрузки всей общедоступной информации и файлов данных на веб-страницах, иерархии Gopher , системе досок объявлений Netnews (Usenet) и загружаемом программном обеспечении. [24] Информация, собранная этими «сканерами», не включает всю информацию, доступную в Интернете, поскольку большая часть данных ограничена издателем или хранится в базах данных, которые недоступны. Для устранения несоответствий в частично кэшированных веб-сайтах в 2005 году Архивом Интернета был разработан Archive-It.org как средство, позволяющее учреждениям и создателям контента добровольно собирать и сохранять коллекции цифрового контента и создавать цифровые архивы. [25]

Данные сканирования поступают из различных источников, некоторые из которых импортируются из третьих источников, а другие генерируются внутри Архива. [18] Например, данные сканирования поступают от Sloan Foundation и Alexa , данные сканирования запускаются Internet Archive от имени NARA и Internet Memory Foundation , зеркалами Common Crawl . [18] «Всемирные веб-сканеры» запускаются с 2010 года и охватывают глобальную сеть. [18] [26]

Документы и ресурсы хранятся с URL-адресами с временными метками, такими как 20240929225843. Отдельные ресурсы страниц, такие как изображения, таблицы стилей и скрипты, а также исходящие гиперссылки , связаны с временной меткой текущей просматриваемой страницы, поэтому они автоматически перенаправляются на свои индивидуальные снимки, которые являются наиболее близкими по времени. [27]

Частота захвата снимков варьируется в зависимости от веб-сайта. [18] Веб-сайты в «Сканировании всемирной паутины» включены в «список сканирования», при этом сайт архивируется один раз за сканирование. [18] Сканирование может занять месяцы или даже годы, в зависимости от размера. [18] Например, «Широкое сканирование номер 13» началось 9 января 2015 года и завершилось 11 июля 2016 года. [28] Однако в любой момент времени может выполняться несколько сканирований, и сайт может быть включен более чем в один список сканирования, поэтому частота сканирования сайта сильно различается. [18]

Начиная с октября 2019 года пользователи ограничены 15 архивными запросами и извлечениями в минуту. [29] [ почему? ]

Емкость хранилища и рост

По мере развития технологий на протяжении многих лет емкость хранилища Wayback Machine росла. В 2003 году, всего через два года после начала публичного доступа, Wayback Machine росла со скоростью 12 терабайт в месяц. Данные хранятся в стоечных системах PetaBox, специально разработанных сотрудниками Internet Archive. Первая стойка на 100 ТБ была полностью введена в эксплуатацию в июне 2004 года, хотя вскоре стало ясно, что им понадобится гораздо больше места для хранения. [30] [31]

В 2009 году Internet Archive перенес свою специализированную архитектуру хранения на Sun Open Storage и разместил новый центр обработки данных в Sun Modular Datacenter на территории кампуса Sun Microsystems в Калифорнии. [32] По состоянию на 2009 год Wayback Machine содержала приблизительно три петабайта данных и росла со скоростью 100 терабайт в месяц. [33]

Новая, улучшенная версия Wayback Machine с обновленным интерфейсом и более свежим индексом архивного контента была доступна для публичного тестирования в 2011 году, где захваты отображаются в календарном макете с кругами, ширина которых визуализирует количество обходов каждый день, но без маркировки дубликатов звездочками или страницы расширенного поиска. [34] [35] Была добавлена ​​верхняя панель инструментов для облегчения навигации между захватами. Гистограмма визуализирует частоту захватов в месяц на протяжении многих лет. [36] Впоследствии были добавлены такие функции, как «Изменения», «Сводка» и графическая карта сайта.

В марте того же года на форуме Wayback Machine было сказано, что «бета-версия новой Wayback Machine имеет более полный и актуальный индекс всех просканированных материалов по 2010 год и будет регулярно обновляться. Индекс, на котором основана классическая Wayback Machine, содержит лишь немного материалов после 2008 года, и никаких дальнейших обновлений индекса не планируется, поскольку он будет постепенно выведен из эксплуатации в этом году». [37] Также в 2011 году Internet Archive установил шестую пару стоек PetaBox, что увеличило емкость хранилища Wayback Machine на 700 терабайт. [38]

В январе 2013 года компания объявила о достижении новаторского рубежа в 240 миллиардов URL-адресов. [39]

В октябре 2013 года компания представила функцию «Сохранить страницу» [40] [41] , которая позволяет любому пользователю Интернета архивировать содержимое URL-адреса и быстро создавать постоянную ссылку в отличие от предыдущей функции liveweb .

В декабре 2014 года Wayback Machine содержала 435 миллиардов веб-страниц — почти девять петабайт данных, и росла примерно на 20 терабайт в неделю. [17] [42] [43]

По сообщениям, в июле 2016 года Wayback Machine содержала около 15 петабайт данных. [44]

В сентябре 2018 года Wayback Machine содержала более 25 петабайт данных. [45] [46]

По состоянию на декабрь 2020 года Wayback Machine содержала более 70 петабайт данных. [47]

По данным Архива Интернета, по состоянию на январь 2024 года, на данный момент сохранено более 99 петабайт данных. [3] [4]

API Wayback Machine

Служба Wayback Machine предлагает три общедоступных API: SavePageNow, Availability и CDX. [50] SavePageNow можно использовать для архивирования веб-страниц. Availability API для проверки статуса доступности архива веб-страницы, [51] проверки того, существует ли архив для веб-страницы или нет. CDX API предназначен для сложных запросов, фильтрации и анализа полученных данных. [52] [53]

Политика исключения веб-сайтов

Исторически Wayback Machine соблюдала стандарт исключения роботов (robots.txt) при определении того, будет ли веб-сайт просканирован или, если он уже просканирован, будут ли его архивы доступны для публичного просмотра. Владельцы веб-сайтов имели возможность отказаться от Wayback Machine с помощью robots.txt. Он применял правила robots.txt задним числом; если сайт блокировал Internet Archive, любые ранее заархивированные страницы домена также немедленно становились недоступными. Кроме того, Internet Archive заявил, что «Иногда владелец веб-сайта связывается с нами напрямую и просит нас прекратить сканирование или архивирование сайта. Мы выполняем эти запросы». [54] Кроме того, на веб-сайте говорится: «Internet Archive не заинтересован в сохранении или предоставлении доступа к веб-сайтам или другим интернет-документам лиц, которые не хотят, чтобы их материалы были в коллекции». [55] [56]

17 апреля 2017 года появились сообщения о сайтах, которые прекратили свое существование и стали припаркованными доменами , которые использовали robots.txt для исключения себя из поисковых систем, в результате чего они были непреднамеренно исключены из Wayback Machine. [57] После этого Internet Archive изменил политику, чтобы требовать явного запроса на исключение для удаления его из Wayback Machine. [27]

Политика архива Окленда

Политика исключения ретроактивных данных Wayback частично основана на Рекомендациях по управлению запросами на удаление и сохранению целостности архивов, опубликованных Школой управления информацией и системами Калифорнийского университета в Беркли в 2002 году, которые дают владельцу веб-сайта право блокировать доступ к архивам сайта. [58] Wayback соблюдает эту политику, чтобы избежать дорогостоящих судебных разбирательств. [59]

Политика исключения Wayback в ретроспективе начала смягчаться в 2017 году, когда она прекратила чествовать роботов на веб-сайтах правительства и армии США как для сканирования, так и для отображения веб-страниц. С апреля 2017 года Wayback игнорирует robots.txt в более широком смысле, а не только для веб-сайтов правительства США. [60] [61] [62] [63]

Использует

С момента своего публичного запуска в 2001 году Wayback Machine изучалась учеными как на предмет способов хранения и сбора данных, так и на предмет фактических страниц, содержащихся в ее архиве. По состоянию на 2013 год ученые написали около 350 статей о Wayback Machine, в основном из областей информационных технологий , библиотечного дела и социальных наук . Ученые-социологи использовали Wayback Machine для анализа того, как развитие веб-сайтов с середины 1990-х годов по настоящее время повлияло на рост компании. [17]

Когда Wayback Machine архивирует страницу, она обычно включает в себя большинство гиперссылок, сохраняя эти ссылки активными, когда они так же легко могли быть нарушены нестабильностью Интернета. Исследователи в Индии изучали эффективность способности Wayback Machine сохранять гиперссылки в онлайн-научных публикациях и обнаружили, что она сохранила чуть больше половины из них. [64]

«Журналисты используют Wayback Machine для просмотра мертвых веб-сайтов, датированных новостных сообщений и изменений в содержимом веб-сайтов. Его содержимое использовалось для привлечения политиков к ответственности и разоблачения лжи на поле боя». [65] В 2014 году на архивной странице в социальных сетях Игоря Гиркина , лидера сепаратистских повстанцев на Украине, было показано, как он хвастался тем, что его войска сбили предполагаемый украинский военный самолет, прежде чем стало известно, что самолет на самом деле был гражданским самолетом Malaysia Airlines ( рейс 17 Malaysia Airlines ), после чего он удалил пост и обвинил украинских военных в сбитии самолета. [65] [66] В 2017 году Марш за науку возник из обсуждения на Reddit , которое указывало на то, что кто-то посетил Archive.org и обнаружил, что все ссылки на изменение климата были удалены с веб-сайта Белого дома. В ответ пользователь прокомментировал: «Необходимо провести Марш ученых на Вашингтон». [67] [68] [69]

Кроме того, сайт активно используется для проверки, предоставления доступа к ссылкам и созданию контента редакторами Википедии . [70] Когда в Википедию добавляются новые URL-адреса, Архив Интернета архивирует их. [70]

В сентябре 2020 года было объявлено о партнерстве с Cloudflare по автоматическому архивированию веб-сайтов, обслуживаемых через его сервис «Always Online», что также позволит ему направлять пользователей на свою копию сайта, если он не может связаться с исходным хостом. [71]

Ограничения

В 2014 году существовала задержка в шесть месяцев между тем, когда веб-сайт был просканирован, и тем, когда он стал доступен для просмотра в Wayback Machine. [72] По состоянию на 2024 год задержка составляет от 3 до 10 часов. [27] Wayback Machine предлагает только ограниченные возможности поиска. Его функция «Поиск по сайту» позволяет пользователям находить сайт на основе слов, описывающих сайт, а не слов, найденных на самих веб-страницах. [73]

Wayback Machine не включает в себя каждую когда-либо созданную веб-страницу из-за ограничений своего веб-сканера. Wayback Machine не может полностью архивировать веб-страницы, содержащие интерактивные функции, такие как платформы Flash и формы, написанные на JavaScript, и прогрессивные веб-приложения , поскольку эти функции требуют взаимодействия с хост-сайтом. Это означает, что примерно с 9 июля 2013 года Wayback Machine не может отображать комментарии YouTube при сохранении страниц просмотра видео, поскольку, по словам команды архива, комментарии больше не «загружаются внутри самой страницы». [74] Веб-сканер Wayback Machine испытывает трудности с извлечением чего-либо, не закодированного в HTML или одном из его вариантов, что часто может приводить к неработающим гиперссылкам и отсутствующим изображениям. Из-за этого веб-сканер не может архивировать «страницы-сироты», на которые не ссылаются другие страницы. [73] [75] Сканер Wayback Machine следует только по заранее определенному количеству гиперссылок на основе предварительно установленного предела глубины, поэтому он не может архивировать каждую гиперссылку на каждой странице. [26]

В качестве юридического доказательства

Гражданский судебный процесс

Netbula LLC против Chordiant Software Inc.

В деле 2009 года Netbula, LLC против Chordiant Software Inc. ответчик Chordiant подал ходатайство с требованием обязать Netbula отключить файл robots.txt на своем веб-сайте, из-за которого Wayback Machine задним числом закрывал доступ к предыдущим версиям страниц, которые он заархивировал с сайта Netbula, страницы, которые, по мнению Chordiant, подтвердят его позицию. [76]

Netbula возражала против ходатайства на том основании, что ответчики просили изменить веб-сайт Netbula и что они должны были напрямую запросить у Internet Archive повестку для получения страниц. [77] Сотрудник Internet Archive подал заявление под присягой в поддержку ходатайства Chordiant, однако, заявив, что он не мог создать веб-страницы другими способами «без значительного бремени, расходов и сбоев в своей работе». [76]

Мировой судья Говард Ллойд в Северном округе Калифорнии, подразделение Сан-Хосе, отклонил доводы Netbula и приказал им временно отключить блокировку robots.txt, чтобы позволить Chordiant получить заархивированные страницы, которые они искали. [76]

Telewizja Polska USA, Inc. против Echostar Satellite

В октябре 2004 года в деле Telewizja Polska USA, Inc. против Echostar Satellite , № 02 C 3293, 65 Fed. R. Evid. Serv. 673 (ND Ill. 15 октября 2004 г.), истец попытался использовать архивы Wayback Machine в качестве источника допустимых доказательств, возможно, впервые. Telewizja Polska является провайдером TVP Polonia , а EchoStar управляет Dish Network . До начала судебного разбирательства EchoStar указала, что намерена предложить снимки Wayback Machine в качестве доказательства прошлого контента веб-сайта Telewizja Polska. Telewizja Polska подала ходатайство in limine об исключении снимков на основании слухов и неаутентифицированного источника, но мировой судья Арландер Киз отклонил утверждение Telewizja Polska о слухах и отклонил ходатайство TVP in limine об исключении доказательств в суде. [78] [79] Однако на суде судья окружного суда Рональд Гусман, судья первой инстанции, отменил выводы магистрата Киз и постановил, что ни заявление под присягой сотрудника Internet Archive, ни основные страницы (т. е. веб-сайт Telewizja Polska) не являются допустимыми в качестве доказательств. Судья Гусман рассудил, что заявление под присягой сотрудника содержало как слухи, так и неубедительные подтверждающие заявления, а предполагаемая веб-страница, распечатки не были самоудостоверяющими. [80] [81]

Патентное право

Патентное и торговое ведомство США и Европейское патентное ведомство принимают отметки даты из Архива Интернета в качестве доказательства того, когда данная веб-страница была доступна общественности. Эти даты используются для определения того, доступна ли веб-страница в качестве предшествующего уровня техники , например, при рассмотрении патентной заявки. [82]

Ограничения полезности

Существуют технические ограничения архивирования веб-сайта, и, как следствие, противоборствующие стороны в судебном разбирательстве могут неправильно использовать результаты, предоставленные архивами веб-сайтов. Эта проблема может усугубляться практикой предоставления скриншотов веб-страниц в жалобах, ответах или отчетах экспертов-свидетелей, когда базовые ссылки не раскрываются и, следовательно, могут содержать ошибки. Например, архивы, такие как Wayback Machine, не заполняют формы и, следовательно, не включают содержимое не- RESTful баз данных электронной коммерции в свои архивы. [83]

Правовой статус

В Европе Wayback Machine может быть истолкована как нарушающая законы об авторских правах . Только создатель контента может решать, где его контент будет опубликован или продублирован, поэтому Архиву придется удалять страницы из своей системы по запросу создателя. [84] Политики исключения для Wayback Machine можно найти в разделе FAQ на сайте. [85]

Несколько дел были возбуждены против Internet Archive конкретно в связи с его усилиями по архивированию Wayback Machine.

Правовые вопросы по архивному контенту

Саентология

В конце 2002 года Архив Интернета удалил из Wayback Machine различные сайты, критиковавшие Саентологию . [86] В сообщении об ошибке говорилось, что это было сделано в ответ на «запрос владельца сайта». [87] Позже выяснилось, что юристы Церкви Саентологии потребовали удаления, и что владельцы сайта не хотели, чтобы их материалы удалялись. [88]

Healthcare Advocates, Inc.

В 2003 году Harding Earley Follmer & Frailey защитили клиента от спора о товарном знаке с помощью Wayback Machine Архива. Адвокаты смогли продемонстрировать, что претензии истца были недействительными, основываясь на содержании их веб-сайта за несколько лет до этого. Затем истец, Healthcare Advocates, изменил свою жалобу, включив в нее Internet Archive, обвинив организацию в нарушении авторских прав, а также в нарушениях DMCA и Закона о компьютерном мошенничестве и злоупотреблении . Healthcare Advocates утверждали, что, поскольку они установили файл robots.txt на своем веб-сайте, даже если после подачи первоначального иска Архив должен был удалить все предыдущие копии веб-сайта истца с Wayback Machine, однако некоторые материалы продолжали быть общедоступными на Wayback. [89] Иск был урегулирован во внесудебном порядке после того, как Wayback устранил проблему. [90]

Сюзанна Шелл

Активистка Сюзанна Шелл подала иск в декабре 2005 года, требуя, чтобы Internet Archive выплатил ей 100 000 долларов США за архивирование ее сайта profane-justice.org в период с 1999 по 2004 год. [91] [92] Internet Archive подал декларативный иск в Окружной суд Соединенных Штатов по Северному округу Калифорнии 20 января 2006 года, добиваясь судебного определения того, что Internet Archive не нарушал авторские права Shell . Shell ответила и подала встречный иск против Internet Archive за архивирование ее сайта, которое, как она утверждает, является нарушением ее условий обслуживания . [93] 13 февраля 2007 года судья Окружного суда Соединенных Штатов по округу Колорадо отклонил все встречные иски, за исключением нарушения контракта . [92] Internet Archive не предпринял никаких действий, чтобы отклонить иски о нарушении авторских прав , выдвинутые Shell в связи с ее деятельностью по копированию, которые также будут рассмотрены. [94]

25 апреля 2007 года Internet Archive и Suzanne Shell совместно объявили об урегулировании своего иска. [91] Internet Archive заявил, что он "...не заинтересован во включении в Wayback Machine материалов лиц, которые не желают, чтобы их веб-контент был заархивирован. Мы признаем, что г-жа Шелл имеет действительные и подлежащие исполнению авторские права на свой веб-сайт, и мы сожалеем, что включение ее веб-сайта в Wayback Machine привело к этому судебному разбирательству". Shell заявила: "Я уважаю историческую ценность цели Internet Archive. Я никогда не намеревалась мешать этой цели или причинять ей какой-либо вред". [95]

Даниэль Давыдюк

В период с 2013 по 2016 год порноактёр по имени Дэниел Давыдюк пытался удалить свои архивные изображения из архива Wayback Machine, сначала отправив несколько запросов DMCA в архив, а затем обратившись в Федеральный суд Канады . [96] [97] [98] Изображения были удалены с сайта в 2017 году.

FlexiSpy

В 2018 году архивы сайта сталкерского приложения FlexiSpy были удалены с Wayback Machine. Компания заявила, что связалась с Internet Archive, предположительно, чтобы удалить архивы своего сайта. [99]

Цензура и другие угрозы

Archive.org заблокирован в Китае . [100] [101] [102] Internet Archive был полностью заблокирован в России в 2015–2016 годах, якобы за размещение видеоролика о джихаде. [65] [103] [104] С 2016 года сайт снова стал доступен полностью, хотя в 2016 году российские коммерческие лоббисты подали в суд на Internet Archive, чтобы запретить его на основании авторских прав. [105]

В марте 2015 года было опубликовано сообщение о том, что исследователи в области безопасности узнали об угрозе, которую представляет собой непреднамеренное размещение на сервисе вредоносных двоичных файлов с архивных сайтов. [106] [107]

Элисон Макрина , директор проекта Library Freedom Project , отмечает, что «хотя библиотекари глубоко ценят частную жизнь, мы также решительно выступаем против цензуры». [65]

Есть по крайней мере один случай, когда статья была удалена из архива вскоре после того, как она была удалена с ее оригинального сайта. Репортер Daily Beast написал статью, которая раскрыла нескольких спортсменов-геев-олимпийцев в 2016 году после того, как он создал фейковый профиль, выдавая себя за гея в приложении для знакомств. Daily Beast удалил статью после того, как она вызвала всеобщий фурор; вскоре после этого Internet Archive сделал то же самое, но решительно заявил, что они сделали это только для защиты безопасности раскрытых спортсменов. [65]

Другие угрозы включают стихийные бедствия, [108] разрушение (как удаленное, так и физическое), [109] манипуляцию содержимым архива, проблемные законы об авторских правах, [110] и слежку за пользователями сайта. [111]

Александр Роуз, исполнительный директор Long Now Foundation , подозревает, что в долгосрочной перспективе нескольких поколений «почти ничего» не выживет в полезном виде, заявляя: «Если у нас будет преемственность в нашей технологической цивилизации, я подозреваю, что многие из голых данных останутся доступными для поиска и поиска. Но я подозреваю, что почти ничего из формата, в котором они были предоставлены, не будет узнаваемо», потому что сайты «с глубокими бэкэндами систем управления контентом, такими как Drupal, Ruby и Django» сложнее архивировать. [112]

В 2016 году в статье, посвященной сохранению человеческих знаний, The Atlantic прокомментировал, что Интернет-архив, который, по его словам, создан на долгосрочную перспективу, [113] «яростно работает над сбором данных, прежде чем они исчезнут, не имея при этом какой-либо долгосрочной инфраструктуры, о которой можно было бы говорить». [114]

Смотрите также

Ссылки

  1. ^ Онг, Туй (9 августа 2017 г.). «Wayback Machine заблокирован в Индии». The Verge .
  2. ^ Kahle, Brewster (23 ноября 2005 г.). «Универсальный доступ ко всем знаниям». Архив Интернета . Архивировано из оригинала 14 августа 2022 г. Получено 5 июня 2022 г.
  3. ^ ab "Internet Archive: Wayback Machine". web.archive.org . Архивировано из оригинала 13 марта 2023 г.Текущее количество архивированных страниц можно увидеть на домашней странице архива.
  4. ^ ab Kahle, Brewster. "Послание основателя Архива Интернета Брюстера Кейла". Архив Интернета . Получено 10 января 2024 г.
  5. ^ PepsiCo , Inc. (10 мая 1996 г.). "PepsiCo Home Page". Архив Интернета / Wayback Machine . Архивировано из оригинала 10 мая 1996 г. Получено 8 октября 2022 г.
  6. ^ "Wayback Machine General Information". Архив Интернета . Архивировано из оригинала 5 декабря 2019 года . Получено 2 марта 2021 года .
  7. ^ "WayBackMachine.org WHOIS, DNS, & Domain Info – DomainTools". WHOIS . Архивировано из оригинала 14 мая 2020 г. Получено 13 марта 2016 г.
  8. ^ "InternetArchive.org WHOIS, DNS, & Domain Info – DomainTools". WHOIS . Архивировано из оригинала 12 мая 2020 г. Получено 13 марта 2016 г.
  9. Notess, Greg R. (март–апрель 2002 г.). «The Wayback Machine: The Web's Archive». Онлайн . 26 : 59–61. INIST 13517724. 
  10. ^ "The Wayback Machine", Часто задаваемые вопросы , архивировано из оригинала 18 сентября 2018 г. , извлечено 18 сентября 2018 г.
  11. ^ ab "20,000 жестких дисков на задании". Internet Archive Blogs . 25 октября 2016 г. Архивировано из оригинала 20 октября 2018 г. Получено 15 октября 2018 г.
  12. Грин, Хизер (28 февраля 2002 г.). «Библиотека размером с мир». BusinessWeek . Архивировано из оригинала 20 декабря 2011 г.
  13. Тонг, Джуди (8 сентября 2002 г.). «Ответственная сторона – Брюстер Кейл; Библиотека Интернета, в Интернете». The New York Times . Архивировано из оригинала 20 февраля 2011 г. Получено 15 августа 2011 г.
  14. ^ Кит Скотт (2000). Лось, который ревел: История Джея Уорда, Билла Скотта, белки-летяги и говорящего лося . St. Martin's Press . ISBN 0-312-19922-8 
  15. Кук, Джон (1 ноября 2001 г.). «Веб-сайт переносит вас в историю Интернета». Seattle Post-Intelligencer . Архивировано из оригинала 12 августа 2014 г. Получено 15 августа 2011 г.
  16. Mayfield, Kendra (28 октября 2001 г.). «Wayback Goes Way Back on Web». Wired . Архивировано из оригинала 16 октября 2017 г. Получено 16 октября 2017 г.
  17. ^ abc Arora, Sanjay K.; Li, Yin; Youtie, Jan; Shapira, Philip (5 мая 2015 г.). «Использование wayback machine для поиска на веб-сайтах по социальным наукам: методологический ресурс». Журнал Ассоциации информационной науки и технологий . 67 (8): 1904–1915. doi : 10.1002/asi.23503 . ISSN  2330-1635.
  18. ^ abcdefgh Leetaru, Kalev (28 января 2016 г.). «The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web» . Forbes . Архивировано из оригинала 16 октября 2017 г. . Получено 16 октября 2017 г. .
  19. ^ "Internet Archive: Wayback Machine". Архив Интернета . Архивировано из оригинала 3 января 2014 года . Получено 15 октября 2018 года .
  20. ^ Грэм, Марк (30 октября 2020 г.). «Проверка фактов и контекст для страниц Wayback Machine». Блоги Internet Archive . Получено 17 января 2021 г.
  21. ^ Попытки «сохранить страницу сейчас» для таких доменов, как tpc.googlesyndication.com или s0.2mdn.net или atdmt.com или adbrite.com, приводят к выводу «Этот URL-адрес находится в нашем списке заблокированных и не может быть перехвачен».
  22. ^ "25-я годовщина интернет-архива – всеобщий доступ ко всем знаниям" . Получено 13 января 2022 г.
  23. ^ "Wayforward Machine • Посетите будущее интернета". Way Forward Machine . Получено 13 января 2022 г. .
  24. ^ Кейл, Брюстер. «Архивирование Интернета». Scientific American – выпуск за март 1997 г. Архивировано из оригинала 3 апреля 2012 г. Получено 19 августа 2011 г.
  25. ^ Каплан, Джефф (27 октября 2014 г.). «Archive-It: Crawling the Web Together». Internet Archive Blogs . Архивировано из оригинала 12 октября 2017 г. Получено 16 октября 2017 г.
  26. ^ ab "Worldwide Web Crawls". Архив Интернета. Архивировано из оригинала 19 октября 2017 г. Получено 16 октября 2017 г.
  27. ^ abc "Using The Wayback Machine". Архив Интернета . Получено 25 сентября 2024 г.
  28. ^ "Wide Crawl Number 13". Архив Интернета. Архивировано из оригинала 19 октября 2017 года . Получено 16 октября 2017 года .
  29. ^ "Too Many Requests". Internet Archive. November 10, 2019. Retrieved November 27, 2021.
  30. ^ "Petabox". Internet Archive. Retrieved October 25, 2018.
  31. ^ Kanellos, Michael (July 29, 2005). "Big storage on the cheap". CNET News. Archived from the original on April 3, 2007. Retrieved July 29, 2007.
  32. ^ "Internet Archive and Sun Microsystems Create Living History of the Internet". Sun Microsystems. March 25, 2009. Archived from the original on March 26, 2009. Retrieved March 27, 2009.
  33. ^ Mearian, Lucas (March 19, 2009). "Internet Archive to unveil massive Wayback Machine data center". Computerworld. Archived from the original on March 23, 2009. Retrieved March 22, 2009.
  34. ^ gojomo (January 24, 2011). "Updated Wayback Machine in Beta Testing". Archived from the original on August 23, 2011. Retrieved August 19, 2011.
  35. ^ "Advanced Search". Wayback Machine. Archived from the original on January 31, 2010. Retrieved April 3, 2022.
  36. ^ "What's the difference between the classic Wayback Machine and the new Beta version?". Archived from the original on December 25, 2010. Retrieved November 17, 2021.
  37. ^ "Beta Wayback Machine, in forum". Archived from the original on April 17, 2014. Retrieved April 16, 2014.
  38. ^ "Internet Archive Forums: 6th pair of racks go into service: over 2PB of data space used". Internet Archive. Archived from the original on October 24, 2016. Retrieved October 25, 2018.
  39. ^ "Wayback Machine: Now with 240,000,000,000 URLs | Internet Archive Blogs". January 9, 2013. Archived from the original on April 14, 2014. Retrieved April 16, 2014.
  40. ^ Rossi, Alexis (October 25, 2013). "Fixing Broken Links on the Internet". Internet Archive. San Francisco, CA, US: Collections Team, the Internet Archive. Archived from the original on November 7, 2014. Retrieved March 25, 2015. We have added the ability to archive a page instantly and get back a permanent URL for that page in the Wayback Machine. This service allows anyone – wikipedia editors, scholars, legal professionals, students, or home cooks like me – to create a stable URL to cite, share or bookmark any information they want to still have access to in the future.
  41. ^ Baron, Alexander (October 23, 2013). "The new Internet Archive Wayback Machine now online". Digital Journal. Archived from the original on November 19, 2020. Retrieved November 19, 2020.
  42. ^ "Internet Archive Frequently Asked Questions". Archived from the original on October 21, 2009. Retrieved January 17, 2015.
  43. ^ "Internet Archive Frequently Asked Questions". December 18, 2014. Archived from the original on December 18, 2014. Retrieved December 13, 2018.
  44. ^ "Can the manipulation of big data change the way the world thinks?". The National. Archived from the original on January 12, 2017. Retrieved May 14, 2017.
  45. ^ Crockett, Zachary (September 28, 2018). "Inside Wayback Machine, the internet's time capsule". The Hustle. Archived from the original on October 2, 2018. Retrieved October 26, 2018.
  46. ^ Heffernan, Virginia (September 18, 2018). "Things Break and Decay on the Internet—That's a Good Thing". WIRED. Archived from the original on September 25, 2018. Retrieved October 26, 2018.
  47. ^ "Donate to the Internet Archive: Digital Library of Free & Borrowable Books, Movies, Music & Wayback Machine @internetarchive". adafruit. December 1, 2020. Archived from the original on December 2, 2020. Retrieved December 2, 2020.
  48. ^ michelle (May 9, 2014). "Wayback Machine Hits 400,000,000,000!". Internet Archive. Archived from the original on August 26, 2014. Retrieved March 25, 2015.
  49. ^ "Internet Archive". Internet Archive. Archived from the original on December 31, 2020. Retrieved March 8, 2021.
  50. ^ "Wayback Machine APIs". Internet Archive.
  51. ^ waybackpy on GitHub
  52. ^ "Developers". Internet Archive Blogs. August 22, 2014. Archived from the original on February 12, 2024.
  53. ^ Gonzalez, John (December 13, 2018). "Documentation for Public APIs at the Internet Archive". Internet Archive Blogs. Archived from the original on January 13, 2024.
  54. ^ "FAQs – Some sites are not available because of Robots.txt or other exclusions. What does that mean?". Internet Archive Wayback Machine. Archived from the original on April 15, 2011.
  55. ^ "Frequently Asked Questions". Internet Archive. Archived from the original on April 17, 2014.
  56. ^ Cox, Joseph (May 22, 2018). "The Wayback Machine Is Deleting Evidence of Malware Sold to Stalkers". Vice. Archived from the original on May 22, 2018. Retrieved May 23, 2018.
  57. ^ "Robots.txt meant for search engines don't work well for web archives". Internet Archive. April 17, 2017. Retrieved June 29, 2019.
  58. ^ "Recommendations for Managing Removal Requests And Preserving Archival Integrity". University of California. December 14, 2002. Archived from the original on September 18, 2017. Retrieved September 14, 2017.
  59. ^ "Retroactive robots.txt removal of past crawls AKA Oakland Archive Policy". Internet Archive. July 7, 2014. Archived from the original on October 10, 2017. Retrieved September 14, 2017.
  60. ^ Graham, Mark (April 17, 2017). "Robots.txt meant for search engines don't work well for web archives". Internet Archive Blogs. Archived from the original on April 17, 2017. Retrieved April 16, 2017.
  61. ^ "Archivierung des Internets: Internet Archive ignoriert künftig robots.txt" (in German). heise online. April 25, 2017. Archived from the original on April 27, 2017. Retrieved May 14, 2017.
  62. ^ "Suchmaschinen: Internet Archive will künftig Robots.txt-Einträge ignorieren – Golem.de" (in German). Archived from the original on June 19, 2017. Retrieved May 14, 2017.
  63. ^ «Интернет-архив будет игнорировать файлы robots.txt для сохранения точности исторических записей». Digital Trends . 24 апреля 2017 г. Архивировано из оригинала 16 мая 2017 г. Получено 14 мая 2017 г.
  64. ^ Сампат Кумар, BT; Притхвирадж, KR (21 октября 2014 г.). «Возвращение жизни мертвым: роль Wayback Machine в извлечении исчезнувших URL-адресов». Журнал информационной науки . 41 (1): 71–81. doi :10.1177/0165551514552752. ISSN  0165-5515. S2CID  28320982.
  65. ^ abcde Нельсон, Стивен (17 августа 2016 г.). «Wayback Machine не будет подвергать архив цензуре из-за вкуса, заявил директор после удаления статьи об Олимпиаде». US News & World Report . Архивировано из оригинала 6 января 2017 г. Получено 14 мая 2017 г.
  66. ^ Лепор, Джилл (26 января 2015 г.). «Что сказал вчера Интернет» . The New Yorker . Архивировано из оригинала 25 января 2015 г. Получено 14 мая 2017 г.
  67. ^ Гуарино, Бен (21 апреля 2017 г.). «Марш за науку начался с „броска“ этого человека на Reddit». Washington Post . Архивировано из оригинала 23 апреля 2017 г. Получено 23 апреля 2017 г.
  68. ^ Каплан, Сара (25 января 2017 г.). «Ученые собираются маршировать на Вашингтон?» . The Washington Post . Архивировано из оригинала 31 января 2017 г. Получено 31 января 2017 г.
  69. Фоли, Кэтрин Эллен (22 апреля 2017 г.). «Глобальный марш за науку начался с одной ветки Reddit». Quartz . Архивировано из оригинала 24 апреля 2017 г. Получено 23 апреля 2017 г.
  70. ^ ab Graham, Mark (1 октября 2018 г.). «Более 9 миллионов неработающих ссылок в Википедии теперь восстановлены». Internet Archive Blogs . Архивировано из оригинала 8 апреля 2023 г.
  71. ^ Грэм, Марк (17 сентября 2020 г.). «Cloudflare и Wayback Machine, объединяя усилия для более надежного Интернета». Архив блогов Интернета . Получено 17 сентября 2020 г.
  72. ^ "Internet Archive Frequently Asked Questions". Архив Интернета . 2 апреля 2014 г. Архивировано из оригинала 2 апреля 2014 г. Получено 23 ноября 2018 г.
  73. ^ ab Bates, Mary Ellen (2002). "The Wayback Machine". Онлайн . 26 : 80.
  74. ^ "YouTube – Archiveteam". archiveteam.org . Архивировано из оригинала 5 августа 2020 г. . Получено 6 августа 2020 г. .
  75. ^ "Internet Archive Frequently Asked Questions". Архив Интернета . Архивировано из оригинала 20 апреля 2013 года . Получено 18 октября 2018 года .
  76. ^ abc Ллойд, Говард (октябрь 2009 г.). «Order to Disable Robots.txt» (PDF) . Архивировано из оригинала (PDF) 8 августа 2019 г. . Получено 15 октября 2009 г. .
  77. ^ Кортес, Антонио (октябрь 2009 г.). «Движение против удаления Robots.txt». Архивировано из оригинала 27 октября 2010 г. Получено 15 октября 2009 г.
  78. ^ Гельман, Лорен (17 ноября 2004 г.). «Снимки веб-страниц интернет-архива признаны допустимыми в качестве доказательств». Пакеты . 2 (3). Архивировано из оригинала 30 апреля 2011 г. Получено 4 января 2007 г.
  79. ^ Howell, Beryl A. (февраль 2006 г.). «Proving Web History: How to use the Internet Archive» (PDF) . Journal of Internet Law : 3–9. Архивировано из оригинала (PDF) 5 июля 2010 г. . Получено 6 августа 2008 г. .
  80. ^ "Поиск доказательств в виртуальных местах. Допустимость доказательств в Интернете". Архивировано из оригинала 1 июля 2019 г. Получено 14 июня 2020 г.
  81. ^ Левитт, Кэрол А.; Рош, Марк Э. (2010). Находите информацию как профессионал: добыча общедоступных ресурсов Интернета для проведения расследований, Том 1. Американская ассоциация юристов. С. 194–196. ISBN 978-1-60442-890-2. Архивировано из оригинала 18 декабря 2020 г. . Получено 14 июня 2020 г. .
  82. ^ Coggins, Wynn W. (осень 2002 г.). «Уровень техники в области патентов на бизнес-методы — когда электронный документ является печатной публикацией для целей уровня техники?». USPTO . Архивировано из оригинала 21 сентября 2012 г. Получено 15 августа 2012 г.
  83. ^ "Разоблачение Wayback Machine". Архивировано из оригинала 29 июня 2010 г.
  84. ^ Бахр, Мартин (2002). «The Wayback Machine и Google Cache – eine Verletzung deutschen Urheberrechts?». JurPC (на немецком языке): 9. doi : 10.7328/jurpcb/20021719. Архивировано из оригинала 23 августа 2009 года.
  85. ^ "Internet Archive FAQ". Архивировано из оригинала 17 апреля 2014 г. Получено 16 апреля 2014 г.
  86. Боуман, Лиза М. (24 сентября 2002 г.). «Сетевой архив заставляет критика Саентологии замолчать». Новости CNET. Архивировано из оригинала 15 мая 2012 г. Получено 4 января 2007 г.
  87. ^ Джефф (23 сентября 2002 г.). "исключения из Wayback Machine" (блог) . Форум Wayback Machine . Архив Интернета. Архивировано из оригинала 11 февраля 2007 г. Получено 4 января 2007 г. Автор и дата указывают на начало темы форума .
  88. ^ Миллер, Эрнест. «Шерман, задай вопрос о машине пути назад для саентологии». LawMeme . Юридическая школа Йельского университета. Архивировано из оригинала (Блог) 16 ноября 2012 г. Получено 4 января 2007 г.
  89. ^ Дай, Джессика (2005). «Веб-сайту предъявлен иск за спорное путешествие в прошлое Интернета». EContent . 28. 11 : 8–9.
  90. Bangeman, Eric (31 августа 2006 г.). «Internet Archive Settles Suit Over Wayback Machine». Ars Technica . Архивировано из оригинала 5 ноября 2007 г. Получено 29 ноября 2007 г.
  91. ^ ab Internet Archive v. Shell , 505 F.Supp.2d 755 на justia.com, 1:2006cv01726 ( Окружной суд Колорадо , 31 августа 2006 г.) («'25 апреля 2007 г. объявлено о соглашении об урегулировании.' Подача 65, 30.04.2007: '...поэтому ПОСТАНОВЛЕНО, что это дело должно быть ОТКЛОНЕНО С ПРЕДУБЕЖДЕНИЕМ...'»).
  92. ^ ab Babcock, Lewis T. (13 февраля 2007 г.). "Internet Archive v. Shell Civil Action No. 06cv01726LTBCBS" (PDF) . Архивировано (PDF) из оригинала 25 января 2014 г. . Получено 25 марта 2015 г. . 1) Ходатайство Internet Archive об отклонении встречного иска Shell о конверсии и гражданском воровстве (вторая причина иска) УДОВЛЕТВОРЕНО, 2) Ходатайство Internet Archive об отклонении встречного иска Shell о нарушении контракта (третья причина иска) ОТКЛОНЕНО; 3) Ходатайство Internet Archive об отклонении встречного иска Shell о рэкете в соответствии с RICO и COCCA (четвертая причина иска) УДОВЛЕТВОРЕНО.
  93. ^ Claburn, Thomas (March 16, 2007). "Colorado Woman Sues To Hold Web Crawlers To Contracts". New York, New York, US: InformationWeek, UBM Tech, UBM LLC. Archived from the original on September 4, 2014. Retrieved March 25, 2015. Computers can enter into contracts on behalf of people. The Uniform Electronic Transactions Act (UETA) says that a 'contract may be formed by the interaction of electronic agents of the parties, even if no individual was aware of or reviewed the electronic agents' actions or the resulting terms and agreements.'
  94. ^ Samson, Martin H. (2007). "Internet Archive v. Suzanne Shell". Internet Library of Law and Court Decisions. Archived from the original on August 3, 2014. Retrieved March 25, 2015. More importantly, held the court, Internet Archive's mere copying of Shell's site, and display thereof in its database, did not constitute the requisite exercise of dominion and control over defendant's property. Importantly, noted the court, the defendant at all times owned and operated her own site. Said the Court: 'Shell has failed to allege facts showing that Internet Archive exercised dominion or control over her website, since Shell's complaint states explicitly that she continued to own and operate the website while it was archived on the Wayback machine. Shell identifies no authority supporting the notion that copying documents is by itself enough of a deprivation of use to support conversion. Conversely, numerous circuits have determined that it is not.'
  95. ^ brewster (April 25, 2007). "Internet Archive and Suzanne Shell Settle Lawsuit". Internet Archive. Denver, CO, US. Archived from the original on December 5, 2010. Retrieved March 25, 2015. Both parties sincerely regret any turmoil that the lawsuit may have caused for the other. Neither Internet Archive nor Ms. Shell condones any conduct which may have caused harm to either party arising out of the public attention to this lawsuit. The parties have not engaged in such conduct and request that the public response to the amicable resolution of this litigation be consistent with their wishes that no further harm or turmoil be caused to either party.
  96. ^ Stobbe, Richard (December 5, 2014). "Copyright Implications Of A "Right To Be Forgotten"? Or How To Take-Down The Internet Archive". Mondaq. Archived from the original on November 18, 2018. Retrieved March 8, 2019.
  97. ^ McVeigh, Glennys (October 16, 2014). Philpott, James; Weissman, Adam; Bucholz, Ren; Kettles, Brent; Pearl, Aaron (eds.). "Davydiuk v. Internet Archive Canada, 2014 FC 944". CanLII. Federation of Law Societies of Canada. Archived from the original on December 18, 2020. Retrieved March 8, 2019.
  98. ^ Southcott, Richard F. (November 30, 2016). Philpott, John; Alton, Alex; Bucholz, Ren (eds.). "Davydiuk v. Internet Archive Canada and Internet Archive, 2016 FC 1313 (CanLII)". CanLII. Ottawa, Ontario: Federation of Law Societies of Canada. Archived from the original on June 29, 2019. Retrieved March 8, 2019.
  99. ^ Cox, Joseph (May 22, 2018). "The Wayback Machine Is Deleting Evidence of Malware Sold to Stalkers". Vice. Archived from the original on January 24, 2022. Retrieved January 24, 2022.
  100. ^ Conger, Kate. "Backing up the history of the internet in Canada to save it from Trump". TechCrunch. Archived from the original on December 27, 2016. Retrieved May 14, 2017.
  101. ^ "Where to find what's disappeared online, and a whole lot more: the Internet Archive". Public Radio International. February 23, 2017. Archived from the original on March 28, 2017. Retrieved May 14, 2017.
  102. ^ "Online Censorship In China". GreatFire. October 22, 2023. Retrieved October 22, 2023.
  103. ^ Chirgwin, Richard. "There's no Wayback in Russia: Putin blocks Archive.org". The Register. Archived from the original on October 7, 2016. Retrieved May 14, 2017.
  104. ^ "Russia won't go Wayback, blocks the Internet Archive". Digital Trends. June 26, 2015. Archived from the original on April 17, 2016. Retrieved May 14, 2017.
  105. ^ "В России разблокирован крупнейший интернет-архив". Российская газета (in Russian). April 18, 2016. Archived from the original on April 5, 2019. Retrieved October 18, 2020.
  106. ^ The VirusTotal Team (March 25, 2015). "207.241.226.190 IP address information". virustotal.com. Dublin, Ireland: VirusTotal. Archived from the original on July 14, 2014. Retrieved March 25, 2015. 2015-03-25: Latest URLs hosted in this IP address detected by at least one URL scanner or malicious URL dataset. ... 2/62 2015-03-25 16:14:12 [complete URL redacted]/Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [complete URL redacted]/CBLightSetup.exe
  107. ^ "Safe Browsing Diagnostic page for archive.org". google.com/safebrowsing. Mountain View, CA, US. March 25, 2015. Archived from the original on April 6, 2015. Retrieved March 25, 2015. 2015-03-25: Part of this site was listed for suspicious activity 138 time(s) over the past 90 days. ... What happened when Google visited this site? ... Of the 42410 pages we tested on the site over the past 90 days, 450 page(s) resulted in malicious software being downloaded and installed without user consent. The last time Google visited this site was on 2015-03-25, and the last time suspicious content was found on this site was on 2015-03-25. ... Malicious software includes 169 trojan(s), 126 virus, 43 backdoor(s).
  108. ^ "Help Us Keep the Archive Free, Accessible, and Reader Private | Internet Archive Blogs". November 29, 2016. Archived from the original on May 21, 2017. Retrieved May 14, 2017.
  109. ^ Sakr, Sharif (November 7, 2013). "Wayback Machine web archive survives destructive fire but needs help to recover". Archived from the original on November 9, 2020. Retrieved April 3, 2022.
  110. ^ "Internet Archive: Proposed Changes To DMCA Would Make Us "Censor The Web"". Consumerist. June 7, 2016. Archived from the original on November 11, 2016. Retrieved May 14, 2017.
  111. ^ Herb, Ulrich (December 6, 2016). "Die Trump-Angst grassiert" [The Trump fear is rampant] (in German). heise online. Archived from the original on December 7, 2016. Retrieved May 14, 2017. Die Betreiber des Archives fürchten neben Zensur und Manipulation der digitalen Aufzeichnungen demnach auch die Überwachung der Archive-Nutzer. [The operators of the archive fear not only censorship and manipulation of the digital recordings, but also the surveillance of the archive users].
  112. ^ LaFrance, Adrienne (14 октября 2015 г.). «Темные века Интернета». The Atlantic . Архивировано из оригинала 7 мая 2017 г. Получено 14 мая 2017 г.
  113. ^ «Весь Интернет будет архивирован в Канаде, чтобы защитить его от Трампа». Motherboard. 29 ноября 2016 г. Архивировано из оригинала 16 мая 2017 г. Получено 14 мая 2017 г.
  114. ^ LaFrance, Adrienne (3 июня 2016 г.). «Человеческий страх перед тотальным знанием». The Atlantic . Архивировано из оригинала 2 декабря 2016 г. Получено 14 мая 2017 г.

Внешние ссылки