Internet Archive — американская некоммерческая организация, основанная в 1996 году Брюстером Кейлом , которая управляет веб-сайтом цифровой библиотеки archive.org. [2] [3] [4] Она предоставляет бесплатный доступ к коллекциям оцифрованных медиа, включая веб-сайты , программные приложения , музыку , аудиовизуальные и печатные материалы. Архив также выступает за свободный и открытый Интернет . Его миссия — обеспечить «всеобщий доступ ко всем знаниям». [5]
Архив Интернета позволяет общественности загружать и скачивать цифровые материалы в свой кластер данных, но основная часть его данных собирается автоматически его веб-краулерами , которые работают над сохранением как можно большей части публичной сети. Его веб-архив , Wayback Machine , содержит сотни миллиардов веб-захватов. [6] [7] Архив также курирует многочисленные проекты по оцифровке книг, которые в совокупности являются одними из крупнейших в мире усилий по оцифровке книг.
Брюстер Кейл основал Архив в мае 1996 года, примерно в то же время, когда он основал коммерческую компанию по веб-сканированию Alexa Internet . [8] [9] Самая ранняя известная архивная страница на сайте была сохранена 10 мая 1996 года в 14:42 UTC (7:42 утра PDT ). К октябрю того же года Архив Интернета начал архивировать и сохранять Всемирную паутину в больших объемах. [10] [11] [12] [13] [14] Архивированный контент стал более доступен широкой публике в 2001 году через Wayback Machine .
В конце 1999 года Архив расширил свои коллекции за пределы веб-архива, начав с Архива Прелингера . Теперь Интернет-архив включает тексты, аудио, движущиеся изображения и программное обеспечение . Он размещает ряд других проектов: Архив изображений NASA , службу поиска по контрактам Archive-It и вики-редактируемый библиотечный каталог и сайт с информацией о книгах Open Library . Вскоре после этого Архив начал работать над предоставлением специализированных услуг, связанных с потребностями в доступе к информации для лиц с ограниченными возможностями восприятия печатной информации; общедоступные книги стали доступны в защищенном формате Digital Accessible Information System (DAISY). [15]
Согласно информации на его веб-сайте: [16]
Большинство обществ придают большое значение сохранению артефактов своей культуры и наследия. Без таких артефактов цивилизация не имеет памяти и механизма, чтобы учиться на своих успехах и неудачах. Наша культура теперь производит все больше и больше артефактов в цифровой форме. Миссия Архива — помочь сохранить эти артефакты и создать интернет-библиотеку для исследователей, историков и ученых.
В августе 2012 года Архив объявил [17] , что он добавил BitTorrent к своим возможностям загрузки файлов для более чем 1,3 миллиона существующих файлов и всех новых загруженных файлов. [18] [19] Этот метод является самым быстрым способом загрузки медиафайлов из Архива, поскольку файлы обслуживаются двумя центрами обработки данных Архива, в дополнение к другим торрент-клиентам, которые загрузили и продолжают обслуживать файлы. [18] [20]
6 ноября 2013 года в штаб-квартире Архива Интернета в районе Ричмонд в Сан-Франциско произошел пожар, [21] уничтоживший оборудование и повредивший несколько близлежащих квартир. [22] По данным Архива, он потерял боковое здание, в котором размещался один из 30 его сканирующих центров; камеры, освещение и сканирующее оборудование стоимостью в сотни тысяч долларов; и «возможно, 20 коробок с книгами и пленками, некоторые из которых были незаменимы, большинство уже оцифрованы, а некоторые можно было заменить». [23] Некоммерческий Архив искал пожертвования для покрытия предполагаемого ущерба в размере 600 000 долларов. [24]
В ноябре 2014 года была запущена бета-версия обновленного сайта, а в марте 2016 года устаревший макет был удален. [25] [26]
В ноябре 2016 года Кейл объявил, что Internet Archive создает Internet Archive of Canada, копию Архива, которая будет базироваться где-то в Канаде . Объявление получило широкое освещение из-за подразумеваемого, что решение о создании резервного архива в чужой стране было принято из-за предстоящего президентства Дональда Трампа . [27] [28] [29]
Начиная с 2017 года OCLC и Архив Интернета объединили усилия, чтобы сделать записи Архива об оцифрованных книгах доступными в WorldCat . [30]
С 2018 года резиденция изобразительного искусства Архива Интернета, организованная Амиром Сабером Эсфахани и Эндрю МакКлинтоком, помогает художникам знакомиться с более чем 48 петабайтами [31] оцифрованных материалов Архива. В течение годичной резиденции художники создают корпус работ, кульминацией которых становится выставка. Надежда состоит в том, чтобы связать цифровую историю с искусством и создать что-то для будущих поколений, что они смогут оценить онлайн или офлайн. [32] Предыдущие художники в резиденции включают Тарават Талепасанд , Уитни Линн и Дженни Оделл . [33]
Архив Интернета приобретает большую часть материалов из пожертвований, [34] таких как сотни тысяч дисков на 78 об/мин из Бостонской публичной библиотеки в 2017 году, [35] пожертвование 250 000 книг из Университета Трента в 2018 году, [36] и вся коллекция библиотеки колледжа Мэригроув после ее закрытия в 2020 году. [37] Затем все материалы оцифровываются и сохраняются в цифровом хранилище, в то время как цифровая копия возвращается первоначальному владельцу, а копия Архива Интернета, если она не находится в общественном достоянии, предоставляется во временное пользование клиентам по всему миру по одной за раз в соответствии с теорией контролируемого цифрового кредитования (CDL) доктрины первой продажи . [38]
1 июня 2020 года четыре крупных издательства — Hachette Book Group , Penguin Random House , HarperCollins и John Wiley — подали иск против Internet Archive в Окружной суд Соединенных Штатов по Южному округу Нью-Йорка , утверждая, что практика контролируемого цифрового кредитования Internet Archive представляет собой нарушение авторских прав . 25 марта 2023 года суд вынес решение в пользу издателей. Согласованное решение от 11 августа 2023 года запретило Internet Archive выдавать в цифровом формате книги, электронные копии которых продаются.
Также 11 августа 2023 года гиганты музыкальной индустрии Universal Music Group , Sony Music и Concord (вместе со своими лейблами Capitol Records , Arista Records и CMGI Recorded Music Assets) подали в тот же Окружной суд США по Южному округу Нью-Йорка иск против Internet Archive по поводу проекта Great 78 , созданного Internet Archive, на возмещение ущерба в размере 621 миллиона долларов США за предполагаемое нарушение авторских прав. [39] [40] [41]
В сентябре 2024 года Google и Архив Интернета подписали партнерское соглашение, позволяющее людям видеть предыдущие версии веб-сайтов в поиске Google , использующем Wayback Machine, без привязки к кэшу Google . [42]
В течение недели с 27 мая 2024 года Интернет-архив подвергся серии распределенных атак типа «отказ в обслуживании» (DDoS), из-за которых его сервисы периодически, иногда на несколько часов, были недоступны в течение нескольких дней. [43] [44] [45] Ответственность за атаку взяла на себя 28 мая хакерская группа SN_BLACKMETA , [46] [47] возможно, связанная с Anonymous Sudan . [48] Инцидент сравнивают с кибератакой на Британскую библиотеку в 2023 году , которая затронула Веб-архив Великобритании . [49]
Начиная с 9 октября 2024 года команда Архива Интернета, включая архивиста Джейсона Скотта и исследователя безопасности Скотта Хельме, подтвердила DDoS-атаки, порчу сайта и утечку данных. Предполагаемая хактивистская группа SN_BLACKMETA снова взяла на себя ответственность. [50] Всплывающее окно на испорченном сайте утверждало, что произошло «катастрофическое» нарушение безопасности , заявляя: «Вы когда-нибудь чувствовали, что Архив Интернета работает на флешках и постоянно находится на грани катастрофического нарушения безопасности? Это только что произошло. Видите 31 миллион из вас на HIBP !» [51] [47] Сообщалось, что было затронуто около 31 миллиона учетных записей пользователей, которые были скомпрометированы в файле под названием «ia_users.sql» от 28 сентября 2024 года. [50] [52] Злоумышленники украли адреса электронной почты пользователей и хэшированные Bcrypt пароли. [53] По состоянию на 15 октября 2024 года веб-сайт по-прежнему был в основном отключен из-за «приоритета сохранения безопасности данных за счет доступности сервиса». [54] 11 октября Кахле заявил, что данные в безопасности и вернут сервис в нормальное состояние «через несколько дней, а не недель». [55] [56] [57] 13 октября Wayback Machine был восстановлен в формате «только для чтения», а архивирование веб-страниц было временно отключено. [58] 14 октября Брюстер Кахле заявил, что «объем [Wayback Machine] вернулся к нормальному состоянию: 1500 запросов в секунду». [59] 20 октября злоумышленники украли необработанные токены API и взломали Internet Archive на платформе поддержки электронной почты Zendesk ; они также взяли на себя ответственность за другие нарушения, но заявили, что SN_BLACKMETA стоял только за DDoS-атаками. [60] [61] 21 октября Internet Archive снова заработал в режиме «только чтение». [62] 22 октября все службы Internet Archive временно отключились, [63] [64] но позже в тот же день возобновили работу только Wayback Machine, Archive-It и blog.archive.org. [ необходима ссылка ] 23 октября archive.org, Wayback Machine, Archive-It и Open Library возобновили работу, но некоторые функции, такие как вход в систему, по-прежнему были недоступны, пока сотрудники не объявили о возобновлении работы в течение следующих дня или двух. [65]
Архив — это некоммерческая организация 501(c)(3), работающая в Соединенных Штатах. В 2019 году ее годовой бюджет составил 37 миллионов долларов, полученных из доходов от ее услуг веб-сканирования, различных партнерств, грантов, пожертвований и фонда Кейл-Остин . [66] Архив Интернета также управляет периодическими кампаниями по финансированию. Например, кампания в декабре 2019 года имела цель собрать 6 миллионов долларов пожертвований. [67] Он использует Ubuntu в качестве операционной системы для серверов веб-сайта. [68]
Штаб-квартира Архива находится в Сан-Франциско , Калифорния. С 1996 по 2009 год его штаб-квартира находилась в Пресидио Сан-Франциско , бывшей военной базе США. С 2009 года его штаб-квартира находится по адресу 300 Funston Avenue в Сан-Франциско, бывшей церкви Christian Science . В свое время большинство его сотрудников работали в его центрах сканирования книг ; по состоянию на 2019 год сканирование выполняется 100 оплачиваемыми операторами по всему миру. [69] Архив также имеет центры обработки данных в трех городах Калифорнии: Сан-Франциско, Редвуд-Сити и Ричмонде . Чтобы снизить риск потери данных, Архив создает копии частей своей коллекции в более отдаленных местах, включая Александрийскую библиотеку [70] [71] в Египте и объект в Амстердаме . [72]
Архив является членом Международного консорциума по сохранению информации в Интернете [73] и был официально признан библиотекой штатом Калифорния в 2007 году. [74] [75]
Wayback Machine — это сервис, позволяющий осуществлять поиск и доступ к архивам Всемирной паутины. [76] Его можно использовать для просмотра того, как выглядели предыдущие версии веб-сайтов, или для посещения веб-сайтов, которые больше не существуют. Wayback Machine был создан совместными усилиями Alexa Internet (принадлежит Amazon.com ) и Internet Archive. [77] Сотни миллиардов веб-сайтов и связанных с ними данных (изображения, исходный код, документы и т. д.) хранятся в базе данных. По состоянию на 5 сентября 2024 года [обновлять]Internet Archive содержал более 866 миллиардов веб-страниц, более 42,5 миллионов печатных материалов, 13 миллионов видео, 3 миллиона телевизионных новостей, 1,2 миллиона программ, 14 миллионов аудиофайлов, 5 миллионов изображений и 272 660 концертов в своей Wayback Machine. [5]
Archive-It [78] , созданный в начале 2006 года, представляет собой подписной сервис веб-архивирования, который позволяет учреждениям и частным лицам создавать и сохранять коллекции цифрового контента и создавать цифровые архивы. Archive-It позволяет пользователю настраивать захват или исключение веб-контента, который он хочет сохранить по причинам культурного наследия. Через веб-приложение партнеры Archive-It могут собирать, каталогизировать, управлять, просматривать, искать и просматривать свои архивные коллекции. [79]
С точки зрения доступности, архивированные веб-сайты доступны для полнотекстового поиска в течение семи дней с момента захвата. [80] Контент, собранный через Archive-It, захватывается и сохраняется в виде файла WARC . Основная и резервная копии хранятся в центрах обработки данных Internet Archive. Копия файла WARC может быть предоставлена партнерским учреждениям-подписчикам для геоизбыточного сохранения и хранения в соответствии с их передовыми стандартами. [81] Периодически данные, собранные через Archive-It, индексируются в общем архиве Internet Archive.
По состоянию на март 2014 года [обновлять]Archive-It имел более 275 учреждений-партнеров в 46 штатах США и 16 странах, которые собрали более 7,4 млрд URL-адресов для более чем 2444 публичных коллекций. [ требуется ссылка ] Партнерами Archive-It являются университеты и библиотеки колледжей, государственные архивы, федеральные учреждения, музеи, юридические библиотеки и культурные организации, включая Организацию электронной литературы , Архивы и библиотеку штата Северная Каролина, Стэнфордский университет , Колумбийский университет , Американский университет в Каире , Юридическую библиотеку Джорджтауна и многие другие. [ требуется ссылка ]
В сентябре 2020 года Internet Archive объявил о новой инициативе по архивированию и сохранению академических журналов открытого доступа под названием Internet Archive Scholar . [82] [83] [84] Его индекс полнотекстового поиска включает более 25 миллионов исследовательских статей и других научных документов, сохраненных в Internet Archive. Коллекция охватывает оцифрованные копии журналов восемнадцатого века, последние материалы конференций открытого доступа и препринты, найденные во Всемирной паутине. [ необходима ссылка ]
В 2021 году Архив Интернета объявил о выпуске первой версии Общего индекса — общедоступного индекса для коллекции из 107 миллионов статей из академических журналов . [85] [86]
Архив хранит файлы внутри так называемых элементов, которые похожи на каталоги тем, что могут содержать несколько файлов, но могут иметь дополнительные метаданные, такие как описание и теги, которые делают их более удобными для поиска.
Некоторые типы файлов можно просмотреть непосредственно на сайте, тогда как другие необходимо загрузить, чтобы открыть. Если в элементе есть несколько файлов мультимедиа, веб-сайт генерирует плейлист для видео- или аудиофайлов или слайд-шоу для изображений. Если элемент содержит хотя бы одно видео или изображение, Архив генерирует миниатюру предварительного просмотра , которую можно увидеть на страницах коллекций и в результатах поиска. Элементы могут содержать смешанные данные, такие как музыкальные файлы с изображением обложки альбома, в этом случае изображение используется в качестве миниатюры. [87] [88] [89] [90]
Сотрудники Интернет-архива организуют элементы, помещая их в так называемые коллекции, представляющие собой страницы, на которых перечислены несколько элементов. [91]
Сканирование, выполняемое Архивом Интернета, финансируется библиотеками и фондами. [92] По состоянию на ноябрь 2008 года [обновлять], когда было около 1 миллиона текстов, вся коллекция превышала 0,5 петабайта, включая необработанные изображения с камеры, обрезанные и перекошенные изображения, PDF-файлы и необработанные данные OCR . [93]
По состоянию на июль 2013 года [обновлять]Интернет-архив управлял 33 центрами сканирования в пяти странах, оцифровывая около 1000 книг в день, в общей сложности более 2 миллионов книг, в общей коллекции из 4,4 миллиона книг, включая материалы, оцифрованные другими и загруженные в Интернет-архив; в то время пользователи выполняли более 15 миллионов загрузок в месяц. [94]
Материалы, оцифрованные другими, включают более 300 000 книг, которые были предоставлены в коллекцию в период между 2006 и 2008 годами компанией Microsoft через ее проект Live Search Books , который также включал финансовую поддержку и сканирующее оборудование, напрямую переданное в дар Internet Archive. [95] 23 мая 2008 года компания Microsoft объявила, что она завершит свой проект Live Book Search и больше не будет сканировать книги, передав оставшееся сканирующее оборудование своим бывшим партнерам. [95]
Примерно в октябре 2007 года пользователи Архива начали загружать книги из общественного достояния из Поиска книг Google . [96] По состоянию на ноябрь 2013 года [обновлять]в коллекции Архива было более 900 000 оцифрованных Google книг; [97] книги идентичны копиям, найденным в Google, за исключением отсутствия водяных знаков Google, и доступны для неограниченного использования и загрузки. [a] Брюстер Кейл в 2013 году сообщил, что эта архивная работа координировалась Аароном Шварцем , который с «кучей друзей» достаточно медленно загружал книги из общественного достояния из Google и с достаточного количества компьютеров, чтобы оставаться в рамках ограничений Google. Они сделали это, чтобы обеспечить публичный доступ к общественному достоянию . Архив гарантировал, что элементы были атрибутированы и связаны с Google, который никогда не жаловался, в то время как библиотеки «ворчали». По словам Кейла, это пример «гения» Шварца, работающего над тем, что могло бы принести наибольшую пользу миллионам людей. [98]
В дополнение к книгам Архив предлагает бесплатный и анонимный публичный доступ к более чем четырем миллионам судебных решений, юридических сводок или экспонатов, загруженных из электронной системы документов PACER Федеральных судов США через плагин RECAP для веб-браузера. Эти документы хранились за платным доступом федерального суда. В Архиве к 2013 году к ним получили доступ более шести миллионов человек. [98]
Веб-приложение BookReader Архива , [99] встроенное в его веб-сайт, имеет такие функции, как одностраничный, двухстраничный режим и режим миниатюр ; полноэкранный режим; масштабирование страниц изображений с высоким разрешением ; и анимация перелистывания страниц . [99] [100]
В октябре 2024 года Архив Интернета заключил соглашение с Библиотекой Лейденского университета о приеме бумажных копий 400 000 некаталогизированных иностранных диссертаций, хранящихся в Библиотеке, которые должны были быть уничтожены — с целью их оцифровки и предоставления доступа в Интернете. Коллекция включает диссертации Нильса Бора , Марии Кюри , Эмиля Дюркгейма , Альберта Эйнштейна , Отто Гана , Карла Юнга , Дж. Роберта Оппенгеймера , Макса Планка , Луиджи Пиранделло , Густава Штреземана и Макса Вебера . [101]
Open Library — еще один проект Internet Archive. Проект стремится включить веб-страницу для каждой когда-либо опубликованной книги: он содержит 25 миллионов каталожных записей изданий. Он также стремится стать общедоступной в Интернете публичной библиотекой: он содержит полные тексты приблизительно 1 600 000 книг, находящихся в общественном достоянии (из более чем пяти миллионов из основной коллекции текстов), а также печатные и защищенные авторским правом книги, [102] многие из которых полностью читаются, загружаются [103] [104] и доступны для полнотекстового поиска ; [105] он предлагает двухнедельный кредит на электронные книги в своей контролируемой программе цифрового кредитования для более чем 647 784 книг, не находящихся в общественном достоянии, в партнерстве с более чем 1000 библиотечными партнерами из шести стран [94] [106] после бесплатной регистрации на веб-сайте. Open Library — это бесплатный и открытый программный проект, исходный код которого свободно доступен на GitHub .
Открытая библиотека сталкивается с возражениями со стороны некоторых авторов и Общества авторов , которые считают, что проект распространяет книги без разрешения и, таким образом, нарушает законы об авторских правах, [107] и четыре крупных издателя инициировали иск о нарушении авторских прав против Интернет-архива в июне 2020 года, чтобы остановить проект Открытой библиотеки. [108]
Многие крупные институциональные спонсоры помогли Архиву Интернета предоставить миллионы отсканированных публикаций (текстовых элементов). [109] Некоторые спонсоры, которые оцифровали большие объемы текстов, включают Библиотеку Робартса Университета Торонто , Библиотеки Университета Альберты , Университет Оттавы , Библиотеку Конгресса , библиотеки-члены Бостонского библиотечного консорциума , Бостонскую публичную библиотеку , Библиотеку Принстонской теологической семинарии и многих других. [110]
В 2017 году издательство MIT Press уполномочило Архив Интернета оцифровать и предоставить книги из своего бэклиста [111] при финансовой поддержке Фонда Arcadia . [112] [113] Год спустя Архив Интернета получил дополнительное финансирование от Фонда Arcadia, чтобы пригласить некоторые другие университетские издательства к сотрудничеству с Архивом Интернета для оцифровки книг в рамках проекта под названием «Разблокировка книг университетских издательств» [114] [115]
Библиотека Конгресса создала многочисленные идентификаторы Handle System , которые указывали на бесплатные оцифрованные книги в Архиве Интернета. [116] Архив Интернета и Открытая библиотека указаны на веб-сайте Библиотеки Конгресса как источник электронных книг. [117]
В дополнение к веб-архивам, Архив Интернета поддерживает обширные коллекции цифровых медиа, которые, как подтверждает загрузчик, находятся в общественном достоянии в Соединенных Штатах или лицензированы по лицензии, которая позволяет распространять их, например, лицензии Creative Commons . [ необходима цитата ] Медиа организованы в коллекции по типу медиа (движущиеся изображения, аудио, текст и т. д.) и в подколлекции по различным критериям. Каждая из основных коллекций включает в себя подколлекцию «Сообщество» (ранее называвшуюся «Открытый исходный код»), где хранятся общие вклады общественности. [ необходима цитата ]
Аудиоархив включает в себя музыку, аудиокниги , новостные передачи, старые радиошоу , подкасты и широкий спектр других аудиофайлов. По состоянию на январь 2023 года в коллекции насчитывается более 15 000 000 бесплатных цифровых записей . Подколлекции включают аудиокниги и поэзию, подкасты, неанглоязычные аудиозаписи и многое другое. [ 118] Звуковые коллекции курируются Б. Джорджем , директором ARChive of Contemporary Music . [119][обновлять]
Проект по сохранению записей любительских радиопередач, финансируемый фондом Amateur Radio Digital Communications. [120] [121]
Подколлекция Live Music Archive включает в себя более 170 000 концертных записей независимых музыкантов, а также более известных артистов и музыкальных ансамблей с разрешительными правилами записи их концертов, таких как Grateful Dead , и совсем недавно, The Smashing Pumpkins . Кроме того, Джордан Зивон разрешил Internet Archive разместить полную коллекцию концертных записей своего отца Уоррена Зивона . Коллекция Зивона охватывает период с 1976 по 2001 год и содержит 126 концертов, включая 1137 песен. [122]
Проект Great 78 нацелен на оцифровку 250 000 синглов 78 об/мин (500 000 песен) периода с 1880 по 1960 год, подаренных различными коллекционерами и учреждениями. Он был разработан в сотрудничестве с Архивом современной музыки и George Blood Audio, ответственным за оцифровку аудио. [119]
Архив содержит коллекцию свободно распространяемой музыки, которая транслируется и доступна для скачивания через его службу Netlabels . Музыка в этой коллекции обычно имеет каталоги Creative Commons-лицензии виртуальных звукозаписывающих лейблов. [123] [124]
Эта коллекция содержит более 3,5 миллионов предметов. [125] Архив обложек , Метрополитен-музей – Галерея изображений, Изображения NASA, Архив Occupy Wall Street Flickr и Карты USGS – вот некоторые подколлекции коллекции изображений. [ необходима ссылка ]
Cover Art Archive — совместный проект Internet Archive и MusicBrainz , целью которого является создание изображений обложек в Интернете. По состоянию на апрель 2021 года [обновлять]эта коллекция содержит более 1 400 000 элементов. [126]
Изображения этой коллекции взяты из Музея Метрополитен . Эта коллекция содержит более 140 000 экспонатов. [127]
Архив изображений NASA был создан в рамках Соглашения о космическом акте между Архивом Интернета и NASA, чтобы предоставить публичный доступ к коллекциям изображений, видео и аудио NASA в едином поисковом ресурсе. Команда Архива изображений NASA в Интернете тесно сотрудничала со всеми центрами NASA, чтобы продолжать пополнять постоянно растущую коллекцию. [128] Сайт nasaimages.org был запущен в июле 2008 года и имел более 100 000 элементов онлайн к концу его хостинга в 2012 году.
Эта коллекция содержит фотографии с лицензией Creative Commons из Flickr, связанные с движением Occupy Wall Street . Эта коллекция содержит более 15 000 элементов. [129]
Эта коллекция содержит более 59 000 элементов из проекта Libre Map . [130]
Одной из подколлекций Видеоархива Интернет-архива является Архив Машинимы . Этот небольшой раздел содержит множество видео Машинимы. Машинима — это цифровая форма искусства, в которой компьютерные игры , игровые движки или программные движки используются в режиме песочницы для создания кинофильмов, воссоздания пьес или даже публикации презентаций или основных докладов. Архив собирает ряд фильмов Машинимы от интернет-издателей, таких как Rooster Teeth и Machinima.com , а также независимых продюсеров. Подколекция является совместным усилием Интернет-архива, исследовательского проекта «Как они получили игру» в Стэнфордском университете, Академии искусств и наук Машинимы и Machinima.com. [131]
Эта коллекция содержит около 160 000 микрофильмированных материалов из различных библиотек, включая библиотеки Чикагского университета , Иллинойсского университета в Урбане-Шампейне , Альбертского университета , Публичной библиотеки округа Аллен и Национальной технической информационной службы . [132] [133]
Архив Интернета содержит коллекцию из приблизительно 3863 художественных фильмов. [134] Кроме того, коллекция движущихся изображений Архива Интернета включает: кинохронику , классические мультфильмы , про- и антивоенную пропаганду , коллекцию The Video Cellar, коллекцию «AV Geeks» Скипа Элсхаймера, раннее телевидение и недолговечные материалы из Архива Прелингера , такие как рекламные , образовательные и промышленные фильмы, а также любительские и домашние коллекции фильмов. [ требуется ссылка ]
Подкатегории этой коллекции включают:
Open Educational Resources — это цифровая коллекция на archive.org. Эта коллекция содержит сотни бесплатных курсов, видеолекций и дополнительных материалов из университетов США и Китая . Авторами этой коллекции являются ArsDigita University , Hewlett Foundation , MIT , Monterey Institute и Naropa University . [137]
В сентябре 2012 года Internet Archive запустил службу TV News Search & Borrow для поиска национальных новостных программ США. [138] Служба основана на транскриптах с субтитрами и позволяет пользователям искать и транслировать 30-секундные видеоклипы. На момент запуска служба содержала «350 000 новостных программ, собранных за 3 года с национальных сетей и станций США в Сан-Франциско и Вашингтоне, округ Колумбия» [139] По словам Кейла, служба была вдохновлена Vanderbilt Television News Archive , аналогичной библиотекой телевизионных новостных программ. [140] В отличие от Vanderbilt, который ограничивает доступ к потоковому видео для лиц, связанных с подписчиками колледжей и университетов, TV News Search & Borrow предоставляет открытый доступ к своим потоковым видеоклипам. В 2013 году Архив получил дополнительное пожертвование в размере «приблизительно 40 000 хорошо организованных лент» от наследства женщины из Филадельфии , Мэрион Стоукс . Стоукс «записала более 35 лет телевизионных новостей в Филадельфии и Бостоне на свои устройства VHS и Betamax ». [141]
Коллекция Бруклинского музея содержит около 3000 экспонатов из Бруклинского музея . [142] В декабре 2020 года библиотека исследований фильмов Лилиан Михельсон была передана в дар архиву. [143]
Выражая резкую реакцию на идею простого выбрасывания книг и вдохновляясь Всемирным хранилищем семян на Шпицбергене , Кахле теперь представляет себе сбор одного экземпляра каждой когда-либо опубликованной книги. «Мы не собираемся этого достичь, но это наша цель», — сказал он. Наряду с книгами Кахле планирует хранить старые серверы Архива Интернета, которые были заменены в 2010 году. [144]
Архив Интернета имеет «крупнейшую коллекцию исторического программного обеспечения в Интернете в мире», охватывающую 50 лет компьютерной истории в терабайтах компьютерных журналов и газет, книг, условно-бесплатных дисков, FTP-сайтов, видеоигр и т. д. Архив Интернета создал архив того, что он описывает как «винтажное программное обеспечение», как способ его сохранения. [145] Проект выступал за исключение из Закона США об авторском праве в цифровую эпоху , чтобы разрешить им обходить защиту от копирования , которую Бюро по авторским правам США одобрило в 2003 году сроком на три года. [146] Архив не предлагает программное обеспечение для загрузки, поскольку исключение предназначено исключительно «для целей сохранения или архивного воспроизведения опубликованных цифровых работ библиотекой или архивом». [147] Библиотека Конгресса возобновила исключение в 2006 году, а в 2009 году бессрочно продлила его в ожидании дальнейших правил. [148] Библиотека повторила исключение как «окончательное правило» без даты истечения срока в 2010 году. [149] В 2013 году Архив Интернета начал предоставлять избранные видеоигры, воспроизводимые в браузере через MESS , например, игру Atari 2600 ET the Extra-Terrestrial . [150] С 23 декабря 2014 года Архив Интернета представляет через эмуляцию DOSBox на основе браузера тысячи игр DOS / PC [151] [152] [153] [154] «только для научных и исследовательских целей». [155] [156] [157] В ноябре 2020 года Архив представил новый эмулятор для Adobe Flash под названием Ruffle и начал архивировать анимации и игры Flash в преддверии 31 декабря 2020 года, окончания поддержки плагина Flash во всех компьютерных системах. [158]
Разработана комбинированная аппаратно-программная система, реализующая безопасный метод оцифровки контента. [159] [160]
С 2012 по ноябрь 2015 года Internet Archive управлял Internet Archive Federal Credit Union, федеральным кредитным союзом, базирующимся в Нью-Брансуике, штат Нью-Джерси , с целью предоставления доступа людям с низким и средним доходом. За время своего короткого существования IAFCU столкнулся с серьезными конфликтами с Национальной администрацией кредитных союзов , которая серьезно ограничила кредитный портфель IAFCU и обеспокоенностью по поводу обслуживания компаний Bitcoin . На момент своего роспуска он состоял из 395 членов и стоил 2,5 миллиона долларов. [161] [162]
С 2019 года [163] Архив Интернета организует мероприятие под названием Decentralized Web Camp (DWeb Camp). Это ежегодный лагерь, который объединяет разнообразное глобальное сообщество участников в естественной обстановке. Целью лагеря является решение реальных проблем, с которыми сталкивается Интернет, и совместное создание децентрализованных технологий для лучшего Интернета. Его цель — способствовать сотрудничеству, обучению и веселью, продвигая принципы доверия, человеческого участия, взаимного уважения и экологической осведомленности. [164]
30 сентября 2021 года в рамках празднования своего 25-летия Internet Archive запустил «Wayforward Machine» — сатирический вымышленный веб-сайт , покрытый всплывающими окнами с просьбой предоставить личную информацию. Сайт был призван изобразить вымышленную антиутопическую хронологию реальных событий, ведущих к такому будущему, например, отмену раздела 230 Кодекса Соединенных Штатов в 2022 году и введение рекламных имплантов в 2041 году. [165] [166]
В Большом зале Архива Интернета представлена коллекция из более чем 100 керамических фигур, представляющих сотрудников Архива Интернета, с сотой статуей, увековечивающей Аарона Шварца . Эта коллекция, вдохновленная статуями воинов Сиань в Китае , была заказана Брюстером Кейлом, скульптором Нуалой Крид , и по состоянию на 2014 год продолжается. [167]
Резиденция визуальных искусств Архива Интернета, [168] организованная Амиром Сабером Эсфахани, призвана связать начинающих и начинающих художников с миллионами коллекций Архива и показать, что возможно, когда открытый доступ к информации пересекается с искусством. В течение этой годичной резиденции избранные художники разрабатывают корпус работ, которые отвечают и используют коллекции Архива в своей собственной практике. [169]
8 мая 2008 года стало известно, что Архив Интернета успешно оспорил письмо ФБР по национальной безопасности с просьбой предоставить журналы неназванного пользователя. [173] [174]
28 ноября 2016 года выяснилось, что второе письмо ФБР о национальной безопасности, в котором запрашивались логи другого неизвестного пользователя, было успешно оспорено. [175]
Архив Интернета отключил свой веб-сайт на 12 часов 18 января 2012 года в знак протеста против законопроектов Stop Online Piracy Act и PROTECT IP Act , двух законодательных актов в Конгрессе США , которые, по их мнению, «негативно повлияют на экосистему веб-публикаций, что привело к появлению Архива Интернета». Это произошло одновременно с отключением английской Википедии , а также многочисленными другими протестами в Интернете. [176]
Архив Интернета является членом Open Book Alliance , который был среди наиболее ярых критиков соглашения Google Book . Архив выступает за альтернативный проект цифровой библиотеки. [177]
9 октября 2016 года Интернет-архив был временно заблокирован в Турции после того, как он был использован (среди других сервисов хостинга файлов) хакерами для размещения 17 ГБ утекших правительственных писем. [178] [179]
Поскольку Internet Archive лишь слегка модерирует загрузки, он включает ресурсы, которые могут быть ценны экстремистами, и сайт может использоваться ими для обхода блокировки . В феврале 2018 года Counter Extremism Project заявил, что Archive размещает террористические видеоролики, включая обезглавливание Алана Хеннинга , и отказался отвечать на запросы о видеороликах. [180] В мае 2018 года в отчете, опубликованном фирмой по кибербезопасности Flashpoint, говорилось, что Исламское государство использует Internet Archive для распространения своей пропаганды. [181] Крис Батлер из Internet Archive ответил, что они регулярно общаются с правительствами США и ЕС об обмене информацией о терроризме. [181] В апреле 2019 года Европол , действуя по направлению французской полиции, попросил Internet Archive удалить 550 сайтов с «террористической пропагандой». [182] Archive отклонил запрос, заявив, что отчеты были неверными относительно контента, на который они указывали, или были слишком общими для того, чтобы организация могла их выполнить. [182] 14 июля 2021 года Интернет-архив провел совместный «День действий по направлениям» с Европолом для выявления видеороликов террористов. [183]
В статье 2021 года говорилось, что джихадисты регулярно использовали Интернет-архив для « тайников » террористических видеороликов. [184] В январе 2022 года в Интернет-архив был загружен 800-страничный манифест бывшего преподавателя Калифорнийского университета в Лос-Анджелесе, содержащий расистские идеи и угрозы в адрес сотрудников Калифорнийского университета в Лос-Анджелесе. [185] Манифест был удален Интернет-архивом через неделю на фоне обсуждения того, должны ли такие документы сохраняться архивистами или нет. [185] В другой статье 2022 года было обнаружено «тревожное количество террористических, экстремистских и расистских материалов в Интернет-архиве». [186] В статье 2023 года сообщалось, что неонацисты собирают ссылки на общедоступные онлайн-ресурсы, чтобы делиться ими с новобранцами. Поскольку Интернет-архив размещает загруженные тексты, которые не разрешены на других сайтах, нацистские и неонацистские книги в Архиве (например, «Дневники Тернера ») часто появляются в этих списках. В этих списках также представлены старые материалы, являющиеся общественным достоянием и созданные в то время, когда взгляды сторонников превосходства белой расы были более распространенными. [187]
В разгар пандемии COVID-19 , которая закрыла многие школы, университеты и библиотеки, Архив объявил 24 марта 2020 года о создании Национальной аварийной библиотеки, сняв ограничения на выдачу, которые он действовал для 1,4 миллиона оцифрованных книг в своей Открытой библиотеке, но в остальном ограничив пользователей количеством книг, которые они могли взять, и обязав их вернуть; обычно сайт разрешал бы только одну цифровую выдачу на каждую имеющуюся у них физическую копию книги, используя зашифрованный файл , который становился бы непригодным для использования после завершения периода выдачи. [4] Эта библиотека останется таковой по крайней мере до 30 июня 2020 года или до окончания чрезвычайного положения в США, в зависимости от того, что наступит позже. [188] При запуске Интернет-архив позволил авторам и правообладателям подавать запросы на отказ от их работ, которые будут исключены из Национальной аварийной библиотеки. [189] [190] [191]
Архив Интернета заявил, что Национальная чрезвычайная библиотека удовлетворила «беспрецедентную глобальную и неотложную потребность в доступе к материалам для чтения и исследований» из-за закрытия физических библиотек по всему миру. [192] Они оправдали этот шаг несколькими способами. С юридической точки зрения они заявили, что содействуют доступу к этим недоступным ресурсам, что, по их словам, является упражнением в принципах добросовестного использования . Архив продолжал реализовывать свою политику контролируемого цифрового кредитования , которая существовала до Национальной чрезвычайных библиотек, то есть они по-прежнему шифровали выдаваемые копии, и пользователям было не легче создавать новые копии книг, чем раньше. Окончательное определение того, является ли Национальная чрезвычайная библиотека добросовестным использованием, может быть вынесено только судом. С моральной точки зрения они также указали, что Архив Интернета является зарегистрированной библиотекой, как и любая другая, что они либо платят за книги сами, либо получают их в качестве пожертвований, и что кредитование через библиотеки предшествовало ограничениям авторских прав. [189] [193]
Архив уже подвергался критике со стороны авторов и издателей за свой прежний подход к выдаче книг, и после объявления о Национальной чрезвычайной библиотеке авторы, издатели и группы, представляющие обе организации, снова выступили с критикой Архива и его проекта Открытой библиотеки , приравняв этот шаг к нарушению авторских прав и цифровому пиратству и использовав пандемию COVID-19 как повод для расширения границ авторских прав. [191] [194] [195] [196] После того, как работы некоторых из этих авторов были высмеяны в ответах, Джейсон Скотт из Интернет-архива попросил сторонников Национальной чрезвычайной библиотеки не порочить чьи-либо книги: «Я понимаю, что здесь есть серьезные споры и разногласия, но книги дают жизнь и меняют жизнь, и эти писатели создали их». [197]
В ноябре 2005 года бесплатные загрузки концертов Grateful Dead были удалены с сайта после того, что, по-видимому, было разногласиями между некоторыми бывшими участниками группы. Джон Перри Барлоу назвал Боба Вейра , Микки Харта и Билла Крейцмана зачинщиками изменений, согласно статье в The New York Times . [198] Фил Леш , один из основателей группы, прокомментировал изменения 30 ноября 2005 года, разместив на своем личном веб-сайте:
Мне сообщили, что все шоу Grateful Dead были удалены с Archive.org прямо перед Днем благодарения . Я не был частью этого процесса принятия решений и не был уведомлен о том, что шоу должны быть удалены. Я действительно считаю, что музыка — это наследие Grateful Dead, и я надеюсь, что так или иначе все это будет доступно тем, кто этого хочет. [199]
30 ноября Брюстер Кейл опубликовал на форуме сообщение , в котором суммировал то, что, по всей видимости, было компромиссом, достигнутым среди участников группы. Записи с публики можно было скачать или транслировать, но записи с пульта были доступны только для трансляции. С тех пор концерты были добавлены снова. [200]
В феврале 2016 года пользователи Internet Archive начали архивировать цифровые копии Nintendo Power , официального журнала Nintendo для своих игр и продуктов, который выходил с 1988 по 2012 год. Первые 140 выпусков были собраны, прежде чем Nintendo удалила архив 8 августа 2016 года. В ответ на удаление Nintendo заявила игровому сайту Polygon : «[Nintendo] должна защищать своих собственных персонажей, товарные знаки и другой контент. Несанкционированное использование интеллектуальной собственности Nintendo может ослабить нашу способность защищать и сохранять ее или, возможно, использовать ее для новых проектов». [201]
В августе 2017 года Департамент телекоммуникаций правительства Индии заблокировал Интернет-архив вместе с другими сайтами обмена файлами в соответствии с двумя судебными постановлениями, вынесенными Высоким судом Мадраса , [202] ссылаясь на опасения по поводу пиратства после того, как копии двух фильмов Болливуда якобы были распространены через этот сервис. [203] HTTP - версия Архива была заблокирована, но она оставалась доступной с использованием протокола HTTPS . [202]
В 2023 году Архив Интернета стал популярным сайтом для индийцев, где можно было посмотреть первый эпизод « Индия: Вопрос Моди» [204] , документального фильма BBC, выпущенного 17 января и запрещенного в Индии 20 января. [205] [206] Сообщалось, что видео было удалено Архивом 23 января. [204] Затем 27 января Архив Интернета заявил, что они удалили видео в ответ на запрос BBC в соответствии с Законом об авторском праве в цифровую эпоху [207] .
Работа Национальной аварийной библиотеки была частью иска, поданного против Архива Интернета четырьмя крупными издательствами книг — Hachette, HarperCollins, John Wiley & Sons и Penguin Random House — в июне 2020 года, в котором оспаривалась законность авторских прав контролируемой программы цифрового кредитования. [4] [108] [208] В ответ Архив Интернета закрыл Национальную аварийную библиотеку 16 июня 2020 года, а не запланированное 30 июня 2020 года, из-за иска. [209] [210] Истцы, поддержанные Альянсом по авторскому праву , [211] утверждали в своем иске, что действия Архива Интернета представляли собой «умышленное массовое нарушение авторских прав». [212]
Судья Кельтл вынес решение 24 марта 2023 года против Архива Интернета в этом деле, заявив, что концепция Национальной чрезвычайной библиотеки не является добросовестным использованием, поэтому Архив нарушил их авторские права, выдав книги без ограничения списка ожидания. Затем было достигнуто соглашение о том, что Архив Интернета выплатит издателям нераскрытую сумму. [213] Архив Интернета подал апелляцию на это решение. [214] [215] 4 сентября 2024 года Апелляционный суд США Второго округа поддержал решение окружного суда, назвав аргумент Архива Интернета о том, что они защищены доктриной добросовестного использования, «неубедительным». [216]
В августе 2023 года корпорации музыкальной индустрии Universal Music Group (UMG), Sony Music и Concord подали в суд на Internet Archive из-за его проекта Great 78, утверждая, что проект нарушает авторские права. Проект Great 78 хранит оцифрованные версии песен и альбомов до 1972 года с пластинок 78 об/мин для «сохранения, исследования и обнаружения пластинок 78 об/мин». Проект стартовал в 2016 году, когда записи до 1972 года не были защищены авторским правом; в 2018 году Конгресс США принял Закон о модернизации музыки (MMA), который позволил применять правовые средства защиты от несанкционированного использования записей до 1972 года до 2067 года, тем самым фактически покрывая их авторским правом. [217]
UMG и Sony были двумя крупнейшими компаниями в этом секторе на протяжении более десяти лет, с соответствующими долями рынка 31,8% и 22,1% в 2023 году. [218] Concord был быстрорастущим музыкальным бизнесом, тесно сотрудничавшим с UMG с момента его преобразования в Concord Music Group в 2004 году [219] и поддерживаемым как минимум с 2000 года JP Morgan . [220] Это была первая музыкальная компания, которая провела секьюритизацию , обеспеченную активами , под руководством Apollo Global Management в декабре 2022 года. Ее активы состояли из более чем 1 миллиона авторских прав на музыку старше 18 месяцев. [221] [222] По словам ее генерального директора Боба Валентайна, Concord получила около 85% своего дохода «от каталога, а не от недавно разработанной музыки». Как заявил Валентайн в своем первом интервью, «Явление интеллектуальной собственности артистов никогда не было более ликвидным; теперь это реальный и проверенный класс активов. Инвестиционные банкиры сосредоточены на нем, финансисты финансируют его, а затем есть такие организации, как мы, которые знают, как покупать права, но также знают, как ими управлять, и имеют необходимые для этого связи». [219] Доля музыки из каталогов в общем объеме потребления альбомов в Соединенных Штатах выросла с 62,8% до 72,6% в период с 2019 по 2023 год. [223]
Издатели требуют возмещения ущерба, предусмотренного законом, за почти 4142 песни, указанные в иске, с максимально возможным штрафом в размере 621 миллиона долларов. [224] Архив Интернета утверждает, что примитивное качество звука оригинальных записей подпадает под доктрину «добросовестного использования» для оцифровки в целях сохранения, что количество загрузок настолько мало, что почти не влияет на доходы издателей, и более 95% коллекции недоступно где-либо еще. [224] Истцы заявили в ответ: «Если когда-либо и была изобретена теория добросовестного использования для судебных разбирательств, то это она». [225] По словам юридического источника в Mayer Brown , дело музыкальных издателей может быть оспорено как неконституционное , поскольку предоставление авторских прав на произведения до 1972 года в MMA принесло пользу только звукозаписывающим компаниям, не имея системного эффекта. [217]
условиях чрезвычайной ситуации, связанной с пандемией, интернет-архив Брюстера Кейла свободно предоставлял цифровые сканы своей библиотеки. Издатели подали в суд. Теперь владение книгой означает нечто иное.
Более восьмидесяти лет MIT Press публикует признанные произведения в области науки, технологий, искусства и архитектуры. Теперь, благодаря новому партнерству между Internet Archive и MIT Press, читатели впервые смогут брать эти классические произведения онлайн.
С тех пор, как она стала директором [издательства MIT] в 2015 г., мало что Брэнд не переосмыслила в издательстве. В 2017 г. издательство объединилось с Архивом Интернета, чтобы сделать свой обширный бэклист доступным бесплатно в библиотеках, возрождая книги, которые не видели свет поколениями.
Archive получил грант в размере 1 миллиона долларов от Arcadia — благотворительного фонда Лизбет Раузинг и Питера Болдуина — на оцифровку произведений из коллекций университетских изданий, чтобы сделать их доступными посредством контролируемого цифрового кредитования.
Архив Интернета включает в себя полные тексты более 2,5 миллионов электронных книг, включая электронные книги, предоставленные Библиотекой Конгресса. Книги можно читать онлайн или загружать и читать в различных форматах. Электронные книги из Архива Интернета также можно найти через Open Library, инициативу Архива Интернета, посвященную текстам.И: Hohman, J. Cheyenne; Mughal, Yasmeen (2017) [апрель 2011 г.]. «Устройства и форматы — Поиск электронных книг: руководство — Библиографии, руководства по исследованиям и средства поиска (виртуальные программы и службы) Библиотеки Конгресса». Библиотека Конгресса . Архивировано из оригинала 12 февраля 2021 г. Получено 25 ноября 2020 г. Публикации
Библиотеки Конгресса доступны для бесплатной загрузки на Kindle из Архива Интернета. ... iPad можно использовать в качестве электронной книги с помощью таких приложений, как iBooks, которые поддерживают форматы ePub (.epub) и PDF (.pdf). Оба формата доступны из Архива Интернета.
Internet Archive имеет огромную коллекцию бесплатной, загружаемой музыки в своей категории NetLabels...
Брюстер Кейл, человек, стоящий за проектом по архивации каждой веб-страницы, теперь хочет собрать по одной копии каждой опубликованной книги
программы и видеоигры, распространяемые в устаревших форматах, которые требуют исходного носителя или оборудования в качестве условия доступа, когда обход осуществляется в целях сохранения или архивного воспроизведения опубликованных цифровых произведений библиотекой или архивом. Формат считается устаревшим, если машина или система, необходимые для того, чтобы сделать воспринимаемым произведение, хранящееся в этом формате, больше не производятся или больше не являются разумно доступными на коммерческом рынке.
Доступ к коллекциям Архива предоставляется вам бесплатно и предоставляется только в научных и исследовательских целях.