stringtranslate.com

Википедия:Загрузка базы данных

Wikipedia предлагает заинтересованным пользователям бесплатные копии всего доступного контента. Эти базы данных могут использоваться для зеркалирования , личного использования, неформального резервного копирования, автономного использования или запросов к базам данных (например, для Wikipedia:Maintenance ). Весь текстовый контент лицензирован в соответствии с лицензией Creative Commons Attribution-ShareAlike 3.0 (CC-BY-SA), а большая его часть дополнительно лицензирована в соответствии с лицензией GNU Free Documentation License (GFDL). [1] Изображения и другие файлы доступны на различных условиях , как подробно описано на страницах их описаний. Наши советы по соблюдению этих лицензий см. в Wikipedia:Copyrights .

Офлайн-читатели Википедии

Вот несколько способов читать Википедию офлайн:

Некоторые из них являются мобильными приложениями – см. « Список мобильных приложений Википедии ».

Где я могу получить дампы?

Англоязычная Википедия

Стоит ли мне подключать многопотоковую передачу?

TL;DR : ПОЛУЧИТЕ МНОГОПОТОКОВУЮ ВЕРСИЮ! (и соответствующий файл индекса, pages-articles-multistream-index.txt.bz2 )

pages-articles.xml.bz2 и pages-articles-multistream.xml.bz2 содержат одинаковое содержимое xml . Поэтому если вы распакуете любой из них, вы получите те же данные. Но с помощью multistream можно получить статью из архива, не распаковывая его целиком. Ваш ридер должен справиться с этим за вас, если ваш ридер не поддерживает это, он все равно будет работать, поскольку multistream и non-multistream содержат один и тот же xml . Единственным недостатком multistream является то, что он немного больше. У вас может возникнуть соблазн получить меньший non-multistream архив, но это будет бесполезно, если вы его не распакуете. И он распакуется примерно в 5-10 раз от своего первоначального размера. Копейка мудра, фунт глуп. Получите multistream.

ОБРАТИТЕ ВНИМАНИЕ, что файл дампа multistream содержит несколько bz2 'streams' (заголовок bz2, тело, нижний колонтитул), объединенных вместе в один файл, в отличие от файла vanilla, который содержит один поток. Каждый отдельный 'stream' (или на самом деле файл) в дампе multistream содержит 100 страниц, за исключением, возможно, последней.

Как использовать многопоточность?

Для многопоточности можно получить файл индекса pages-articles-multistream-index.txt.bz2 . Первое поле этого индекса — это количество байтов для поиска в сжатом архиве pages-articles-multistream.xml.bz2 , второе — идентификатор статьи, третье — заголовок статьи.

Вырежьте небольшую часть архива с помощью dd, используя смещение байта, найденное в индексе. Затем вы можете либо распаковать его с помощью bzip2, либо использовать bzip2recover и выполнить поиск по первому файлу для идентификатора статьи.

Информацию о таких многопоточных файлах и о том, как распаковать их с помощью Python, см. по адресу https://docs.python.org/3/library/bz2.html#bz2.BZ2Decompressor; также см. по адресу https://gerrit.wikimedia.org/r/plugins/gitiles/operations/dumps/+/ariel/toys/bz2multistream/README.txt и связанным файлам для старой рабочей игрушки.

Другие языки

В каталоге dumps.wikimedia.org вы найдете последние SQL и XML дампы для проектов, не только на английском языке. Подкаталоги названы по языковому коду и соответствующему проекту. Существуют и другие каталоги (например, simple, nostalgia) с такой же структурой. Эти дампы также доступны в Архиве Интернета.

Где находятся загруженные файлы (изображения, аудио, видео и т. д.)?

Изображения и другие загруженные медиафайлы доступны с зеркал в дополнение к тому, что они обслуживаются напрямую с серверов Wikimedia. Массовая загрузка (по состоянию на сентябрь 2013 г.) доступна с зеркал, но не предлагается напрямую с серверов Wikimedia. Смотрите список текущих зеркал. Вам следует выполнить rsync с зеркала, затем заполнить недостающие изображения с upload.wikimedia.org; при загрузке с upload.wikimedia.orgвы должны ограничить себя до 1 промаха кэша в секунду (вы можете проверить заголовки в ответе, чтобы увидеть, был ли это успех или промах, а затем откатиться назад, если вы получите промах), и вы не должны использовать более одного или двух одновременных HTTP-соединений. В любом случае, убедитесь, что у вас есть точная строка user agent с контактной информацией (адрес электронной почты), чтобы операторы могли связаться с вами в случае возникновения проблемы. Вы должны получать контрольные суммы из API mediawiki и проверять их. Страница API Etiquette содержит некоторые рекомендации, хотя не все из них применимы (например, поскольку upload.wikimedia.org не является MediaWiki, нет maxlagпараметра).

В отличие от большинства текстов статей, изображения не обязательно лицензированы по GFDL и CC-BY-SA-3.0. Они могут находиться под одной из многих свободных лицензий , в общественном достоянии , считаться добросовестным использованием или даже нарушать авторские права (которые следует удалить ). В частности, использование добросовестных изображений вне контекста Википедии или подобных работ может быть незаконным. Изображения по большинству лицензий требуют указания источника и, возможно, другой прилагаемой информации об авторских правах. Эта информация включена в страницы описания изображений, которые являются частью текстовых дампов, доступных на dumps.wikimedia.org. В заключение, загружайте эти изображения на свой страх и риск (юридические).

Работа со сжатыми файлами

Сжатые файлы дампа значительно сжаты, поэтому после распаковки будут занимать много места на диске. Большой список программ распаковки описан в сравнении архиваторов файлов . В частности, следующие программы могут использоваться для распаковки файлов bzip2, .bz2 , .zip и .7z .

Окна

Начиная с Windows XP , базовая программа распаковки позволяет распаковывать zip-файлы. [2] [3] Среди прочего, для распаковки bzip2-файлов можно использовать следующее.

Макинтош (Mac)
GNU/ Linux
Распространение программного обеспечения Беркли (BSD)
Примечания
  1. Некоторые старые версии bzip2 могут не поддерживать файлы размером более 2 ГБ, поэтому, если у вас возникнут какие-либо проблемы, убедитесь, что у вас установлена ​​последняя версия.
  2. Некоторые старые архивы сжаты с помощью gzip, который совместим с PKZIP (наиболее распространенным форматом Windows).

Работа с большими файлами

По мере увеличения размера файлов увеличивается и вероятность того, что они превысят некоторый предел вычислительного устройства. Каждая операционная система, файловая система, жесткое запоминающее устройство и программное обеспечение (приложение) имеют максимальный предел размера файла. У каждого из них, скорее всего, будет свой максимум, а наименьший предел из всех станет пределом размера файла для запоминающего устройства.

Чем старше программное обеспечение на вычислительном устройстве, тем больше вероятность, что где-то в системе оно будет иметь ограничение на размер файла в 2 ГБ. Это связано с тем, что старое программное обеспечение использует 32-битные целые числа для индексации файлов, что ограничивает размер файла до 2^31 байта (2 ГБ) (для знаковых целых чисел) или 2^32 (4 ГБ) (для беззнаковых целых чисел). Старые библиотеки программирования на языке C имеют это ограничение в 2 или 4 ГБ, но более новые библиотеки файлов были преобразованы в 64-битные целые числа, таким образом поддерживая размеры файлов до 2^63 или 2^64 байт (8 или 16 ЭБ ).

Перед началом загрузки большого файла проверьте устройство хранения, чтобы убедиться, что его файловая система может поддерживать файлы такого большого размера, проверьте объем свободного места, чтобы убедиться, что оно может вместить загруженный файл, и убедитесь, что устройство(а), с которым(и) вы будете использовать хранилище, могут читать выбранную вами файловую систему.

Ограничения файловой системы

Для файловой системы существует два ограничения: ограничение размера файловой системы и ограничение файловой системы. В общем, поскольку ограничение размера файла меньше ограничения файловой системы, большие ограничения файловой системы являются спорным вопросом. Большой процент пользователей предполагает, что они могут создавать файлы размером до размера своего устройства хранения, но ошибаются в своих предположениях. Например, устройство хранения объемом 16 ГБ, отформатированное в файловой системе FAT32, имеет ограничение файла в 4 ГБ для любого отдельного файла. Ниже приведен список наиболее распространенных файловых систем, а для получения дополнительной подробной информации см. Сравнение файловых систем .

Окна
Макинтош (Mac)
Линукс
FreeBSD
FreeBSD и другие BSD

Ограничения операционной системы

Каждая операционная система имеет внутренние ограничения файловой системы на размер файла и размер диска, которые не зависят от файловой системы или физического носителя. Если операционная система имеет какие-либо ограничения ниже, чем файловая система или физический носитель, то ограничения ОС будут реальным ограничением.

Окна
Линукс

Android : Android основан на Linux, что определяет его базовые ограничения.

Apple iOS (см. Список моделей iPhone )

Советы

Обнаружение поврежденных файлов

Полезно проверить суммы MD5 (предоставленные в файле в каталоге загрузки), чтобы убедиться, что загрузка была полной и точной. Это можно проверить, запустив команду "md5sum" для загруженных файлов. Учитывая их размеры, это может занять некоторое время для расчета. Из-за технических деталей того, как хранятся файлы, размеры файлов могут сообщаться по-разному в разных файловых системах, и поэтому не обязательно являются надежными. Кроме того, во время загрузки могло произойти повреждение, хотя это маловероятно.

Linux и Unix

Если вы, кажется, достигли предела в 2 ГБ, попробуйте использовать wget версии 1.10 или выше, cURL версии 7.11.1-1 или выше или последнюю версию lynx (используя -dump). Также вы можете возобновить загрузку (например, wget -c).

Почему бы просто не извлечь данные изwikipedia.orgво время выполнения?

Предположим, вы создаете часть программного обеспечения, которая в определенных точках отображает информацию, взятую из Википедии. Если вы хотите, чтобы ваша программа отображала информацию не так, как это можно увидеть в живой версии, вам, вероятно, понадобится викикод, который используется для ее ввода, а не готовый HTML.

Кроме того, если вы хотите получить все данные, вы, вероятно, захотите передать их наиболее эффективным способом, который возможен. Серверам wikipedia.org нужно проделать большую работу, чтобы преобразовать wikicode в HTML. Это отнимает много времени как для вас, так и для серверов wikipedia.org, поэтому простое сканирование всех страниц — не выход.

Чтобы получить доступ к любой статье в формате XML по одной, перейдите в раздел Special:Export/Title статьи .

Подробнее об этом читайте на странице Special:Export .

Пожалуйста, имейте в виду, что живые зеркала Википедии, которые динамически загружаются с серверов Викимедиа, запрещены. Пожалуйста, см. Wikipedia:Зеркала и форки .

Пожалуйста, не используйте веб-сканер.

Пожалуйста, не используйте веб-краулер для загрузки большого количества статей. Агрессивное сканирование сервера может привести к резкому замедлению работы Википедии.

Пример заблокированного письма от поискового робота

IP-адрес nnn.nnn.nnn.nnn извлекал до 50 страниц в секунду с адресов wikipedia.org. Разумной будет задержка между запросами не менее секунды. Пожалуйста, соблюдайте эту настройку. Если вам нужно немного превысить ее, делайте это только в наименее загруженные периоды, показанные на наших графиках загрузки сайта на stats.wikimedia.org/EN/ChartsWikipediaZZ.htm . Стоит отметить, что сканирование всего сайта со скоростью один запрос в секунду займет несколько недель. Исходный IP-адрес сейчас заблокирован или будет заблокирован в ближайшее время. Пожалуйста, свяжитесь с нами, если вы хотите, чтобы его разблокировали. Пожалуйста, не пытайтесь обойти ее — мы просто заблокируем весь ваш диапазон IP-адресов.
Если вам нужна информация о том, как получать наш контент более эффективно, мы предлагаем различные методы, включая еженедельные дампы базы данных, которые вы можете загрузить в MySQL и сканировать локально с любой удобной для вас скоростью. Также доступны инструменты, которые будут делать это для вас так часто, как вам нужно, как только у вас будет инфраструктура.
Вместо ответа по электронной почте вы можете посетить #mediawiki connect на irc.libera.chat, чтобы обсудить свои варианты с нашей командой.

Выполнение SQL-запросов к текущему дампу базы данных

Вы можете выполнять SQL-запросы к текущему дампу базы данных с помощью Quarry (в качестве замены отключенной страницы Special:Asksql ).

Схема базы данных

SQL-схема

См. также: mw:Руководство:Макет базы данных

Файл SQL, используемый для инициализации базы данных MediaWiki, можно найти здесь.

XML-схема

Схема XML для каждого дампа определяется в верхней части файла и описывается на странице справки по экспорту MediaWiki.

Помогите проанализировать дампы для использования в скриптах

Выполнение Hadoop MapReduce на текущем дампе базы данных Википедии

Вы можете выполнять запросы Hadoop MapReduce на текущем дампе базы данных, но вам понадобится расширение InputRecordFormat, чтобы каждая <page> </page> была отдельным входом mapper. Рабочий набор методов Java (jobControl, mapper, reducer и XmlInputRecordFormat) доступен на Hadoop в Википедии

Помогите импортировать дампы в MySQL

Видеть:

HTML-дампы Wikimedia Enterprise

В рамках Wikimedia Enterprise публикуется частичное зеркало HTML-дампов. Дампы производятся для определенного набора пространств имен и вики, а затем становятся доступными для публичной загрузки. Каждый выходной файл дампа состоит из архива tar.gz, который после распаковки и распаковки содержит один файл с одной строкой на статью в формате json. [Главная домашняя страница проекта]

Статические HTML-дампы деревьев для зеркалирования или распространения на CD

MediaWiki 1.5 включает процедуры для дампа вики в HTML, рендеринга HTML тем же парсером, который используется в живой вики. Как указано на следующей странице, размещение одного из этих дампов в сети без изменений будет являться нарушением товарного знака. Они предназначены для частного просмотра в интрасети или на настольной установке.

Смотрите также:

Кивикс

Kiwix на планшете Android

Kiwix на сегодняшний день является самым крупным офлайн-дистрибутивом Википедии . Как офлайн-ридер, Kiwix работает с библиотекой контента, которая представляет собой файлы zim: вы можете выбрать любой проект Wikimedia (Википедия на любом языке, Викисловарь , Wikisource и т. д.), а также TED Talks , PhET Interactive Maths & Physics simulations , Project Gutenberg и т. д.

Он бесплатный и имеет открытый исходный код, и в настоящее время доступен для загрузки по адресу:

... а также расширения для браузеров Chrome и Firefox, серверные решения и т. д. Полный перечень Kiwix можно найти на официальном сайте.

Словарь Аард / Аард 2

Aard Dictionary — офлайн-читалка Википедии. Без изображений. Кроссплатформенная для Windows, Mac, Linux, Android, Maemo. Работает на рутированных Nook и Sony PRS-T1 eBooks.

У него также есть преемник Aard 2.

Викивьювер дляРокбокс

Плагин wikiviewer для rockbox позволяет просматривать преобразованные дампы Wikipedia на многих устройствах Rockbox . Для этого требуется индивидуальная сборка и преобразование дампов wiki с использованием инструкций, доступных на http://www.rockbox.org/tracker/4755 . Преобразование повторно сжимает файл и разбивает его на файлы по 1 ГБ и файл индекса, которые все должны находиться в одной папке на устройстве или карте micro sd.

Старые свалки

Динамическая генерация HTML из локального дампа базы данных XML

Вместо преобразования файла дампа базы данных во множество фрагментов статического HTML, можно также использовать динамический генератор HTML. Просмотр страницы вики похож на просмотр сайта вики, но содержимое извлекается и преобразуется из локального файла дампа по запросу из браузера.

XOWA

XOWA — это бесплатное приложение с открытым исходным кодом, которое помогает загрузить Wikipedia на компьютер. Доступ ко всей Wikipedia офлайн, без подключения к интернету! В настоящее время оно находится на стадии бета-разработки, но является функциональным. Оно доступно для загрузки здесь.

Функции

Основные характеристики

  1. Очень быстрый поиск
  2. Поиск по ключевым словам (фактически, по словам заголовка)
  3. Поиск выдает несколько возможных статей: вы можете выбрать среди них
  4. Рендеринг математических формул на основе LaTeX
  5. Минимальные требования к пространству: исходный файл .bz2 плюс индекс
  6. Очень быстрая установка (за несколько часов) по сравнению с загрузкой дампа в MySQL

WikiFilter

WikiFilter — это программа, которая позволяет просматривать более 100 файлов дампов, не посещая сайт Wiki.

Системные требования WikiFilter

Как настроить WikiFilter

  1. Начните загрузку файла дампа базы данных Википедии, например, дампа английской Википедии. Лучше всего использовать менеджер загрузок, например GetRight , чтобы вы могли возобновить загрузку файла, даже если ваш компьютер выйдет из строя или будет выключен во время загрузки.
  2. Загрузите XAMPPLITE с [2] (для работы вам понадобится версия 1.5.0). Обязательно выберите файл, имя которого заканчивается на .exe
  3. Установите/извлеките его в C:\XAMPPLITE.
  4. Загрузите WikiFilter 2.3 с этого сайта: http://sourceforge.net/projects/wikifilter. У вас будет выбор файлов для загрузки, поэтому убедитесь, что вы выбрали версию 2.3. Извлеките ее в C:\WIKIFILTER.
  5. Скопируйте WikiFilter.so в папку C:\XAMPPLITE\apache\modules.
  6. Отредактируйте файл C:\xampplite\apache\conf\httpd.conf и добавьте следующую строку:
    • LoadModule WikiFilter_module "C:/XAMPPLITE/apache/modules/WikiFilter.so"
  7. После завершения загрузки файла Wikipedia распакуйте его в папку C:\WIKIFILTER. (Я использовал демо-версию WinRAR http://www.rarlab.com/ – BitZipper http://www.bitzipper.com/winrar.html тоже хорошо работает.)
  8. Запустите WikiFilter (WikiIndex.exe), перейдите в папку C:\WIKIFILTER, перетащите XML-файл в окно, нажмите «Загрузить», затем «Начать».
  9. После завершения закройте окно и перейдите в папку C:\XAMPPLITE. Запустите файл setup_xampp.bat для настройки xampp.
  10. Закончив с этим, запустите файл Xampp-Control.exe и запустите Apache.
  11. Перейдите по адресу http://localhost/wiki и проверьте, работает ли он.
    • Если не поможет, смотрите форумы.

WikiTaxi (для Windows)

WikiTaxi — это офлайн-читалка для вики в формате MediaWiki. Она позволяет пользователям искать и просматривать популярные вики, такие как Wikipedia, Wikiquote или WikiNews, без подключения к Интернету. WikiTaxi хорошо работает с разными языками, такими как английский, немецкий, турецкий и другие, но имеет проблемы с написанием справа налево. WikiTaxi не отображает изображения.

Системные требования WikiTaxi

Использование WikiTaxi

  1. Загрузите WikiTaxi и извлеките в пустую папку. В противном случае установка не требуется.
  2. Загрузите XML-дамп базы данных (*.xml.bz2) вашей любимой вики.
  3. Запустите WikiTaxi_Importer.exe, чтобы импортировать дамп базы данных в базу данных WikiTaxi. Импортер позаботится о распаковке дампа во время импорта, поэтому обязательно сохраните место на диске и не распаковывайте его заранее.
  4. Когда импорт будет завершен, запустите WikiTaxi.exe и откройте сгенерированный файл базы данных. Вы можете начать поиск, просмотр и чтение немедленно.
  5. После успешного импорта XML-файл дампа больше не нужен и его можно удалить, чтобы освободить место на диске.
  6. Чтобы обновить автономную Wiki для WikiTaxi, загрузите и импортируйте более свежий дамп базы данных.

Для чтения WikiTaxi требуются только два файла: WikiTaxi.exe и база данных .taxi. Скопируйте их на любое устройство хранения (флешку или карту памяти) или запишите на CD или DVD и возьмите свою Википедию с собой, куда бы вы ни пошли!

BzReader и MzReader (для Windows)

BzReader — это офлайн-читалка Wikipedia с быстрыми возможностями поиска. Она преобразует текст Wiki в HTML и не требует распаковки базы данных. Требуется Microsoft .NET Framework 2.0.

MzReader от Mun206 работает с BzReader (хотя и не связан с ним) и позволяет дополнительно преобразовывать wikicode в более качественный HTML, включая интерпретацию скина monobook. Он нацелен на то, чтобы сделать страницы более читаемыми. Требуется Microsoft Visual Basic 6.0 Runtime, который не поставляется с загрузкой. Также требуются Inet Control и Internet Controls (Internet Explorer 6 ActiveX), которые поставляются с загрузкой.

ЭПВИНГ

База данных Википедии в автономном режиме в формате словаря EPWING, который является распространенным и устаревшим японским промышленным стандартом (JIS) в Японии, может быть прочитана, включая миниатюры изображений и таблицы с некоторыми ограничениями рендеринга, на любых системах, где доступен ридер (Boookends). Существует множество бесплатных и коммерческих ридеров для Windows (включая Mobile), Mac OS X, iOS (iPhone, iPad), Android, Unix-Linux-BSD, DOS и браузерных приложений на основе Java (EPWING Viewers).

Зеркальное здание

WP-ЗЕРКАЛО

Важно: WP-mirror не поддерживается с 2014 года, и требуется проверка сообщества, что он действительно работает. См. страницу обсуждения .

WP-MIRROR — бесплатная утилита для зеркалирования любого желаемого набора WMF wiki. То есть, она создает wiki-ферму, которую пользователь может просматривать локально. WP-MIRROR создает полное зеркало с медиафайлами оригинального размера. WP-MIRROR доступен для загрузки.

Смотрите также

Ссылки

  1. ^ Для получения дополнительной информации о совместимости с GFDL см . Wikipedia:Повторное использование контента Wikipedia § Повторное использование текста в соответствии с лицензией GNU Free Documentation License .
  2. ^ "Benchmarked: What's the Best File Compression Format?". How To Geek . How-To Geek, LLC . Получено 18 января 2017 г. .
  3. ^ "Zip и unzip файлы". Microsoft . Microsoft . Получено 18 января 2017 г. .
  4. ^ ab "Сравнение форматов томов". developer.apple.com . Получено 2023-11-19 .
  5. ^ Поддержка больших файлов в Linux
  6. Android 2.2 и более ранние версии использовали файловую систему YAFFS; 14 декабря 2010 г.

Внешние ссылки