stringtranslate.com

Википедия:Загрузка базы данных

Википедия предлагает заинтересованным пользователям бесплатные копии всего доступного контента. Эти базы данных можно использовать для зеркалирования , личного использования, неофициального резервного копирования, автономного использования или запросов к базе данных (например, для Wikipedia:Maintenance ). Весь текстовый контент лицензируется по лицензии Creative Commons Attribution-ShareAlike 3.0 (CC-BY-SA), а большая часть дополнительно лицензируется по лицензии GNU Free Documentation License (GFDL). [1] Изображения и другие файлы доступны на различных условиях , как подробно описано на страницах их описания. Наши советы по соблюдению этих лицензий см. в Wikipedia:Copyrights .

Офлайн-читатели Википедии

Некоторые из многих способов читать Википедию в автономном режиме:

Некоторые из них являются мобильными приложениями – см. « список мобильных приложений Википедии ».

Где взять дампы?

Англоязычная Википедия

Должен ли я получить многопоточность?

TL;DR : ПОЛУЧИТЕ МНОГОПОТОЧНУЮ ВЕРСИЮ! (и соответствующий индексный файлpages -articles-multistream-index.txt.bz2 )

страницы-articles.xml.bz2 и страницы-статьи-multistream.xml.bz2 содержат одинаковое содержимое XML . Так что если вы распакуете любой из них, вы получите те же данные. А вот с мультистримом есть возможность достать статью из архива, не распаковывая его целиком. Ваш читатель должен справиться с этим за вас. Если ваш читатель не поддерживает это, он все равно будет работать, поскольку многопоточный и немультипоточный содержат один и тот же xml . Единственным недостатком многопоточности является то, что она немного больше. У вас может возникнуть соблазн получить немультипотоковый архив меньшего размера, но это будет бесполезно, если вы его не распакуете. И он распакуется примерно в 5-10 раз от своего первоначального размера. Пенни мудрый, фунт глупый. Получите многопоточность.

ПРИМЕЧАНИЕ. Файл многопоточного дампа содержит несколько «потоков» bz2 (заголовок, тело и нижний колонтитул bz2), объединенных в один файл, в отличие от ванильного файла, который содержит один поток. Каждый отдельный «поток» (или фактически файл) в многопоточном дампе содержит 100 страниц, за исключением, возможно, последней.

Как использовать многопоток?

Для многопоточности вы можете получить индексный файлpages -articles-multistream-index.txt.bz2 . Первое поле этого индекса — это количество байтов для поиска в сжатом архивеpages -articles-multistream.xml.bz2 , второе — идентификатор статьи, третье — заголовок статьи.

Вырежьте небольшую часть архива с помощью dd, используя смещение в байтах, указанное в индексе. Затем вы можете либо распаковать его с помощью bzip2, либо использовать bzip2recover и выполнить поиск в первом файле по идентификатору статьи.

См. https://docs.python.org/3/library/bz2.html#bz2.BZ2Decompressor для получения информации о таких многопоточных файлах и о том, как их распаковать с помощью Python; см. также https://gerrit.wikimedia.org/r/plugins/gitiles/operations/dumps/+/ariel/toys/bz2multistream/README.txt и связанные файлы для старой рабочей игрушки.

Другие языки

В каталоге dumps.wikimedia.org вы найдете последние дампы SQL и XML для проектов, не только на английском языке. Подкаталоги названы в честь кода языка и соответствующего проекта. Существуют и другие каталоги (например, Simple, Nostalgia) с такой же структурой. Эти дампы также доступны в Интернет-архиве.

Где находятся загруженные файлы (изображение, аудио, видео и т. д.)?

Изображения и другие загруженные медиафайлы доступны с зеркал, а также передаются непосредственно с серверов Викимедиа. Массовая загрузка (по состоянию на сентябрь 2013 г.) доступна с зеркал, но не предлагается напрямую с серверов Викимедиа. Смотрите список текущих зеркал. Вам следует выполнить синхронизацию с зеркала, а затем заполнить недостающие изображения с сайта upload.wikimedia.org; при загрузке с сайта upload.wikimedia.orgвы должны ограничить себя до 1 промаха в кэше в секунду (вы можете проверить заголовки ответа, чтобы узнать, был ли это попадание или промах, а затем отступить, когда вы получите промах), и вам не следует использовать более одного или двух одновременные HTTP-соединения. В любом случае убедитесь, что у вас есть точная строка пользовательского агента с контактной информацией (адресом электронной почты), чтобы операторы могли связаться с вами в случае возникновения проблемы. Вы должны получать контрольные суммы от API mediawiki и проверять их. Страница этикета API содержит некоторые рекомендации, хотя не все из них применимы (например, поскольку upload.wikimedia.org не является MediaWiki, параметр отсутствует maxlag).

В отличие от большей части текста статьи, изображения не обязательно лицензируются по GFDL и CC-BY-SA-3.0. Они могут находиться под одной из многих свободных лицензий , находиться в общественном достоянии , что считается добросовестным использованием или даже нарушением авторских прав (которые следует удалить ). В частности, использование изображений добросовестного использования вне контекста Википедии или аналогичных произведений может быть незаконным. Изображения по большинству лицензий требуют указания авторства и, возможно, другой прилагаемой информации об авторских правах. Эта информация включена в страницы описания изображений, которые являются частью текстовых дампов, доступных на dumps.wikimedia.org. В заключение: загружайте эти изображения на свой страх и риск (юридически).

Работа со сжатыми файлами

Сжатые файлы дампа значительно сжимаются, поэтому после распаковки будут занимать много места на диске. Большой список программ распаковки описан в сравнении файловых архиваторов . Следующие программы, в частности, можно использовать для распаковки файлов bzip2, .bz2 , .zip и .7z .

Окна

Начиная с Windows XP , базовая программа распаковки позволяет распаковывать zip-файлы. [2] [3] Среди прочего, для распаковки файлов bzip2 можно использовать следующее.

Макинтош (Мак)
ГНУ/ Линукс
Распространение программного обеспечения Беркли (BSD)
Примечания
  1. Некоторые старые версии bzip2 могут не поддерживать файлы размером более 2 ГБ, поэтому убедитесь, что у вас установлена ​​последняя версия, если у вас возникнут какие-либо проблемы.
  2. Некоторые старые архивы сжимаются с помощью gzip, совместимого с PKZIP (наиболее распространенный формат Windows).

Работа с большими файлами

По мере увеличения размера файлов растет и вероятность того, что они превысят некоторый предел вычислительного устройства. Каждая операционная система, файловая система, жесткое устройство хранения данных и программное обеспечение (приложение) имеют максимальный размер файла. У каждого из них, вероятно, будет свой максимум, и самый низкий предел из всех станет пределом размера файла для устройства хранения.

Чем старше программное обеспечение на вычислительном устройстве, тем больше вероятность того, что где-то в системе будет ограничение на размер файла в 2 ГБ. Это связано с тем, что более старое программное обеспечение использует 32-битные целые числа для индексации файлов, что ограничивает размеры файлов до 2 ^ 31 байт (2 ГБ) (для целых чисел со знаком) или 2 ^ 32 (4 ГБ) (для целых чисел без знака). Старые библиотеки программирования C имеют ограничение в 2 или 4 ГБ, но новые библиотеки файлов были преобразованы в 64-битные целые числа, что поддерживает размеры файлов до 2 ^ 63 или 2 ^ 64 байта (8 или 16 EB ).

Прежде чем начать загрузку большого файла, проверьте устройство хранения, чтобы убедиться, что его файловая система поддерживает файлы такого большого размера, проверьте объем свободного места, чтобы убедиться, что оно может хранить загруженный файл, и убедитесь, что устройство(а) ), вы будете использовать хранилище, которое сможет читать выбранную вами файловую систему.

Ограничения файловой системы

Для файловой системы существует два ограничения: ограничение размера файловой системы и ограничение файловой системы. В общем, поскольку предел размера файла меньше ограничения файловой системы, более высокие ограничения файловой системы являются спорным вопросом. Большой процент пользователей предполагает, что они могут создавать файлы размером с их устройство хранения данных, но ошибаются в своих предположениях. Например, на устройстве хранения данных емкостью 16 ГБ, отформатированном в файловой системе FAT32, ограничение на размер каждого отдельного файла составляет 4 ГБ. Ниже приведен список наиболее распространенных файловых систем. Дополнительную подробную информацию см. в разделе «Сравнение файловых систем» .

Окна
Макинтош (Мак)
Линукс
FreeBSD
FreeBSD и другие BSD

Ограничения операционной системы

Каждая операционная система имеет внутренние ограничения файловой системы на размер файла и размер диска, которые не зависят от файловой системы или физического носителя. Если операционная система имеет какие-либо ограничения ниже, чем файловая система или физический носитель, то реальным пределом будут ограничения ОС.

Окна
Линукс

Android : Android основан на Linux, что определяет его базовые ограничения.

Apple iOS (см. Список моделей iPhone )

Советы

Обнаружение поврежденных файлов

Полезно проверить суммы MD5 (предоставленные в файле в каталоге загрузки), чтобы убедиться, что загрузка была полной и точной. Это можно проверить, выполнив команду «md5sum» для загруженных файлов. Учитывая их размеры, расчет может занять некоторое время. Из-за технических особенностей хранения файлов размеры файлов могут сообщаться по-разному в разных файловых системах, поэтому они не обязательно надежны. Кроме того, во время загрузки могло произойти повреждение, хотя это маловероятно.

Линукс и Юникс

Если кажется, что вы достигли предела в 2 ГБ, попробуйте использовать wget версии 1.10 или новее, cURL версии 7.11.1-1 или новее или последнюю версию lynx (с использованием -dump). Также вы можете возобновить загрузку (например, wget -c).

Почему бы просто не получать данные с wikipedia.org во время выполнения?

Предположим, вы создаете программу, которая в определенные моменты отображает информацию, полученную из Википедии. Если вы хотите, чтобы ваша программа отображала информацию иначе, чем в действующей версии, вам, вероятно, понадобится викикод, который используется для ее ввода, а не готовый HTML.

Кроме того, если вы хотите получить все данные, вам, вероятно, захочется передать их наиболее эффективным способом. Серверам wikipedia.org нужно проделать немало работы, чтобы преобразовать викикод в HTML. Это отнимает много времени как у вас, так и у серверов wikipedia.org, поэтому простое сканирование всех страниц — не лучший вариант.

Чтобы получить доступ к любой статье в XML по одной, откройте Special:Export/Title of the Article .

Подробнее об этом читайте на сайте Special:Export .

Обратите внимание, что живые зеркала Википедии, динамически загружаемые с серверов Викимедиа, запрещены. См. Википедию: Зеркала и вилки .

Пожалуйста, не используйте веб-сканер

Пожалуйста, не используйте веб-сканер для загрузки большого количества статей. Агрессивное сканирование сервера может привести к резкому замедлению работы Википедии.

Пример электронного письма заблокированного сканера

IP-адрес nnn.nnn.nnn.nnn получал до 50 страниц в секунду с адресов wikipedia.org. Разумно что-то вроде хотя бы секундной задержки между запросами. Пожалуйста, уважайте эту настройку. Если вам необходимо немного превысить его, делайте это только в наименее загруженное время, указанное на графиках загрузки нашего сайта по адресу stats.wikimedia.org/EN/ChartsWikipediaZZ.htm . Стоит отметить, что сканирование всего сайта со скоростью одно посещение в секунду займет несколько недель. Исходный IP-адрес сейчас заблокирован или будет заблокирован в ближайшее время. Пожалуйста, свяжитесь с нами, если вы хотите, чтобы его разблокировали. Пожалуйста, не пытайтесь обойти это – мы просто заблокируем весь ваш диапазон IP-адресов.
Если вам нужна информация о том, как более эффективно получать наш контент, мы предлагаем различные методы, включая еженедельные дампы базы данных, которые вы можете загружать в MySQL и сканировать локально с любой удобной скоростью. Также доступны инструменты, которые будут делать это за вас так часто, как вам захочется, как только у вас будет создана инфраструктура.
Вместо ответа по электронной почте вы можете посетить #mediawiki Connect на irc.libera.chat, чтобы обсудить возможные варианты с нашей командой.

Выполнение SQL-запросов к текущему дампу базы данных

Вы можете выполнять SQL-запросы к текущему дампу базы данных с помощью Quarry (в качестве замены отключенной страницы Special:Asksql ).

Схема базы данных

Схема SQL

См. также: mw:Руководство:Разметка базы данных.

Файл sql, используемый для инициализации базы данных MediaWiki, можно найти здесь.

XML-схема

Схема XML для каждого дампа определена в верхней части файла и описана на странице справки по экспорту MediaWiki.

Помогите разобрать дампы для использования в скриптах

Выполнение Hadoop MapReduce в текущем дампе базы данных Википедии

Вы можете выполнять запросы Hadoop MapReduce к текущему дампу базы данных, но вам понадобится расширение для InputRecordFormat, чтобы каждый <page> </page> был одним входом сопоставителя. Рабочий набор методов Java (jobControl, Mapper, Reducer и XmlInputRecordFormat) доступен на сайте Hadoop в Википедии.

Помогите импортировать дампы в MySQL.

Видеть:

HTML-дампы Wikimedia Enterprise

В рамках Wikimedia Enterprise публикуется частичное зеркало дампов HTML. Дампы создаются для определенного набора пространств имен и вики, а затем доступны для публичной загрузки. Каждый выходной файл дампа состоит из архива tar.gz, который в несжатом и незаархивированном состоянии содержит один файл с одной строкой на статью в формате json. На данный момент это экспериментальная услуга.

Статические дампы HTML-дерева для зеркалирования или распространения компакт-дисков.

MediaWiki 1.5 включает процедуры для создания дампа вики в HTML, визуализирующего HTML с помощью того же анализатора, который используется в действующей вики. Как указано на следующей странице, размещение одного из этих дампов в сети в неизмененном виде будет представлять собой нарушение прав на товарный знак. Они предназначены для частного просмотра в интранете или на рабочем столе.

Смотрите также:

Кивикс

Kiwix на планшете Android

Kiwix на сегодняшний день является крупнейшим офлайн-дистрибутивом Википедии . В качестве автономного средства чтения Kiwix работает с библиотекой содержимого в виде файлов ZIM: вы можете выбрать любой проект Wikimedia (Википедия на любом языке, Викисловарь , Wikisource и т. д.), а также выступления TED , PhET Interactive Math & Physics. симуляции , Project Gutenberg и т. д.

Он бесплатен и имеет открытый исходный код, и в настоящее время доступен для скачивания по адресу:

... а также расширения для браузеров Chrome и Firefox, серверные решения и т. д. Полное портфолио Kiwix можно найти на официальном сайте.

Словарь Аард / Аард 2

Aard Dictionary — автономная программа для чтения Википедии. Нет изображений. Кроссплатформенность для Windows, Mac, Linux, Android, Maemo. Работает на рутованных устройствах для чтения электронных книг Nook и Sony PRS-T1.

У него также есть преемник Aard 2.

Wikiviewer для Rockbox

Плагин wikiviewer для Rockbox позволяет просматривать конвертированные дампы Википедии на многих устройствах Rockbox . Требуется специальная сборка и преобразование дампов вики, используя инструкции, доступные по адресу http://www.rockbox.org/tracker/4755. При преобразовании файл повторно сжимается и разбивается на файлы размером 1 ГБ и индексный файл, которые должны находиться в одной папке на устройстве или на карте micro SD.

Старые свалки

Динамическая генерация HTML из дампа локальной базы данных XML

Вместо преобразования файла дампа базы данных во множество фрагментов статического HTML можно также использовать генератор динамического HTML. Просмотр вики-страницы аналогичен просмотру вики-сайта, но содержимое извлекается и преобразуется из локального файла дампа по запросу браузера.

СОВА

XOWA — бесплатное приложение с открытым исходным кодом, которое помогает загрузить Википедию на компьютер. Получите доступ ко всей Википедии в автономном режиме, без подключения к Интернету! В настоящее время он находится на стадии бета-разработки, но функционален. Он доступен для скачивания здесь.

Функции

Основные особенности

  1. Очень быстрый поиск
  2. Поиск по ключевым словам (фактически, заглавным словам)
  3. Поиск выдает несколько возможных статей: вы можете выбирать среди них.
  4. Рендеринг математических формул на основе LaTeX
  5. Минимальные требования к пространству: исходный файл .bz2 плюс индекс.
  6. Очень быстрая установка (считанные часы) по сравнению с загрузкой дампа в MySQL.

ВикиФильтр

WikiFilter — это программа, которая позволяет просматривать более 100 файлов дампа, не посещая Wiki-сайт.

Системные требования WikiFilter

Как настроить WikiFilter

  1. Начните загрузку файла дампа базы данных Википедии, например дампа английской Википедии. Лучше всего использовать менеджер загрузок, например GetRight , чтобы вы могли возобновить загрузку файла, даже если ваш компьютер выйдет из строя или выключится во время загрузки.
  2. Загрузите XAMPPLITE из [2] (чтобы он работал, вам необходима версия 1.5.0). Обязательно выберите файл, имя которого заканчивается на .exe.
  3. Установите/распакуйте его в C:\XAMPPLITE.
  4. Загрузите WikiFilter 2.3 с этого сайта: http://sourceforge.net/projects/wikifilter. У вас будет выбор файлов для загрузки, поэтому убедитесь, что вы выбрали версию 2.3. Распакуйте его в C:\WIKIFILTER.
  5. Скопируйте WikiFilter.so в папку C:\XAMPPLITE\apache\modules.
  6. Отредактируйте файл C:\xampplite\apache\conf\httpd.conf и добавьте следующую строку:
    • LoadModule WikiFilter_module "C:/XAMPPLITE/apache/modules/WikiFilter.so"
  7. Когда загрузка файла Википедии завершится, распакуйте его в папку C:\WIKIFILTER. (Я использовал демо-версию WinRAR http://www.rarlab.com/ – BitZipper http://www.bitzipper.com/winrar.html тоже работает хорошо.)
  8. Запустите WikiFilter (WikiIndex.exe), перейдите в папку C:\WIKIFILTER, перетащите XML-файл в окно, нажмите «Загрузить», затем «Пуск».
  9. После завершения выйдите из окна и перейдите в папку C:\XAMPPLITE. Запустите файл setup_xampp.bat, чтобы настроить xampp.
  10. Когда вы закончите с этим, запустите файл Xampp-Control.exe и запустите Apache.
  11. Перейдите на http://localhost/wiki и посмотрите, работает ли это.
    • Если не поможет, загляните на форум.

WikiTaxi (для Windows)

WikiTaxi — оффлайн-читалка вики в формате MediaWiki. Он позволяет пользователям искать и просматривать популярные вики-сайты, такие как Wikipedia, Wikiquote или WikiNews, без подключения к Интернету. WikiTaxi хорошо работает с разными языками, такими как английский, немецкий, турецкий и другие, но имеет проблемы с языковыми сценариями с письмом справа налево. WikiTaxi не отображает изображения.

Системные требования WikiTaxi

Использование WikiTaxi

  1. Скачайте WikiTaxi и распакуйте в пустую папку. В противном случае установка не требуется.
  2. Загрузите дамп базы данных XML (*.xml.bz2) вашей любимой вики.
  3. Запустите WikiTaxi_Importer.exe, чтобы импортировать дамп базы данных в базу данных WikiTaxi. Импортер позаботится о том, чтобы распаковать дамп во время импорта, поэтому обязательно сэкономьте место на диске и не распаковывайте его заранее.
  4. Когда импорт завершится, запустите WikiTaxi.exe и откройте сгенерированный файл базы данных. Вы можете начать поиск, просмотр и чтение немедленно.
  5. После успешного импорта файл дампа XML больше не нужен, и его можно удалить, чтобы освободить место на диске.
  6. Чтобы обновить автономную Wiki для WikiTaxi, загрузите и импортируйте более свежий дамп базы данных.

Для чтения WikiTaxi необходимы всего два файла: WikiTaxi.exe и база данных .taxi. Скопируйте их на любое запоминающее устройство (карту памяти или карту памяти) или запишите на компакт-диск или DVD-диск и возьмите Википедию с собой куда угодно!

BzReader и MzReader (для Windows)

BzReader — это автономная программа для чтения Википедии с возможностями быстрого поиска. Он преобразует текст Wiki в HTML и не требует распаковки базы данных. Требуется Microsoft .NET Framework 2.0.

MzReader от Mun206 работает с BzReader (хотя и не связан с ним) и позволяет осуществлять дальнейшую рендеринг викикода в более качественный HTML, включая интерпретацию обложки монокниги. Его цель — сделать страницы более читабельными. Требуется среда выполнения Microsoft Visual Basic 6.0, которая не поставляется вместе с загрузкой. Также требуются элементы управления Интернетом и элементы управления Интернетом (Internet Explorer 6 ActiveX), которые поставляются вместе с загрузкой.

ЭПВИНГ

Автономную базу данных Википедии в формате словаря EPWING, который является распространенным и устаревшим японским промышленным стандартом (JIS) в Японии, можно читать, включая миниатюрные изображения и таблицы с некоторыми ограничениями рендеринга, в любых системах, где доступно устройство чтения (Boookends). Существует множество бесплатных и коммерческих программ для чтения для Windows (включая мобильные устройства), Mac OS X, iOS (iPhone, iPad), Android, Unix-Linux-BSD, DOS и браузерных приложений на основе Java (EPWING Viewers).

Зеркальное здание

WP-ЗЕРКАЛО

Важно: WP-mirror не поддерживается с 2014 года, и необходима проверка сообщества на то, что оно действительно работает. См. страницу обсуждения .

WP-MIRROR — бесплатная утилита для зеркалирования любого желаемого набора вики WMF. То есть он создает вики-ферму, которую пользователь может просматривать локально. WP-MIRROR создает полное зеркало с медиафайлами оригинального размера. WP-MIRROR доступен для скачивания.

Смотрите также

Рекомендации

  1. ^ См. Википедию: Повторное использование содержимого Википедии § Повторное использование текста в соответствии с лицензией свободной документации GNU для получения дополнительной информации о совместимости с GFDL.
  2. ^ «Проверено: какой формат сжатия файлов лучше всего?». Как компьютерщику . How-To Geek, ООО . Проверено 18 января 2017 г.
  3. ^ «Архивировать и разархивировать файлы» . Майкрософт . Майкрософт . Проверено 18 января 2017 г.
  4. ^ ab «Сравнение форматов томов». разработчик.apple.com . Проверено 19 ноября 2023 г.
  5. ^ Поддержка больших файлов в Linux
  6. ^ Android 2.2 и более ранние версии использовали файловую систему YAFFS; 14 декабря 2010 г.

Внешние ссылки