Википедия:Загрузка базы данных

Wikipedia предлагает заинтересованным пользователям бесплатные копии всего доступного контента. Эти базы данных могут использоваться для зеркалирования , личного использования, неформального резервного копирования, автономного использования или запросов к базам данных (например, для Wikipedia:Maintenance ). Весь текстовый контент лицензирован в соответствии с лицензией Creative Commons Attribution-ShareAlike 3.0 (CC-BY-SA), а большая его часть дополнительно лицензирована в соответствии с лицензией GNU Free Documentation License (GFDL). ^[1] Изображения и другие файлы доступны на различных условиях , как подробно описано на страницах их описаний. Наши советы по соблюдению этих лицензий см. в Wikipedia:Copyrights .

Офлайн-читатели Википедии

Вот несколько способов читать Википедию офлайн:

Kiwix : (§ Kiwix) - индекс изображений (2024)
XOWA : (§ XOWA) - индекс изображений (2015)
WikiTaxi: § WikiTaxi (для Windows)
aarddict: § Словарь Aard / Aard 2
BzReader: § BzReader и MzReader (для Windows)
WikiFilter: § WikiFilter
Wikipedia на Rockbox: § Wikiviewer для Rockbox
Избранные статьи Википедии в виде печатного документа: Справка:Печать

Некоторые из них являются мобильными приложениями – см. « Список мобильных приложений Википедии ».

Где я могу получить дампы?

Англоязычная Википедия

Дампы из любого проекта Фонда Викимедиа: dumps.wikimedia.org и Архив Интернета
Английские дампы Википедии в SQL и XML: dumps.wikimedia.org/enwiki/ и Архив Интернета
- Загрузите дамп данных с помощью клиента BitTorrent (торрент имеет много преимуществ и снижает нагрузку на сервер, экономя затраты на полосу пропускания).
- pages-articles-multistream.xml.bz2 — только текущие версии, без обсуждений или страниц пользователей; это, вероятно, то, что вам нужно, и в сжатом виде он весит более 19 ГБ (при распаковке расширяется до более чем 86 ГБ).
- pages-meta-current.xml.bz2 – Только текущие версии, все страницы (включая обсуждение)
- abstract.xml.gz – страницы аннотаций
- all-titles-in-ns0.gz – Только заголовки статей (с перенаправлениями)
- Также доступны файлы SQL для страниц и ссылок.
- Все ревизии, все страницы: Эти файлы расширяются до нескольких терабайт текста. Пожалуйста, загружайте их только если вы уверены, что можете справиться с таким объемом данных. Перейдите в раздел Latest Dumps и найдите все файлы, в имени которых есть «pages-meta-history».
Чтобы загрузить подмножество базы данных в формате XML, например, определенную категорию или список статей, см. раздел Special:Export , использование которого описано в разделе Help:Export .
Интерфейсное программное обеспечение Wiki: MediaWiki [1].
Программное обеспечение для работы с базами данных: MySQL .
Изображения дампов: см. ниже.

Стоит ли мне подключать многопотоковую передачу?

TL;DR : ПОЛУЧИТЕ МНОГОПОТОКОВУЮ ВЕРСИЮ! (и соответствующий файл индекса, pages-articles-multistream-index.txt.bz2 )

pages-articles.xml.bz2 и pages-articles-multistream.xml.bz2 содержат одинаковое содержимое xml . Поэтому если вы распакуете любой из них, вы получите те же данные. Но с помощью multistream можно получить статью из архива, не распаковывая его целиком. Ваш ридер должен справиться с этим за вас, если ваш ридер не поддерживает это, он все равно будет работать, поскольку multistream и non-multistream содержат один и тот же xml . Единственным недостатком multistream является то, что он немного больше. У вас может возникнуть соблазн получить меньший non-multistream архив, но это будет бесполезно, если вы его не распакуете. И он распакуется примерно в 5-10 раз от своего первоначального размера. Копейка мудра, фунт глуп. Получите multistream.

ОБРАТИТЕ ВНИМАНИЕ, что файл дампа multistream содержит несколько bz2 'streams' (заголовок bz2, тело, нижний колонтитул), объединенных вместе в один файл, в отличие от файла vanilla, который содержит один поток. Каждый отдельный 'stream' (или на самом деле файл) в дампе multistream содержит 100 страниц, за исключением, возможно, последней.

Как использовать многопоточность?

Для многопоточности можно получить файл индекса pages-articles-multistream-index.txt.bz2 . Первое поле этого индекса — это количество байтов для поиска в сжатом архиве pages-articles-multistream.xml.bz2 , второе — идентификатор статьи, третье — заголовок статьи.

Вырежьте небольшую часть архива с помощью dd, используя смещение байта, найденное в индексе. Затем вы можете либо распаковать его с помощью bzip2, либо использовать bzip2recover и выполнить поиск по первому файлу для идентификатора статьи.

Информацию о таких многопоточных файлах и о том, как распаковать их с помощью Python, см. по адресу https://docs.python.org/3/library/bz2.html#bz2.BZ2Decompressor; также см. по адресу https://gerrit.wikimedia.org/r/plugins/gitiles/operations/dumps/+/ariel/toys/bz2multistream/README.txt и связанным файлам для старой рабочей игрушки.

Другие языки

В каталоге dumps.wikimedia.org вы найдете последние SQL и XML дампы для проектов, не только на английском языке. Подкаталоги названы по языковому коду и соответствующему проекту. Существуют и другие каталоги (например, simple, nostalgia) с такой же структурой. Эти дампы также доступны в Архиве Интернета.

Где находятся загруженные файлы (изображения, аудио, видео и т. д.)?

Изображения и другие загруженные медиафайлы доступны с зеркал в дополнение к тому, что они обслуживаются напрямую с серверов Wikimedia. Массовая загрузка (по состоянию на сентябрь 2013 г.) доступна с зеркал, но не предлагается напрямую с серверов Wikimedia. Смотрите список текущих зеркал. Вам следует выполнить rsync с зеркала, затем заполнить недостающие изображения с upload.wikimedia.org; при загрузке с upload.wikimedia.orgвы должны ограничить себя до 1 промаха кэша в секунду (вы можете проверить заголовки в ответе, чтобы увидеть, был ли это успех или промах, а затем откатиться назад, если вы получите промах), и вы не должны использовать более одного или двух одновременных HTTP-соединений. В любом случае, убедитесь, что у вас есть точная строка user agent с контактной информацией (адрес электронной почты), чтобы операторы могли связаться с вами в случае возникновения проблемы. Вы должны получать контрольные суммы из API mediawiki и проверять их. Страница API Etiquette содержит некоторые рекомендации, хотя не все из них применимы (например, поскольку upload.wikimedia.org не является MediaWiki, нет maxlagпараметра).

В отличие от большинства текстов статей, изображения не обязательно лицензированы по GFDL и CC-BY-SA-3.0. Они могут находиться под одной из многих свободных лицензий , в общественном достоянии , считаться добросовестным использованием или даже нарушать авторские права (которые следует удалить ). В частности, использование добросовестных изображений вне контекста Википедии или подобных работ может быть незаконным. Изображения по большинству лицензий требуют указания источника и, возможно, другой прилагаемой информации об авторских правах. Эта информация включена в страницы описания изображений, которые являются частью текстовых дампов, доступных на dumps.wikimedia.org. В заключение, загружайте эти изображения на свой страх и риск (юридические).

Работа со сжатыми файлами

Сжатые файлы дампа значительно сжаты, поэтому после распаковки будут занимать много места на диске. Большой список программ распаковки описан в сравнении архиваторов файлов . В частности, следующие программы могут использоваться для распаковки файлов bzip2, .bz2 , .zip и .7z .

Окна

Начиная с Windows XP , базовая программа распаковки позволяет распаковывать zip-файлы. ^[2]^[3] Среди прочего, для распаковки bzip2-файлов можно использовать следующее.

bzip2 (командная строка) (отсюда) доступен бесплатно по лицензии BSD.
7-Zip доступен бесплатно по лицензии LGPL .
WinRAR
WinZip

Макинтош (Mac)

В комплект поставки macOS входит инструмент командной строки bzip2.

GNU/ Linux

Большинство дистрибутивов GNU/Linux поставляются с инструментом командной строки bzip2.

Распространение программного обеспечения Беркли (BSD)

Некоторые системы BSD поставляются с командной строкой bzip2 как частью операционной системы. Другие, такие как OpenBSD , предоставляют его как пакет, который необходимо сначала установить.

Примечания

Некоторые старые версии bzip2 могут не поддерживать файлы размером более 2 ГБ, поэтому, если у вас возникнут какие-либо проблемы, убедитесь, что у вас установлена последняя версия.
Некоторые старые архивы сжаты с помощью gzip, который совместим с PKZIP (наиболее распространенным форматом Windows).

Работа с большими файлами

По мере увеличения размера файлов увеличивается и вероятность того, что они превысят некоторый предел вычислительного устройства. Каждая операционная система, файловая система, жесткое запоминающее устройство и программное обеспечение (приложение) имеют максимальный предел размера файла. У каждого из них, скорее всего, будет свой максимум, а наименьший предел из всех станет пределом размера файла для запоминающего устройства.

Чем старше программное обеспечение на вычислительном устройстве, тем больше вероятность, что где-то в системе оно будет иметь ограничение на размер файла в 2 ГБ. Это связано с тем, что старое программное обеспечение использует 32-битные целые числа для индексации файлов, что ограничивает размер файла до 2^31 байта (2 ГБ) (для знаковых целых чисел) или 2^32 (4 ГБ) (для беззнаковых целых чисел). Старые библиотеки программирования на языке C имеют это ограничение в 2 или 4 ГБ, но более новые библиотеки файлов были преобразованы в 64-битные целые числа, таким образом поддерживая размеры файлов до 2^63 или 2^64 байт (8 или 16 ЭБ ).

Перед началом загрузки большого файла проверьте устройство хранения, чтобы убедиться, что его файловая система может поддерживать файлы такого большого размера, проверьте объем свободного места, чтобы убедиться, что оно может вместить загруженный файл, и убедитесь, что устройство(а), с которым(и) вы будете использовать хранилище, могут читать выбранную вами файловую систему.

Ограничения файловой системы

Для файловой системы существует два ограничения: ограничение размера файловой системы и ограничение файловой системы. В общем, поскольку ограничение размера файла меньше ограничения файловой системы, большие ограничения файловой системы являются спорным вопросом. Большой процент пользователей предполагает, что они могут создавать файлы размером до размера своего устройства хранения, но ошибаются в своих предположениях. Например, устройство хранения объемом 16 ГБ, отформатированное в файловой системе FAT32, имеет ограничение файла в 4 ГБ для любого отдельного файла. Ниже приведен список наиболее распространенных файловых систем, а для получения дополнительной подробной информации см. Сравнение файловых систем .

Окна

FAT16 поддерживает файлы размером до 4 ГБ . FAT16 — это заводской формат небольших USB- накопителей и всех SD-карт объемом 2 ГБ или меньше.
FAT32 поддерживает файлы размером до 4 ГБ. FAT32 — это заводской формат больших USB- накопителей и всех карт SDHC объемом 4 ГБ и более.
exFAT поддерживает файлы размером до 127 ПБ . exFAT — это заводской формат всех карт SDXC , но он несовместим с большинством версий UNIX из-за проблем с лицензированием.
NTFS поддерживает файлы размером до 16 ТБ . NTFS — это файловая система по умолчанию для современных компьютеров Windows , включая Windows 2000, Windows XP и все их последователи на сегодняшний день. Версии после Windows 8 могут поддерживать файлы большего размера, если файловая система отформатирована с большим размером кластера.
ReFS поддерживает файлы размером до 16 ЭБ .

Макинтош (Mac)

HFS Plus (HFS+) (также известная как Mac OS Extended) поддерживает файлы размером до 8 EiB (8 эксбибайт) (2^63 байт). ^[4] Эксбибайт похож на эксабайт . HFS Plus поддерживается в macOS 10.2+ и iOS . Это была файловая система по умолчанию для компьютеров macOS до выпуска macOS High Sierra в 2017 году, когда она была заменена на файловую систему Apple File System , APFS .
APFS поддерживает файлы размером до 8 эксбибайт (2^63 байта). ^[4]

Линукс

ext2 и ext3 поддерживают файлы размером до 16 ГБ, но до 2 ТБ с большими размерами блоков. Подробнее см. https://users.suse.com/~aj/linux_lfs.html.
ext4 поддерживает файлы размером до 16 ТБ, используя размер блока 4 КБ. (ограничение снято в e2fsprogs-1.42 (2012))
XFS поддерживает файлы размером до 8 ЭБ.
ReiserFS поддерживает файлы размером до 1 ЭБ, 8 ТБ на 32-разрядных системах.
JFS поддерживает файлы размером до 4 ПБ.
Btrfs поддерживает файлы размером до 16 ЭБ.
NILFS поддерживает файлы размером до 8 ЭБ.
YAFFS 2 поддерживает файлы размером до 2 ГБ

FreeBSD

ZFS поддерживает файлы размером до 16 ЭБ.

FreeBSD и другие BSD

Файловая система Unix (UFS) поддерживает файлы размером до 8 ЗиБ.

Ограничения операционной системы

Каждая операционная система имеет внутренние ограничения файловой системы на размер файла и размер диска, которые не зависят от файловой системы или физического носителя. Если операционная система имеет какие-либо ограничения ниже, чем файловая система или физический носитель, то ограничения ОС будут реальным ограничением.

Окна

В Windows 95, 98, ME для всех размеров файлов установлено ограничение в 4 ГБ.
В Windows XP для всех размеров файлов установлено ограничение в 16 ТБ.
В Windows 7 установлено ограничение в 16 ТБ для файлов всех размеров.
В Windows 8, 10 и Server 2012 ограничение на размер файлов всех размеров составляет 256 ТБ.

Линукс

В системах с 32-разрядным ядром 2.4.x для всех файловых систем установлено ограничение в 2 ТБ.
В системах с 64-битным ядром 2.4.x для всех файловых систем установлено ограничение в 8 ЭБ.
Системы с 32-разрядным ядром 2.6.x без опции CONFIG_LBD имеют ограничение в 2 ТБ для всех файловых систем.
Системы с 32-битным ядром 2.6.x с опцией CONFIG_LBD и все системы с 64-битным ядром 2.6.x имеют ограничение в 8 ЗБ для всех файловых систем. ^[5]

Android : Android основан на Linux, что определяет его базовые ограничения.

Внутренняя память:
- Android 2.3 и более поздние версии используют файловую систему ext4 . ^[6]
- Android 2.2 и более ранние версии используют файловую систему YAFFS 2.
Внешние слоты для хранения данных:
- Все устройства Android должны поддерживать файловые системы FAT16, FAT32, ext2.
- Android 2.3 и более поздние версии поддерживают файловую систему ext4.

Apple iOS (см. Список моделей iPhone )

Все устройства поддерживают HFS Plus (HFS+) для внутреннего хранилища. Ни одно устройство не имеет внешних слотов для хранения. Устройства на 10.3 или более поздней версии используют файловую систему Apple, поддерживающую максимальный размер файла 8 ЭБ.

Советы

Обнаружение поврежденных файлов

Полезно проверить суммы MD5 (предоставленные в файле в каталоге загрузки), чтобы убедиться, что загрузка была полной и точной. Это можно проверить, запустив команду "md5sum" для загруженных файлов. Учитывая их размеры, это может занять некоторое время для расчета. Из-за технических деталей того, как хранятся файлы, размеры файлов могут сообщаться по-разному в разных файловых системах, и поэтому не обязательно являются надежными. Кроме того, во время загрузки могло произойти повреждение, хотя это маловероятно.

Linux и Unix

Если вы, кажется, достигли предела в 2 ГБ, попробуйте использовать wget версии 1.10 или выше, cURL версии 7.11.1-1 или выше или последнюю версию lynx (используя -dump). Также вы можете возобновить загрузку (например, wget -c).

Почему бы просто не извлечь данные изwikipedia.orgво время выполнения?

Предположим, вы создаете часть программного обеспечения, которая в определенных точках отображает информацию, взятую из Википедии. Если вы хотите, чтобы ваша программа отображала информацию не так, как это можно увидеть в живой версии, вам, вероятно, понадобится викикод, который используется для ее ввода, а не готовый HTML.

Кроме того, если вы хотите получить все данные, вы, вероятно, захотите передать их наиболее эффективным способом, который возможен. Серверам wikipedia.org нужно проделать большую работу, чтобы преобразовать wikicode в HTML. Это отнимает много времени как для вас, так и для серверов wikipedia.org, поэтому простое сканирование всех страниц — не выход.

Чтобы получить доступ к любой статье в формате XML по одной, перейдите в раздел Special:Export/Title статьи .

Подробнее об этом читайте на странице Special:Export .

Пожалуйста, имейте в виду, что живые зеркала Википедии, которые динамически загружаются с серверов Викимедиа, запрещены. Пожалуйста, см. Wikipedia:Зеркала и форки .

Пожалуйста, не используйте веб-сканер.

Пожалуйста, не используйте веб-краулер для загрузки большого количества статей. Агрессивное сканирование сервера может привести к резкому замедлению работы Википедии.

Пример заблокированного письма от поискового робота

IP-адрес nnn.nnn.nnn.nnn извлекал до 50 страниц в секунду с адресов wikipedia.org. Разумной будет задержка между запросами не менее секунды. Пожалуйста, соблюдайте эту настройку. Если вам нужно немного превысить ее, делайте это только в наименее загруженные периоды, показанные на наших графиках загрузки сайта на stats.wikimedia.org/EN/ChartsWikipediaZZ.htm . Стоит отметить, что сканирование всего сайта со скоростью один запрос в секунду займет несколько недель. Исходный IP-адрес сейчас заблокирован или будет заблокирован в ближайшее время. Пожалуйста, свяжитесь с нами, если вы хотите, чтобы его разблокировали. Пожалуйста, не пытайтесь обойти ее — мы просто заблокируем весь ваш диапазон IP-адресов.

Если вам нужна информация о том, как получать наш контент более эффективно, мы предлагаем различные методы, включая еженедельные дампы базы данных, которые вы можете загрузить в MySQL и сканировать локально с любой удобной для вас скоростью. Также доступны инструменты, которые будут делать это для вас так часто, как вам нужно, как только у вас будет инфраструктура.

Вместо ответа по электронной почте вы можете посетить #mediawiki ^connect на irc.libera.chat, чтобы обсудить свои варианты с нашей командой.

Выполнение SQL-запросов к текущему дампу базы данных

Вы можете выполнять SQL-запросы к текущему дампу базы данных с помощью Quarry (в качестве замены отключенной страницы Special:Asksql ).

Схема базы данных

SQL-схема

См. также: mw:Руководство:Макет базы данных

Файл SQL, используемый для инициализации базы данных MediaWiki, можно найти здесь.

XML-схема

Схема XML для каждого дампа определяется в верхней части файла и описывается на странице справки по экспорту MediaWiki.

Помогите проанализировать дампы для использования в скриптах

Wikipedia:Служба компьютерной поддержки/ParseMediaWikiDump описывает библиотеку Perl Parse::MediaWikiDump, которая может анализировать дампы XML.
Препроцессор Википедии (wikiprep.pl) — это скрипт Perl , который предварительно обрабатывает необработанные XML-дампы и создает таблицы ссылок, иерархии категорий, собирает якорный текст для каждой статьи и т. д.
Парсер дампов SQL Wikipedia — это библиотека .NET для чтения дампов MySQL без необходимости использования базы данных MySQL.
WikiDumpParser – библиотека .NET Core для анализа дампов баз данных.
Dictionary Builder — это программа Rust, которая может анализировать XML-дампы и извлекать записи из файлов.
Скрипты для анализа дампов Википедии – скрипты на основе Python для анализа файлов sql.gz из дампов Википедии.
parse-mediawiki-sql – библиотека Rust для быстрого анализа файлов дампа SQL с минимальным выделением памяти
gitlab.com/tozd/go/mediawiki – пакет Go, предоставляющий утилиты для обработки дампов Wikipedia и Wikidata.

Выполнение Hadoop MapReduce на текущем дампе базы данных Википедии

Вы можете выполнять запросы Hadoop MapReduce на текущем дампе базы данных, но вам понадобится расширение InputRecordFormat, чтобы каждая <page> </page> была отдельным входом mapper. Рабочий набор методов Java (jobControl, mapper, reducer и XmlInputRecordFormat) доступен на Hadoop в Википедии

Помогите импортировать дампы в MySQL

Видеть:

mw:Руководство:Импорт XML-дампов
m:Дампы данных

HTML-дампы Wikimedia Enterprise

В рамках Wikimedia Enterprise публикуется частичное зеркало HTML-дампов. Дампы производятся для определенного набора пространств имен и вики, а затем становятся доступными для публичной загрузки. Каждый выходной файл дампа состоит из архива tar.gz, который после распаковки и распаковки содержит один файл с одной строкой на статью в формате json. [Главная домашняя страница проекта]

Статические HTML-дампы деревьев для зеркалирования или распространения на CD

MediaWiki 1.5 включает процедуры для дампа вики в HTML, рендеринга HTML тем же парсером, который используется в живой вики. Как указано на следующей странице, размещение одного из этих дампов в сети без изменений будет являться нарушением товарного знака. Они предназначены для частного просмотра в интрасети или на настольной установке.

Если вы хотите создать традиционный веб-сайт в Mediawiki и преобразовать его в формат HTML, вам может подойти mw2html от User:Connelly .
Если вы хотите помочь в разработке инструментов преобразования дампа в статический HTML, напишите нам в список рассылки разработчиков .
Статические HTML-дампы теперь доступны здесь.

Смотрите также:

mw:Альтернативные парсеры перечисляют некоторые другие неработающие варианты получения статических HTML-дампов
Википедия:Снимки
Википедия:База данных TomeRaider

Кивикс

Kiwix на сегодняшний день является самым крупным офлайн-дистрибутивом Википедии . Как офлайн-ридер, Kiwix работает с библиотекой контента, которая представляет собой файлы zim: вы можете выбрать любой проект Wikimedia (Википедия на любом языке, Викисловарь , Wikisource и т. д.), а также TED Talks , PhET Interactive Maths & Physics simulations , Project Gutenberg и т. д.

Он бесплатный и имеет открытый исходный код, и в настоящее время доступен для загрузки по адресу:

андроид
iOS
macOS
Windows и Windows 10 (UWP)
GNU/Linux

... а также расширения для браузеров Chrome и Firefox, серверные решения и т. д. Полный перечень Kiwix можно найти на официальном сайте.

Словарь Аард / Аард 2

Aard Dictionary — офлайн-читалка Википедии. Без изображений. Кроссплатформенная для Windows, Mac, Linux, Android, Maemo. Работает на рутированных Nook и Sony PRS-T1 eBooks.

У него также есть преемник Aard 2.

Викивьювер дляРокбокс

Плагин wikiviewer для rockbox позволяет просматривать преобразованные дампы Wikipedia на многих устройствах Rockbox . Для этого требуется индивидуальная сборка и преобразование дампов wiki с использованием инструкций, доступных на http://www.rockbox.org/tracker/4755 . Преобразование повторно сжимает файл и разбивает его на файлы по 1 ГБ и файл индекса, которые все должны находиться в одной папке на устройстве или карте micro sd.

Старые свалки

Статическая версия Википедии, созданная Wikimedia: http://static.wikipedia.org/ 11 февраля 2013 г. — Сейчас она, по-видимому, офлайн. Контента не было.
Wiki2static (сайт не работает с октября 2005 г. ^[update]) — экспериментальная программа, созданная пользователем:Alfio для генерации html-дампов, включая изображения, функцию поиска и алфавитный индекс. На связанном сайте можно загрузить экспериментальные дампы и сам скрипт. В качестве примера она использовалась для генерации копий формата английской WikiPedia 24 апреля 2004 г., простой WikiPedia 1 мая 2004 г. (старая база данных) и английской WikiPedia 24 июля 2004 г., простой WikiPedia 24 июля 2004 г., французской WikiPedia 27 июля 2004 г. (новый формат). BozMo использует версию для генерации периодических статических копий по фиксированной ссылке (сайт не работает с октября 2017 г.).

Динамическая генерация HTML из локального дампа базы данных XML

Вместо преобразования файла дампа базы данных во множество фрагментов статического HTML, можно также использовать динамический генератор HTML. Просмотр страницы вики похож на просмотр сайта вики, но содержимое извлекается и преобразуется из локального файла дампа по запросу из браузера.

XOWA

XOWA — это бесплатное приложение с открытым исходным кодом, которое помогает загрузить Wikipedia на компьютер. Доступ ко всей Wikipedia офлайн, без подключения к интернету! В настоящее время оно находится на стадии бета-разработки, но является функциональным. Оно доступно для загрузки здесь.

Функции

Отображает все статьи из Википедии без подключения к интернету.
Загрузите полную, последнюю версию английской Википедии.
Отображение более 5,2 миллионов статей в полном формате HTML.
Показывать изображения в статье. Доступ к более чем 3,7 миллионам изображений с использованием автономных баз данных изображений.
Работает с любыми вики-проектами Wikimedia, включая Wikipedia, Wiktionary, Wikisource, Wikiquote, Wikivoyage (а также с некоторыми не-wmf-дампами)
Работает с любыми вики-проектами на неанглоязычных языках, такими как французская Википедия, немецкая Викитека, голландская Викигид и т. д.
Работает с другими специализированными вики, такими как Wikidata, Wikimedia Commons, Wikispecies или любыми другими сгенерированными MediaWiki дампами.
Создано более 660 других вики, включая:
- Английский Викисловарь
- Английский Викитека
- Английский Викицитатник
- Английский Викигид
- Неанглийские вики, такие как французский Викисловарь, немецкий Викиресурс, голландский Викигид
- Викиданные
- Викисклад
- Викивиды
- ... и многое другое!
Обновляйте свою вики, когда захотите, используя резервные копии базы данных Wikimedia.
Навигация между офлайн-вики. Нажмите «Найти это слово в Викисловаре» и мгновенно просмотрите страницу в Викисловаре.
Редактируйте статьи, чтобы удалить вандализм или ошибки.
Установите на карту флэш-памяти для переносимости на другие машины.
Работает на Windows, Linux и Mac OS X.
Просмотрите HTML-код любой вики-страницы.
Найдите любую страницу по названию, используя строку поиска, похожую на Википедию.
Просматривайте страницы в алфавитном порядке с помощью Special:AllPages.
Найдите слово на странице.
Доступ к истории просмотренных страниц.
Добавьте в закладки свои любимые страницы.
Загружает изображения и другие файлы по запросу (при подключении к Интернету)
Настраивает Simple Wikipedia менее чем за 5 минут
Возможность настройки на многих уровнях: от сочетаний клавиш до HTML-макетов и внутренних параметров.

Основные характеристики

Очень быстрый поиск
Поиск по ключевым словам (фактически, по словам заголовка)
Поиск выдает несколько возможных статей: вы можете выбрать среди них
Рендеринг математических формул на основе LaTeX
Минимальные требования к пространству: исходный файл .bz2 плюс индекс
Очень быстрая установка (за несколько часов) по сравнению с загрузкой дампа в MySQL

WikiFilter

WikiFilter — это программа, которая позволяет просматривать более 100 файлов дампов, не посещая сайт Wiki.

Системные требования WikiFilter

Последняя версия Windows (подойдет Windows XP; Windows 98 и ME не подойдут, поскольку в них нет поддержки NTFS)
Достаточно много места на жестком диске (для установки вам понадобится около 12–15 гигабайт; после этого вам понадобится всего около 10 гигабайт)

Как настроить WikiFilter

Начните загрузку файла дампа базы данных Википедии, например, дампа английской Википедии. Лучше всего использовать менеджер загрузок, например GetRight , чтобы вы могли возобновить загрузку файла, даже если ваш компьютер выйдет из строя или будет выключен во время загрузки.
Загрузите XAMPPLITE с [2] (для работы вам понадобится версия 1.5.0). Обязательно выберите файл, имя которого заканчивается на .exe
Установите/извлеките его в C:\XAMPPLITE.
Загрузите WikiFilter 2.3 с этого сайта: http://sourceforge.net/projects/wikifilter. У вас будет выбор файлов для загрузки, поэтому убедитесь, что вы выбрали версию 2.3. Извлеките ее в C:\WIKIFILTER.
Скопируйте WikiFilter.so в папку C:\XAMPPLITE\apache\modules.
Отредактируйте файл C:\xampplite\apache\conf\httpd.conf и добавьте следующую строку:
- LoadModule WikiFilter_module "C:/XAMPPLITE/apache/modules/WikiFilter.so"
После завершения загрузки файла Wikipedia распакуйте его в папку C:\WIKIFILTER. (Я использовал демо-версию WinRAR http://www.rarlab.com/ – BitZipper http://www.bitzipper.com/winrar.html тоже хорошо работает.)
Запустите WikiFilter (WikiIndex.exe), перейдите в папку C:\WIKIFILTER, перетащите XML-файл в окно, нажмите «Загрузить», затем «Начать».
После завершения закройте окно и перейдите в папку C:\XAMPPLITE. Запустите файл setup_xampp.bat для настройки xampp.
Закончив с этим, запустите файл Xampp-Control.exe и запустите Apache.
Перейдите по адресу http://localhost/wiki и проверьте, работает ли он.
- Если не поможет, смотрите форумы.

WikiTaxi (для Windows)

WikiTaxi — это офлайн-читалка для вики в формате MediaWiki. Она позволяет пользователям искать и просматривать популярные вики, такие как Wikipedia, Wikiquote или WikiNews, без подключения к Интернету. WikiTaxi хорошо работает с разными языками, такими как английский, немецкий, турецкий и другие, но имеет проблемы с написанием справа налево. WikiTaxi не отображает изображения.

Системные требования WikiTaxi

Любая версия Windows, начиная с Windows 95 или более поздней. Поддержка больших файлов (более 4 ГБ, для которых требуется файловая система exFAT) для огромных вики (на момент написания статьи только на английском языке).
Он также работает на Linux с Wine .
Минимум 16 МБ оперативной памяти для ридера WikiTaxi, рекомендуется 128 МБ для импортера (больше для скорости).
Место для хранения базы данных WikiTaxi. Для английской Википедии требуется около 11,7 GiB (по состоянию на 5 апреля 2011 г.), для немецкой — 2 ГБ, для других Вики — меньше. Вероятно, эти цифры будут расти в будущем.

Использование WikiTaxi

Загрузите WikiTaxi и извлеките в пустую папку. В противном случае установка не требуется.
Загрузите XML-дамп базы данных (*.xml.bz2) вашей любимой вики.
Запустите WikiTaxi_Importer.exe, чтобы импортировать дамп базы данных в базу данных WikiTaxi. Импортер позаботится о распаковке дампа во время импорта, поэтому обязательно сохраните место на диске и не распаковывайте его заранее.
Когда импорт будет завершен, запустите WikiTaxi.exe и откройте сгенерированный файл базы данных. Вы можете начать поиск, просмотр и чтение немедленно.
После успешного импорта XML-файл дампа больше не нужен и его можно удалить, чтобы освободить место на диске.
Чтобы обновить автономную Wiki для WikiTaxi, загрузите и импортируйте более свежий дамп базы данных.

Для чтения WikiTaxi требуются только два файла: WikiTaxi.exe и база данных .taxi. Скопируйте их на любое устройство хранения (флешку или карту памяти) или запишите на CD или DVD и возьмите свою Википедию с собой, куда бы вы ни пошли!

BzReader и MzReader (для Windows)

BzReader — это офлайн-читалка Wikipedia с быстрыми возможностями поиска. Она преобразует текст Wiki в HTML и не требует распаковки базы данных. Требуется Microsoft .NET Framework 2.0.

MzReader от Mun206 работает с BzReader (хотя и не связан с ним) и позволяет дополнительно преобразовывать wikicode в более качественный HTML, включая интерпретацию скина monobook. Он нацелен на то, чтобы сделать страницы более читаемыми. Требуется Microsoft Visual Basic 6.0 Runtime, который не поставляется с загрузкой. Также требуются Inet Control и Internet Controls (Internet Explorer 6 ActiveX), которые поставляются с загрузкой.

ЭПВИНГ

База данных Википедии в автономном режиме в формате словаря EPWING, который является распространенным и устаревшим японским промышленным стандартом (JIS) в Японии, может быть прочитана, включая миниатюры изображений и таблицы с некоторыми ограничениями рендеринга, на любых системах, где доступен ридер (Boookends). Существует множество бесплатных и коммерческих ридеров для Windows (включая Mobile), Mac OS X, iOS (iPhone, iPad), Android, Unix-Linux-BSD, DOS и браузерных приложений на основе Java (EPWING Viewers).

Зеркальное здание

WP-ЗЕРКАЛО

Важно: WP-mirror не поддерживается с 2014 года, и требуется проверка сообщества, что он действительно работает. См. страницу обсуждения .

WP-MIRROR — бесплатная утилита для зеркалирования любого желаемого набора WMF wiki. То есть, она создает wiki-ферму, которую пользователь может просматривать локально. WP-MIRROR создает полное зеркало с медиафайлами оригинального размера. WP-MIRROR доступен для загрузки.

Смотрите также

DBpedia
WikiReader
mw:Справка:Экспорт
m:Справка:Загрузка страниц
m:Справка:Импорт
Мета:Дампы данных/Другие инструменты, для связанных инструментов, например экстракторов и «считывателей дампов»
Wikipedia:Выбор CD Wikipedia
Википедия:Размер Википедии
meta:Зеркалирование XML-дампов проекта Wikimedia
meta:Статические инструменты версии
Оффлайн-проекты Викимедиа

Ссылки

^ Для получения дополнительной информации о совместимости с GFDL см . Wikipedia:Повторное использование контента Wikipedia § Повторное использование текста в соответствии с лицензией GNU Free Documentation License .
^ "Benchmarked: What's the Best File Compression Format?". How To Geek . How-To Geek, LLC . Получено 18 января 2017 г. .
^ "Zip и unzip файлы". Microsoft . Microsoft . Получено 18 января 2017 г. .
^ ab "Сравнение форматов томов". developer.apple.com . Получено 2023-11-19 .
^ Поддержка больших файлов в Linux
↑ Android 2.2 и более ранние версии использовали файловую систему YAFFS; 14 декабря 2010 г.

Внешние ссылки

Загрузки Викимедиа.
Журналы посещений Домаса (прочитайте это!). Также старые данные в Архиве Интернета .
Архивы списков рассылки Викимедиа.
Пользователь:Emijrp/Архив Wikipedia . Попытка найти все доступные данные Wiki[mp]edia и побудить людей загружать их и сохранять по всему миру.
Скрипт для загрузки всех дампов Wikipedia 7z.