stringtranslate.com

Википедия:Размер Википедии

  • WP:РАЗМЕРWP
  • WP:WPSIZE
Древовидная разбивка тематических областей Википедии по состоянию на февраль 2016 года, основанная на случайной выборке из 1000 статей .
Изображение, демонстрирующее примерный размер печатной версии Википедии по состоянию на март 2020 года (из автоматически обновленного изображения , основанного на томах Encyclopaedia Britannica с силуэтом среднестатистического человека для масштаба)

Размер английской Википедии можно измерить с точки зрения количества статей, количества слов, количества страниц и размера базы данных, среди прочего. По состоянию на 9 ноября 2024 года в английской Википедии имеется 6 908 144 статей , содержащих более 4,7 миллиарда слов (что в среднем составляет около 686 слов на статью). Общее количество страниц составляет 61 808 535. Статьи составляют 11,18 процента всех страниц в Википедии. По состоянию на 16 октября 2024 года размер текущей версии всех сжатых статей составляет около 24,09 ГБ без учета носителя. [1] [2]

Wikipedia продолжает расти, и количество статей в Wikipedia увеличивается примерно на 14 000 в месяц (по состоянию на январь 2024 года). Количество статей, добавляемых в Wikipedia каждый месяц, достигло своего пика в 2006 году, составив более 50 000 новых статей в месяц, и с тех пор медленно, но неуклонно снижается. Хотя это может показаться показателем того, что рост Wikipedia замедляется или останавливается, следует отметить, что объем текста, добавляемого в статьи Wikipedia каждый год, остается постоянным с 2006 года и составляет примерно 1 гигабайт (сжатого) текста , добавляемого в год. Это означает, что с течением времени пропорционально больше контента добавляется в существующие статьи, а не в новые статьи, и что Wikipedia поддерживает тот же постоянный темп роста с 2010-х годов. Другими словами, со временем средний размер статьи растет быстрее, чем количество статей.

Большинство ранних записей были извлечены из Wikipedia:Milestones . Более поздние записи взяты из наблюдений за встроенными функциями подсчета статей нового программного обеспечения. Для получения информации о том, что программное обеспечение Wikipedia считает статьей, см. Wikipedia:What is an article#Lists of articles and statistics .

Количество статей в Википедиях, созданных ботами, таких как издание Википедии на кебуанском языке , а также в изданиях на шведском , голландском и варайском языках , растет гораздо быстрее, чем в тех, которые в основном написаны людьми, таких как английская Википедия. . Lsjbot , шведский википедист Сверкер Йоханссон, является основным автором этих четырех Википедий, созданных преимущественно ботами. Кебуанский и варайский языки — филиппинские . Однако отдельные статьи в Википедиях, созданных ботами, в среднем намного короче, чем в Википедиях, написанных преимущественно людьми. [3] Таким образом, количество статей само по себе является очень плохим показателем масштаба и охвата всех изданий Википедии.

Рост количества статей в Википедии

До 2012 года рост Википедии приблизительно следовал модели роста Гомпертца. Эта модель была создана в июне 2010 года и определяется функцией Гомпертца ,

,

с параметрами

а = 4,378,449
б = −15,42677
с = −0,384124
t — это время в годах с 1 января 2000 г. (то есть 1 января 2010 г. — это t = 10,00)

и где e — константа 2,71828... ( число Эйлера ).

Количество статей в английской Википедии [4]
Редакторы английской Википедии с >100 правками в месяц [5]


Некоторые характеристики этой модели:

Эта модель связана с количеством (количеством статей). Качество может все еще увеличиваться независимо в зависимости от отдельной статьи. Модель не учитывает размер статьи.

Графики размера и темпов роста

В этом разделе первый график показывает историческое и ожидаемое общее количество статей; на втором графике ежемесячный темп роста замедлился с конца 2006 года (ряд имеет тенденцию к снижению).

Подробный анализ данных показывает, что с 2006 по 2009 год темпы роста статей следовали шестимесячному циклу с более быстрым ростом в феврале и августе, чем в мае и ноябре. Этот цикл не отображается на графике темпов роста, поскольку значения, показанные на графике, были усреднены за периоды в шесть месяцев.

Последний график в этом разделе показывает рост страниц контента (включая статьи и другие страницы) по состоянию на май 2019 года: обратите внимание на почти линейную тенденцию роста с 2018 года.

Обратите внимание на небольшое снижение количества статей с конца августа 2022 года по начало сентября 2022 года.

Годовой темп роста английской Википедии

При таком раскладе осталось 177 дней до того, как количество статей в английской Википедии достигнет 7 миллионов.

Количество слов

По состоянию на ноябрь 2024 года во всех англоязычных статьях Википедии содержится более 4,7 млрд слов, около 686 слов на статью и около 28,2 млрд символов, если предположить, что каждое слово состоит из шести символов (в среднем пять букв для каждого слова плюс пробел или знак препинания). Для получения последних данных о количестве слов см. страницу Special:Statistics .

В таблице ниже показано только количество слов на всех страницах контента, то есть 6 908 144 статьи; она не включает слова в других пространствах имен, таких как Talk, User или Wikipedia. Данные за 2002–2010 годы взяты из старого Wikistats-1 и, таким образом, точны только до месяца, а не до определенного дня в месяце. Данные с 2018 года по настоящее время взяты со страницы Special:Statistics, сохраненной на эту дату Архивом Интернета . Нет никаких записей о количестве слов с января 2010 года по декабрь 2017 года; Wikistats-1 больше не включает количество слов после января 2010 года, а страница Special:Statistics начала показывать количество слов на всех страницах контента только в декабре 2017 года. В какой-то момент в течение этого почти восьмилетнего периода среднее количество слов снизилось. Обратите внимание, что Архив Интернета не всегда имеет архивную версию страницы Special:Statistics в первый день каждого года.

Годовая статистика

Средний прирост в год с 2010 по 2018 год; общий прирост составил 1 279 581 000 слов за тот же период времени.
B Средний процентный прирост в год с 2010 по 2018 год; общий прирост составил 71% за тот же период времени
C Средний прирост в день с 2010 по 2018 гг.
D Архив недоступен из Архива Интернета из-за сбоя, вызванного хакерским инцидентом 9 октября 2024 г.; однако данные взяты со снимка экрана Special:Statistics в 0:00 UTC
E Пока в этом году

Ежемесячная статистика с января 2019 г.

В таблице ниже указано общее количество слов во всех статьях, а также количество слов, добавленных в начале или около начала каждого месяца с января 2019 года.

Количество страниц

По состоянию на 9 ноября 2024 года в английской Википедии имеется 61 808 535 страниц , из которых 6 908 144 (11,18%) являются статьями, которые находятся в основном пространстве имен или просто в основном пространстве . Остальные страницы принадлежат к одному из 11 других пространств имен , перечисленных здесь в алфавитном порядке: Категория, Черновик, Файл, Справка, MediaWiki, Модуль, Портал, Шаблон, TimedText, Пользователь и Википедия. Каждая страница в Википедии также может иметь соответствующую страницу обсуждения. Данные для этой таблицы взяты со страницы Special:Statistics , сохраненной на эту дату Архивом Интернета . Обратите внимание, что Архив Интернета не всегда имеет архивную версию страницы Special:Statistics в первый день каждого года. Со временем процент всех страниц в Википедии, состоящих из статей, падает, поскольку создается больше страниц без статей, чем статей.

Размер базы данных английской Википедии

Общий объем текста статьи в английской Википедии, измеряется в гигабайтах (сжатый). [6]

Существуют различные элементы базы данных Википедии, которые следует учитывать при описании ее размера. Наиболее очевидными являются разметка текста статей, шаблоны, описания медиа/файлов и основные метастраницы, которые потребуются для отображения текста последней версии текущей энциклопедии. Связанные страницы обсуждения и другие пространства имен (User, Wikipedia, Help и т. д.) часто рассматриваются отдельно. У каждого из них есть связанная история правок и т. д. Кроме того, есть изображения и другие мультимедиа (хранящиеся совместно во всех Википедиях). Важно учитывать, сжаты ли данные, и если да, то какая схема сжатия используется. Помимо английской Википедии, есть также сотни Википедий на других языках, которые следует учитывать.

В апреле 2010 года размер полной истории правок английской Википедии составлял 5,6 ТБ в несжатом виде. [7]

По состоянию на июнь 2015 года дамп всех страниц с полной историей правок в формате XML на enwiki dump progress 20150602 составляет около 100 ГБ в сжатом виде с помощью 7-Zip и 10 ТБ в несжатом виде.

По состоянию на май 2015 года текущая версия статьи/шаблона/текста перенаправления английской Википедии составляла около 51 ГБ в несжатом виде в формате XML.

Размер текста статьи в английской Википедии, измеряемый в гигабайтах (сжатый), неуклонно рос с 1 ГБ в 2006 году до 9 ГБ в 2013 году и до 11,5 ГБ в 2015 году, как показано на диаграмме. Однако из-за ошибки при компиляции дампа данных за апрель 2016 года размер текста статьи сократился примерно на 9 процентов до 10,8 ГБ в сжатом виде (хотя фактический размер текста статьи в действительности вырос, что можно увидеть, сравнив дампы данных за март 2016 года и май 2016 года). [8] Аналогичная ошибка наблюдается и при компиляции данных за 20 апреля 2018 года, которые составили 12,85 ГБ (опять же, фактический размер текста статьи в действительности вырос, что можно увидеть, сравнив предыдущий и следующий месяцы). [9]

По состоянию на февраль 2013 года XML-файл, содержащий только текущие страницы, без страниц пользователей и обсуждений, составлял 42 987 293 445 байт в несжатом виде (43 ГБ). XML-файл с текущими страницами, включая страницы пользователей и обсуждений, составлял 93 754 003 797 байт в несжатом виде (94 ГБ). Полные дампы истории, все 174 файла, занимали 10 005 676 791 734 байта (10 ТБ). [10]

По состоянию на август 2023 года Wikimedia Commons, включающий изображения, видео и другие медиафайлы, используемые во всех языковых Википедиях, содержал 96 519 778 файлов общим объемом 470 991 810 222 099 байт (428,36 ТБ). [11]

Другие источники последних оценок размеров:

Сравнения с другими Википедиями

Распределение 63 925 245 статей в различных языковых изданиях (по состоянию на 9 ноября 2024 г.) [12]

  Немецкий (4,6%)
  Шведский (4,1%)
  Русские (3,1%)
  Польский (2,6%)
  Другое (51,6%)

Коды: en - английский • es - испанский • de - немецкий • ja - японский • ru - русский • fr - французский • it - итальянский • pl - польский • pt - португальский • zh - китайский

Этот график основан на данных https://stats.wikimedia.org/EN/TablesArticlesTotal.htm по состоянию на 14 июня 2015 г., а последние значения для английской Википедии взяты из данных ниже. Сумма включает все 270+ языков Википедии. Смотрите главную страницу https://www.wikipedia.org для последнего количества статей для десяти крупнейших Википедий.

Английская версия остается крупнейшей Википедией, немного больше, чем вторая по величине версия, Cebuano Wikipedia . Многие другие версии разделили квазиэкспоненциальный рост английской версии, хотя и отставали на один-три года. По мере роста этих других Википедий общий процент статей на английском языке неуклонно снижался и в марте 2007 года упал ниже 25 процентов. Процент статей в десяти крупнейших Википедиях также снижался, хотя на эти десять лучших по-прежнему приходится около 67 процентов всех статей Википедии по состоянию на июнь 2007 года. Обратите внимание, что Lsjbot , бот, управляемый Сверкером Йоханссоном , несет ответственность за большую часть роста второй и пятой по величине Википедий, Cebuano и Swedish Wikipedia , соответственно, а также за быстрый рост Waray Wikipedia . На диаграммах не показаны Cebuano, Swedish или Waray Wikipedia. Рост числа статей в этих трех разделах Википедии в основном состоит из заготовок, относящихся к живым организмам и географическим объектам (таким как острова, реки, плотины и горы).

В настоящее время доля английской Википедии составляет 10,81 процента всех томов во всех редакциях Википедии.

Размер базы данных английской Википедии чуть более чем в 10 раз превышает размер базы данных следующей по величине по количеству статей Википедии — себуанской Википедии. (По состоянию на октябрь 2023 г.)

Хронология версий программного обеспечения

Этот набор данных отмечает тот факт, что эти цифры взяты из нескольких источников данных и различных оценок (см. ключ ниже для подробностей), и представляет их в виде таблицы, готовой для построения графиков. Исходные наборы данных архивированы: см. ссылки ниже. Обратите внимание также, что цифры выбираются в случайное время суток.

Размер печатной копии

В начале 2015 года Майкл Мандиберг опубликовал английскую Википедию в 7473 томах по 700 страниц каждый через Lulu , онлайн-платформу для самостоятельной публикации электронных книг и печатных изданий, дистрибьютора и розничного продавца. [13]

Следующий рисунок иллюстрирует, насколько большой могла бы быть английская Википедия, если бы статьи (без изображений и другого мультимедийного контента) были напечатаны и переплетены в виде книги в формате, похожем на Encyclopædia Britannica . Предполагается, что каждый том будет иметь высоту 25 см (9,8 дюйма), толщину 5 см (2,0 дюйма) и содержать 1 600 000 слов или 8 000 000 символов. Размер этой иллюстрации основан на текущем количестве статей, вручную скорректированном по среднему количеству слов на нерегулярной основе на подстранице пользователя.

Набор данных

Пояснения к данным ниже:

Теперь расширено и аннотировано (несколько афористично ) информацией об источнике. Обратите внимание, что время выборки записывается только по дню, указанному пользователем, регистрирующим запись, и что для этого дня нет четкой информации о часовом поясе. Однако большинство более поздних подсчетов (до 2022 года) были сделаны в начале дня на основе UTC, взятого из таблицы Списка Википедий в Meta Wiki. С 2023 года подсчеты проводятся примерно в одно и то же время, хотя и берутся из новой таблицы Списка Википедий в Wikimedia Commons, поскольку она оставляет постоянную запись об изменении на своей странице истории, хотя и не обязательно в полночь UTC.

Примечание: Текущее количество статей mpac3.2 для англоязычной Википедии составляет 6 908 144 статьи.