Размер английской Википедии можно измерить с точки зрения количества статей, количества слов, количества страниц и размера базы данных, среди прочего. По состоянию на 9 ноября 2024 года в английской Википедии имеется 6 908 144 статей , содержащих более 4,7 миллиарда слов (что в среднем составляет около 686 слов на статью). Общее количество страниц составляет 61 808 535. Статьи составляют 11,18 процента всех страниц в Википедии. По состоянию на 16 октября 2024 года размер текущей версии всех сжатых статей составляет около 24,09 ГБ без учета носителя. [1] [2]
Wikipedia продолжает расти, и количество статей в Wikipedia увеличивается примерно на 14 000 в месяц (по состоянию на январь 2024 года). Количество статей, добавляемых в Wikipedia каждый месяц, достигло своего пика в 2006 году, составив более 50 000 новых статей в месяц, и с тех пор медленно, но неуклонно снижается. Хотя это может показаться показателем того, что рост Wikipedia замедляется или останавливается, следует отметить, что объем текста, добавляемого в статьи Wikipedia каждый год, остается постоянным с 2006 года и составляет примерно 1 гигабайт (сжатого) текста , добавляемого в год. Это означает, что с течением времени пропорционально больше контента добавляется в существующие статьи, а не в новые статьи, и что Wikipedia поддерживает тот же постоянный темп роста с 2010-х годов. Другими словами, со временем средний размер статьи растет быстрее, чем количество статей.
Большинство ранних записей были извлечены из Wikipedia:Milestones . Более поздние записи взяты из наблюдений за встроенными функциями подсчета статей нового программного обеспечения. Для получения информации о том, что программное обеспечение Wikipedia считает статьей, см. Wikipedia:What is an article#Lists of articles and statistics .
Количество статей в Википедиях, созданных ботами, таких как издание Википедии на кебуанском языке , а также в изданиях на шведском , голландском и варайском языках , растет гораздо быстрее, чем в тех, которые в основном написаны людьми, таких как английская Википедия. . Lsjbot , шведский википедист Сверкер Йоханссон, является основным автором этих четырех Википедий, созданных преимущественно ботами. Кебуанский и варайский языки — филиппинские . Однако отдельные статьи в Википедиях, созданных ботами, в среднем намного короче, чем в Википедиях, написанных преимущественно людьми. [3] Таким образом, количество статей само по себе является очень плохим показателем масштаба и охвата всех изданий Википедии.
До 2012 года рост Википедии приблизительно следовал модели роста Гомпертца. Эта модель была создана в июне 2010 года и определяется функцией Гомпертца ,
с параметрами
и где e — константа 2,71828... ( число Эйлера ).
Некоторые характеристики этой модели:
Эта модель связана с количеством (количеством статей). Качество может все еще увеличиваться независимо в зависимости от отдельной статьи. Модель не учитывает размер статьи.
В этом разделе первый график показывает историческое и ожидаемое общее количество статей; на втором графике ежемесячный темп роста замедлился с конца 2006 года (ряд имеет тенденцию к снижению).
Подробный анализ данных показывает, что с 2006 по 2009 год темпы роста статей следовали шестимесячному циклу с более быстрым ростом в феврале и августе, чем в мае и ноябре. Этот цикл не отображается на графике темпов роста, поскольку значения, показанные на графике, были усреднены за периоды в шесть месяцев.
Последний график в этом разделе показывает рост страниц контента (включая статьи и другие страницы) по состоянию на май 2019 года: обратите внимание на почти линейную тенденцию роста с 2018 года.
Обратите внимание на небольшое снижение количества статей с конца августа 2022 года по начало сентября 2022 года.
При таком раскладе осталось 177 дней до того, как количество статей в английской Википедии достигнет 7 миллионов.
По состоянию на ноябрь 2024 года во всех англоязычных статьях Википедии содержится более 4,7 млрд слов, около 686 слов на статью и около 28,2 млрд символов, если предположить, что каждое слово состоит из шести символов (в среднем пять букв для каждого слова плюс пробел или знак препинания). Для получения последних данных о количестве слов см. страницу Special:Statistics .
В таблице ниже показано только количество слов на всех страницах контента, то есть 6 908 144 статьи; она не включает слова в других пространствах имен, таких как Talk, User или Wikipedia. Данные за 2002–2010 годы взяты из старого Wikistats-1 и, таким образом, точны только до месяца, а не до определенного дня в месяце. Данные с 2018 года по настоящее время взяты со страницы Special:Statistics, сохраненной на эту дату Архивом Интернета . Нет никаких записей о количестве слов с января 2010 года по декабрь 2017 года; Wikistats-1 больше не включает количество слов после января 2010 года, а страница Special:Statistics начала показывать количество слов на всех страницах контента только в декабре 2017 года. В какой-то момент в течение этого почти восьмилетнего периода среднее количество слов снизилось. Обратите внимание, что Архив Интернета не всегда имеет архивную версию страницы Special:Statistics в первый день каждого года.
В таблице ниже указано общее количество слов во всех статьях, а также количество слов, добавленных в начале или около начала каждого месяца с января 2019 года.
По состоянию на 9 ноября 2024 года в английской Википедии имеется 61 808 535 страниц , из которых 6 908 144 (11,18%) являются статьями, которые находятся в основном пространстве имен или просто в основном пространстве . Остальные страницы принадлежат к одному из 11 других пространств имен , перечисленных здесь в алфавитном порядке: Категория, Черновик, Файл, Справка, MediaWiki, Модуль, Портал, Шаблон, TimedText, Пользователь и Википедия. Каждая страница в Википедии также может иметь соответствующую страницу обсуждения. Данные для этой таблицы взяты со страницы Special:Statistics , сохраненной на эту дату Архивом Интернета . Обратите внимание, что Архив Интернета не всегда имеет архивную версию страницы Special:Statistics в первый день каждого года. Со временем процент всех страниц в Википедии, состоящих из статей, падает, поскольку создается больше страниц без статей, чем статей.
Существуют различные элементы базы данных Википедии, которые следует учитывать при описании ее размера. Наиболее очевидными являются разметка текста статей, шаблоны, описания медиа/файлов и основные метастраницы, которые потребуются для отображения текста последней версии текущей энциклопедии. Связанные страницы обсуждения и другие пространства имен (User, Wikipedia, Help и т. д.) часто рассматриваются отдельно. У каждого из них есть связанная история правок и т. д. Кроме того, есть изображения и другие мультимедиа (хранящиеся совместно во всех Википедиях). Важно учитывать, сжаты ли данные, и если да, то какая схема сжатия используется. Помимо английской Википедии, есть также сотни Википедий на других языках, которые следует учитывать.
В апреле 2010 года размер полной истории правок английской Википедии составлял 5,6 ТБ в несжатом виде. [7]
По состоянию на июнь 2015 года дамп всех страниц с полной историей правок в формате XML на enwiki dump progress 20150602 составляет около 100 ГБ в сжатом виде с помощью 7-Zip и 10 ТБ в несжатом виде.
По состоянию на май 2015 года текущая версия статьи/шаблона/текста перенаправления английской Википедии составляла около 51 ГБ в несжатом виде в формате XML.
Размер текста статьи в английской Википедии, измеряемый в гигабайтах (сжатый), неуклонно рос с 1 ГБ в 2006 году до 9 ГБ в 2013 году и до 11,5 ГБ в 2015 году, как показано на диаграмме. Однако из-за ошибки при компиляции дампа данных за апрель 2016 года размер текста статьи сократился примерно на 9 процентов до 10,8 ГБ в сжатом виде (хотя фактический размер текста статьи в действительности вырос, что можно увидеть, сравнив дампы данных за март 2016 года и май 2016 года). [8] Аналогичная ошибка наблюдается и при компиляции данных за 20 апреля 2018 года, которые составили 12,85 ГБ (опять же, фактический размер текста статьи в действительности вырос, что можно увидеть, сравнив предыдущий и следующий месяцы). [9]
По состоянию на февраль 2013 года XML-файл, содержащий только текущие страницы, без страниц пользователей и обсуждений, составлял 42 987 293 445 байт в несжатом виде (43 ГБ). XML-файл с текущими страницами, включая страницы пользователей и обсуждений, составлял 93 754 003 797 байт в несжатом виде (94 ГБ). Полные дампы истории, все 174 файла, занимали 10 005 676 791 734 байта (10 ТБ). [10]
По состоянию на август 2023 года Wikimedia Commons, включающий изображения, видео и другие медиафайлы, используемые во всех языковых Википедиях, содержал 96 519 778 файлов общим объемом 470 991 810 222 099 байт (428,36 ТБ). [11]
Другие источники последних оценок размеров:
Коды: en - английский • es - испанский • de - немецкий • ja - японский • ru - русский • fr - французский • it - итальянский • pl - польский • pt - португальский • zh - китайский
Этот график основан на данных https://stats.wikimedia.org/EN/TablesArticlesTotal.htm по состоянию на 14 июня 2015 г., а последние значения для английской Википедии взяты из данных ниже. Сумма включает все 270+ языков Википедии. Смотрите главную страницу https://www.wikipedia.org для последнего количества статей для десяти крупнейших Википедий.
Английская версия остается крупнейшей Википедией, немного больше, чем вторая по величине версия, Cebuano Wikipedia . Многие другие версии разделили квазиэкспоненциальный рост английской версии, хотя и отставали на один-три года. По мере роста этих других Википедий общий процент статей на английском языке неуклонно снижался и в марте 2007 года упал ниже 25 процентов. Процент статей в десяти крупнейших Википедиях также снижался, хотя на эти десять лучших по-прежнему приходится около 67 процентов всех статей Википедии по состоянию на июнь 2007 года. Обратите внимание, что Lsjbot , бот, управляемый Сверкером Йоханссоном , несет ответственность за большую часть роста второй и пятой по величине Википедий, Cebuano и Swedish Wikipedia , соответственно, а также за быстрый рост Waray Wikipedia . На диаграммах не показаны Cebuano, Swedish или Waray Wikipedia. Рост числа статей в этих трех разделах Википедии в основном состоит из заготовок, относящихся к живым организмам и географическим объектам (таким как острова, реки, плотины и горы).
В настоящее время доля английской Википедии составляет 10,81 процента всех томов во всех редакциях Википедии.
Размер базы данных английской Википедии чуть более чем в 10 раз превышает размер базы данных следующей по величине по количеству статей Википедии — себуанской Википедии. (По состоянию на октябрь 2023 г.)
Этот набор данных отмечает тот факт, что эти цифры взяты из нескольких источников данных и различных оценок (см. ключ ниже для подробностей), и представляет их в виде таблицы, готовой для построения графиков. Исходные наборы данных архивированы: см. ссылки ниже. Обратите внимание также, что цифры выбираются в случайное время суток.
В начале 2015 года Майкл Мандиберг опубликовал английскую Википедию в 7473 томах по 700 страниц каждый через Lulu , онлайн-платформу для самостоятельной публикации электронных книг и печатных изданий, дистрибьютора и розничного продавца. [13]
Следующий рисунок иллюстрирует, насколько большой могла бы быть английская Википедия, если бы статьи (без изображений и другого мультимедийного контента) были напечатаны и переплетены в виде книги в формате, похожем на Encyclopædia Britannica . Предполагается, что каждый том будет иметь высоту 25 см (9,8 дюйма), толщину 5 см (2,0 дюйма) и содержать 1 600 000 слов или 8 000 000 символов. Размер этой иллюстрации основан на текущем количестве статей, вручную скорректированном по среднему количеству слов на нерегулярной основе на подстранице пользователя.
Пояснения к данным ниже:
Теперь расширено и аннотировано (несколько афористично ) информацией об источнике. Обратите внимание, что время выборки записывается только по дню, указанному пользователем, регистрирующим запись, и что для этого дня нет четкой информации о часовом поясе. Однако большинство более поздних подсчетов (до 2022 года) были сделаны в начале дня на основе UTC, взятого из таблицы Списка Википедий в Meta Wiki. С 2023 года подсчеты проводятся примерно в одно и то же время, хотя и берутся из новой таблицы Списка Википедий в Wikimedia Commons, поскольку она оставляет постоянную запись об изменении на своей странице истории, хотя и не обязательно в полночь UTC.
Примечание: Текущее количество статей mpac3.2 для англоязычной Википедии составляет 6 908 144 статьи.