DMOZ (стилизованный под dmoz в логотипе; от Directory.mozilla.org , более раннего доменного имени ) представлял собой многоязычный каталог ссылок Всемирной паутины с открытым контентом . Сайт и сообщество, которое его поддерживало, также были известны как Open Directory Project ( ODP ). Он принадлежал AOL (теперь часть Verizon Media ), но создавался и обслуживался сообществом редакторов -добровольцев.
DMOZ использовал иерархическую схему онтологии для организации списков сайтов. Объявления по схожей теме были сгруппированы в категории, которые затем включали более мелкие категории.
DMOZ закрылся 17 марта 2017 года, поскольку AOL больше не хотела поддерживать проект. [1] [2] В тот день веб-сайт превратился в единую целевую страницу со ссылками на статический архив DMOZ и на дискуссионный форум DMOZ, где обсуждались планы по ребрендингу и перезапуску каталога . [2]
По состоянию на сентябрь 2017 года [обновлять]нередактируемое зеркало оставалось доступным на dmoztools.net, [3] и было объявлено, что, хотя URL-адрес DMOZ не вернется, будет предоставлена следующая версия каталога с именем Curlie . [4] [5]
DMOZ была основана в США под названием Gnuhoo Ричем Скрентой и Бобом Труэлом в 1998 году, когда они оба работали инженерами в Sun Microsystems . Крис Толлес, который работал в Sun Microsystems руководителем отдела маркетинга продуктов сетевой безопасности, также стал в 1998 году соучредителем Gnuhoo вместе с соучредителями Брином Доулом и Джереми Венокуром. Скрента разработала ТАСС, прародителя TIN , популярной многопоточной программы чтения новостей Usenet для систем Unix . Первоначальная структура категорий каталога Gnuhoo во многом основывалась на структуре существовавших тогда групп новостей Usenet.
Каталог Gnuhoo был запущен 5 июня 1998 года. После того, как Ричард Столлман и Фонд свободного программного обеспечения возражали против использования Gnu в названии, Gnuhoo было изменено на NewHoo . [6] Yahoo! затем возразил против использования Hoo в названии, что побудило предложить изменить имя на ZURL . [7] До перехода на ZURL NewHoo была приобретена Netscape Communications Corporation в октябре 1998 года и стала проектом Open Directory. Netscape выпустила данные Open Directory под лицензией Open Directory . Вскоре после этого Netscape была приобретена AOL , и DMOZ была одним из активов, включенных в сделку.
К тому времени, когда Netscape взял на себя руководство проектом Open Directory, было проиндексировано около 100 000 URL-адресов с участием около 4500 редакторов. 5 октября 1999 года количество URL-адресов, проиндексированных DMOZ, достигло миллиона. По неофициальной оценке, в апреле 2000 года количество URL-адресов в DMOZ составило 1,6 миллиона, что превышает количество URL-адресов в Yahoo! Каталог . [8] DMOZ достигла важных результатов, проиндексировав два миллиона URL-адресов 14 августа 2000 г., три миллиона списков 18 ноября 2001 г. и четыре миллиона 3 декабря 2003 г. По состоянию на апрель 2013 г. насчитывалось 5 169 995 сайтов в более чем 1 017 500 категориях. По состоянию на 31 октября 2015 г. насчитывалось 3 996 412 сайтов в 1 026 706 категориях.
В январе 2006 года DMOZ начал публиковать онлайн-отчеты, чтобы информировать общественность о развитии проекта. Первый отчет охватывал 2005 год. Впоследствии до сентября 2006 года выпускались ежемесячные отчеты. [9] Эти отчеты дали более глубокое представление о функционировании справочника, чем упрощенная статистика, представленная на первой странице справочника. В число списков и категорий, указанных на первой странице, вошли категории «Тест» и «Закладки», но они не были включены в дамп RDF, предлагаемый пользователям. В августе 2006 года насчитывалось около 7330 активных редакторов. [9] По состоянию на 31 марта 2007 года в каталог внес свой вклад 75 151 редактор. [10] По состоянию на апрель 2013 года число пишущих редакторов увеличилось до 97 584. [10]
20 октября 2006 г. на главном сервере DMOZ произошел катастрофический сбой [11] , из-за которого редакторы не могли работать с каталогом до 18 декабря 2006 г. В этот период более старая версия каталога была доступна публике. 13 января 2007 г. снова стали доступны формы предложений сайтов и списков обновлений. [12] 26 января 2007 г. возобновилась еженедельная публикация дампов RDF. Чтобы избежать будущих сбоев, с тех пор система размещалась в резервной конфигурации из двух серверов на базе процессоров Intel. [13]
В 2016 году интерфейс сайта был обновлен под брендом «DMOZ 3.0», но в следующем году AOL отключила его.
По мере того как DMOZ стал более широко известен, появились два других крупных веб-каталога, редактируемых добровольцами и спонсируемых Go.com и Zeal , оба сейчас несуществующие. Эти каталоги не лицензировали свой контент для открытого распространения. [14] [15]
Идея использования крупномасштабного сообщества редакторов для составления онлайн-контента была успешно применена к другим типам проектов. Модель редактирования DMOZ напрямую вдохновила как минимум три других волонтерских проекта с открытым контентом: музыкальный сайт MusicMoz, каталог ресторанов с открытым контентом, известный как ChefMoz [16] и энциклопедию, известную как Open Site. [17] Наконец, по словам Ларри Сэнгера , DMOZ послужил источником вдохновения для проекта Nupedia , из которого выросла Википедия . [18]
Gnuhoo позаимствовал базовую схему своей первоначальной онтологии у Usenet . В 1998 году Рич Скрента сказал: «Я взял длинный список групп и вручную отредактировал его иерархию». [19] Например, тема, освещаемая в группе новостей comp.ai.alife, была представлена категорией Компьютеры/ИИ/Искусственная_Жизнь. Первоначальные разделы были для взрослых , искусства , бизнеса , компьютеров , игр , здоровья , дома , новостей , отдыха , справок , региональных дел , науки , покупок , общества , спорта и «Мира». Хотя эти шестнадцать категорий верхнего уровня остались нетронутыми, онтология категорий второго и нижнего уровня претерпела постепенную эволюцию; существенные изменения инициируются обсуждением среди редакторов, а затем реализуются после достижения консенсуса.
В июле 1998 года каталог стал многоязычным с добавлением категории высшего уровня «Мир» . В оставшейся части каталога перечислены только англоязычные сайты. К маю 2005 года было представлено семьдесят пять языков. С 2002 года темпы роста неанглоязычных компонентов каталога превышали темпы роста англоязычного компонента. Хотя в 2003 году англоязычный компонент каталога занимал почти 75% сайтов, мировой уровень вырос до более чем 1,5 миллиона сайтов по состоянию на 2002 год. Май 2005 г., что составляет примерно треть каталога. Онтология в неанглоязычных категориях обычно повторяет онтологию англоязычного каталога, хотя исключения, отражающие языковые различия, довольно распространены.
Некоторые из категорий верхнего уровня имеют уникальные характеристики. Категория «Взрослые» отсутствует на домашней странице каталога, но она полностью доступна в дампе RDF, который предоставляет DMOZ. Хотя большая часть каталога классифицирована в основном по темам, категория «Региональные» классифицируется в основном по регионам. Это заставило многих рассматривать DMOZ как два параллельных каталога: региональный и тематический .
14 ноября 2000 года в ДМОЗ был создан специальный каталог для людей до 18 лет. [20] Ключевые факторы, отличающие раздел «Дети и подростки» от основного каталога:
К маю 2005 года эта часть DMOZ включала более 32 000 списков сайтов.
С начала 2004 года весь сайт был в кодировке UTF-8 . До этого использовалась кодировка ISO 8859-1 для категорий английского языка и языково-зависимый набор символов для других языков. С начала 2000 года дампы RDF кодировались в UTF-8.
Списки каталогов поддерживались редакторами. В то время как некоторые редакторы сосредоточились на добавлении новых списков, другие сосредоточились на поддержании существующих списков, а некоторые сделали и то, и другое. Это включало в себя такие задачи, как редактирование отдельных списков для исправления орфографических и/или грамматических ошибок, а также мониторинг статуса связанных сайтов. Третьи просматривали материалы сайта, чтобы удалить спам и дублирующиеся материалы.
Robozilla — это веб-сканер , созданный для проверки статуса всех сайтов, перечисленных в DMOZ. Периодически Robozilla помечала сайты, которые, по-видимому, были перемещены или исчезли, а редакторы проверяли сайты и принимали меры. Этот процесс имел решающее значение для каталога в его стремлении достичь одной из своих основополагающих целей: уменьшить порчу ссылок в веб-каталогах. Вскоре после каждого запуска сайты, отмеченные ошибками, автоматически переносились в очередь непроверенных, где редакторы могли исследовать их, когда позволяло время.
Из-за популярности DMOZ и ее влияния на рейтинг в поисковых системах (см. PageRank ), домены с истекшей регистрацией, которые были перечислены в DMOZ, стали объектом захвата домена . Эта проблема решалась путем регулярного удаления доменов с истекшим сроком действия из каталога.
В то время как корпоративное финансирование и штат сотрудников для DMOZ со временем уменьшились, волонтеры создали инструменты редактирования, такие как средства проверки ссылок в дополнение к Robozilla, сканеры категорий, средства проверки орфографии, инструменты поиска, которые непосредственно просеивают недавний дамп RDF, букмарклеты , помогающие автоматизировать некоторые функции редактирования, надстройки на основе Mozilla. , [22] и инструменты, помогающие работать с непроверенными очередями.
Данные DMOZ ранее были доступны в соответствии с условиями лицензии Open Directory License , которая требовала наличия конкретной таблицы атрибутов DMOZ на каждой веб-странице, использующей данные.
Лицензия Open Directory также включала требование о том, чтобы пользователи данных постоянно проверяли сайт DMOZ на наличие обновлений и прекращали использование и распространение данных или работ, основанных на данных, как только происходит обновление. Это ограничение побудило Фонд свободного программного обеспечения называть лицензию Open Directory лицензией несвободной документации, сославшись на то, что право на повторное распространение данной версии не является постоянным, а также на требование проверять наличие изменений в лицензии.
В 2011 году DMOZ молча сменила свою лицензию на лицензию Creative Commons Attribution , которая является свободной лицензией (и совместимой с GPL). [23]
Данные DMOZ доступны через дамп в формате RDF, который публикуется на сервере загрузки; там же архивируются и более старые версии. [24] Новые версии обычно создаются еженедельно. Редактор DMOZ каталогизировал ряд ошибок, обнаруженных в дампе DMOZ RDF, наиболее важным из которых является то, что формат файла не является RDF. [25] Таким образом, хотя сегодня так называемый дамп RDF является действительным XML , он не является действительным RDF , и поэтому программное обеспечение для обработки дампа DMOZ RDF должно быть специально написано для данных DMOZ.
Данные DMOZ лежат в основе основных служб каталогов многих крупнейших поисковых систем и порталов Интернета, включая Netscape Search, AOL Search и Alexa . Каталог Google использовал информацию DMOZ до тех пор, пока не был закрыт в июле 2011 года. [26]
Данные DMOZ также используются и в других целях. Например, весной 2004 года Overture анонсировала сервис поиска для третьих лиц, объединивший Yahoo! Результаты поиска в каталоге с заголовками, описаниями и метаданными категорий DMOZ. Поисковая система Gigablast анонсировала 12 мая 2005 г. свою копию DMOZ с возможностью поиска. Технология позволяет осуществлять поиск по веб-сайтам, перечисленным в определенных категориях, «фактически мгновенно создавая более 500 000 вертикальных поисковых систем». [27]
По состоянию на 8 сентября 2006 года [обновлять]DMOZ перечислил 313 англоязычных веб-сайтов, использующих данные DMOZ, а также 238 сайтов на других языках. [28] Однако эти цифры не отражают полную картину использования, поскольку в список не включены те сайты, которые используют данные DMOZ без соблюдения условий лицензии DMOZ.
Накладываются ограничения на то, кто может стать редактором DMOZ. Основной механизм контроля — это процесс подачи заявки в редакторы, в ходе которого кандидаты в редакторы демонстрируют свои способности редактирования, раскрывают связи, которые могут создать конфликт интересов [ нужна цитация ] , и иным образом дают представление о том, как кандидат, скорее всего, будет взаимодействовать с культурой и миссией DMOZ. [29] Большинство заявок отклоняются, но повторная подача разрешена, а иногда и поощряется. Те же стандарты применяются к редакторам всех категорий и подкатегорий. [ нужна цитата ]
Модель редактирования DMOZ является иерархической . Став редакторами, люди обычно будут иметь разрешения на редактирование только в небольшой категории. После того, как они продемонстрируют базовые навыки редактирования в соответствии с Руководством по редактированию, они могут подать заявку на дополнительные права редактирования либо в более широкой категории, либо в другой категории в каталоге. Поощряются отношения наставничества между редакторами, а внутренние форумы предоставляют новым редакторам возможность задавать вопросы. [ нужна цитата ]
У DMOZ есть свои внутренние форумы, содержимое которых предназначено только для общения редакторов друг с другом в первую очередь по вопросам редактирования тем. Для доступа к форумам требуется учетная запись редактора, и ожидается, что редакторы будут сохранять конфиденциальность содержимого этих форумов. [30]
Со временем старшим редакторам могут быть предоставлены дополнительные привилегии, отражающие их опыт редактирования и лидерство в редакторском сообществе. Самый простой — это права редактирования всех , которые позволяют редактору получать доступ ко всем категориям в каталоге. Мета- привилегии дополнительно позволяют редакторам выполнять такие задачи, как просмотр приложений редактора, настройка функций категорий и обработка внешних и внутренних отчетов о злоупотреблениях. Привилегии Cateditall аналогичны привилегиям редактирования всех , но только для одной категории каталогов. Аналогично, привилегии catmod аналогичны мета , но только для одной категории каталогов. Привилегии Catmv позволяют редакторам вносить изменения в онтологию каталогов путем перемещения или переименования категорий. Все эти привилегии предоставляются администраторами и персоналом, обычно после обсуждения с метаредакторами . [ нужна цитата ]
В августе 2004 года был введен новый уровень привилегий, названный администратором . Статус администратора был предоставлен сотрудниками ряду мета-менеджеров с длительным стажем работы. Администраторы имеют возможность предоставлять привилегии editall+ другим редакторам и утверждать новые политики для всего каталога — полномочия, которые ранее были доступны только корневым (штатным) редакторам. [31]
Ожидается, что все редакторы DMOZ будут соблюдать Правила редактирования DMOZ. В этих рекомендациях описаны основы редактирования: какие типы сайтов можно включать в список, а какие нет; как списки сайтов должны иметь единообразные названия и описания; соглашения об именовании и построении категорий; ограничения конфликта интересов при редактировании сайтов, которыми редактор может владеть или с которыми иным образом связан; и кодекс поведения в обществе. [32] С редакторами, уличенными в нарушении этих правил, могут связаться сотрудники или старшие редакторы, им могут ограничить права редактирования или полностью лишиться прав редактирования. Рекомендации DMOZ периодически пересматриваются после обсуждения на форумах редакторов. [ нужна цитата ]
Уже давно высказываются обвинения в том, что редакторы-добровольцы DMOZ благосклонно относятся к своим собственным веб-сайтам, одновременно мешая добросовестным усилиям своих конкурентов. [33] Подобные обвинения выдвигаются сотрудниками и метаредакторами ODP, которые имеют право принимать дисциплинарные меры против редакторов-добровольцев, подозреваемых в злоупотреблениях при редактировании. [34] В 2003 году DMOZ представил новую систему сообщений о публичных злоупотреблениях , которая позволяет представителям широкой общественности сообщать и отслеживать обвинения в оскорбительном поведении редактора, используя онлайн-форму. [35] Беспрепятственное обсуждение предполагаемых недостатков DMOZ стало более распространенным на основных дискуссионных форумах веб-мастеров . Хотя правила сайта предполагают, что отдельный сайт должен быть представлен только в одной категории, [36] по состоянию на октябрь 2007 года Topix.com, сайт агрегирования новостей, которым управляет основатель DMOZ Рич Скрента, имел более 17 000 объявлений. [37]
В начале истории DMOZ ее сотрудники предоставляли представителям избранных компаний, таких как Rolling Stone или CNN , доступ к редактированию для составления списка отдельных страниц их веб-сайтов. [38] Ссылки на отдельные статьи CNN добавлялись до 2004 года, но были полностью удалены из каталога в январе 2008 года [39] из-за того, что контент устарел и не считался стоящим усилий по его поддержанию. С тех пор подобных экспериментов с политикой редактирования не проводилось.
В основе некоторых разногласий вокруг DMOZ лежит вопрос о его собственности и управлении. Некоторые из первых добровольцев GnuHoo почувствовали, что их обманом заставили присоединиться к коммерческому предприятию. [6] В той или иной степени эти жалобы продолжаются до настоящего времени.
На момент создания DMOZ мало кто задумывался о том, как следует управлять DMOZ, и не было официальных форумов , руководств или часто задаваемых вопросов . [40]
Со временем форумы редакторов ODP стали де-факто парламентом DMOZ, и когда один из сотрудников DMOZ публиковал свое мнение на форумах, это считалось официальным решением. [30] Несмотря на это, сотрудники DMOZ начали предоставлять доверенным старшим редакторам дополнительные привилегии редактирования, включая возможность утверждать новые заявки на редактора, что в конечном итоге привело к стратифицированной иерархии обязанностей и привилегий среди редакторов DMOZ, при этом последнее слово оставалось за оплачиваемым персоналом DMOZ. относительно политики и процедур DMOZ. [31] [41]
Роберт Китинг, руководитель Touchstone Consulting Group в Вашингтоне, округ Колумбия, с 2006 года работал менеджером программы AOL в DMOZ с 2004 года. Он начал работать в AOL в 1999 году в качестве старшего редактора AOL Search, затем в качестве управляющего редактора AOL Search, DMOZ. , а затем в качестве менеджера медиа-экосистемы в отделе маркетинга продуктов AOL. [42] [43]
Процедуры удаления редакторов DMOZ контролируются сотрудниками и метаредакторами DMOZ. Согласно официальным редакционным правилам DMOZ, редакторы удаляются за злоупотребления при редактировании или нецивилизованное поведение. Обсуждения, которые могут привести к дисциплинарным мерам в отношении редакторов-добровольцев, происходят на частном форуме, доступ к которому имеют только сотрудники DMOZ и метаредакторы. Редакторы-добровольцы, о которых идет речь, не уведомлены о том, что такое разбирательство имеет место. [41] Некоторые люди находят такую договоренность неприятной и вместо этого хотят, чтобы дискуссия была больше похожа на судебный процесс, проводимый в судебной системе США. [44]
В статье «Объяснение удаления редактора» метаредактор DMOZ Арларсон утверждает, что «большая путаница по поводу удаления редакторов из DMOZ возникает из-за ложных или вводящих в заблуждение заявлений бывших редакторов». [45]
Правила конфиденциальности DMOZ запрещают любым нынешним редакторам DMOZ, которые могут что-либо знать, обсуждать причины удаления конкретных редакторов, [41] однако в правилах был представлен список потенциальных причин. [46] В прошлом это приводило к удалению редакторов DMOZ, которые задавались вопросом, почему они не могут войти в DMOZ для выполнения своей работы по редактированию. [47] [48]
Дэвид Ф. Пренатт-младший, бывший редактор DMOZ netesq , и еще один бывший редактор, известный под псевдонимом The Cunctator , оба утверждают, что были уволены за несогласие с персоналом по поводу изменений в политике, особенно в политике DMOZ по авторским правам . По их утверждениям, сотрудники используют оправдание невежливого поведения как средство отстранения назойливых редакторов. [44] [49] [50]
Старшие редакторы DMOZ имеют возможность прикреплять примечания «предупреждение» или «не вносить в список» к отдельным доменам, но ни один редактор не имеет возможности в одностороннем порядке блокировать включение определенных сайтов в список. Сайты с такими примечаниями могут по-прежнему присутствовать в списке, а иногда примечания удаляются после некоторого обсуждения. [51]
Критика иерархической структуры DMOZ возникла примерно к 2005 году. Многие считают иерархические каталоги слишком сложными. С появлением Web 2.0 начали появляться фолксономии , и некоторые редакторы предположили, что фолксономии, сети и направленные графы более «естественны» и ими легче управлять, чем иерархиями. [52] [53] [54]
Программное обеспечение ODPSearch представляет собой производную версию Isearch с открытым исходным кодом и распространяется по лицензии Mozilla Public License . [55]
Форумы редакторов ODP изначально работали на программном обеспечении, основанном на собственной системе Ultimate Bulletin Board. В июне 2003 года они перешли на систему phpBB с открытым исходным кодом . По состоянию на 2007 год эти форумы работали на модифицированной версии phpBB.
Программное обеспечение для отслеживания ошибок, используемое ODP, — это Bugzilla и веб-сервер Apache . Также использовался веб-прокси-сервер Squid , но он был удален в августе 2007 года, когда были реорганизованы серверы хранения. Все эти приложения имеют открытый исходный код.
База данных/программное обеспечение для редактирования DMOZ имеет закрытый исходный код (хотя Ричард Скрента заявил в июне 1998 года, что рассматривает возможность лицензирования его по лицензии GNU General Public License ). Это привело к критике со стороны вышеупомянутого проекта GNU, многие из которых также раскритиковали лицензию на контент DMOZ. Позже контент был выпущен по лицензии Creative Commons, совместимой с лицензией GNU. [56]
Таким образом, были предприняты некоторые попытки предоставить альтернативу DMOZ. Эти альтернативы позволят сообществам редакторов-единомышленников создавать и поддерживать свои собственные веб-каталоги с открытым исходным кодом и открытым контентом.
Chef Moz , ответвление DMOZ, представляло собой открытый каталог ссылок ресторанов во Всемирной паутине . Веб-сайт был создан и поддерживается сообществом редакторов - добровольцев и принадлежит Netscape .
Chef Moz, как и его родительский DMOZ, использовал иерархическую схему онтологии для организации списков сайтов. Объявления по схожей теме были сгруппированы в категории, которые затем могут включать более мелкие категории.
17 февраля 2011 года администратор DMOZ «lisagirl» подтвердил, что шеф-повар Моз мертв. [57]
С момента своего создания в 2000 году по ноябрь 2009 года (когда редакторам стало невозможно войти на сайт) ChefMoz превратился в крупнейший глобальный каталог ресторанов в Интернете. Общее количество ресторанов, проиндексированных с 2000 года, указано в следующей таблице: [58]