DMOZ (стилизованное dmoz в логотипе; от directory.mozilla.org , более раннего доменного имени ) был многоязычным каталогом ссылок World Wide Web с открытым содержимым . Сайт и сообщество, которое его поддерживало, также были известны как Open Directory Project ( ODP ). Он принадлежал AOL (теперь часть Yahoo! Inc ), но был создан и поддерживался сообществом добровольных редакторов.
DMOZ использовал иерархическую схему онтологии для организации списков сайтов. Листинги по схожей теме были сгруппированы в категории, которые затем включали более мелкие категории.
DMOZ закрылся 17 марта 2017 года, поскольку AOL больше не желала поддерживать проект. [1] [2] В тот день сайт стал единой целевой страницей со ссылками на статический архив DMOZ и на форум для обсуждения DMOZ, где обсуждались планы по ребрендингу и перезапуску каталога . [2]
По состоянию на сентябрь 2017 года [обновлять]нередактируемое зеркало оставалось доступным на dmoztools.net, [3] и было объявлено, что хотя URL-адрес DMOZ не будет восстановлен, будет предоставлена преемственная версия каталога под названием Curlie . [4] [5] [ требуется независимое подтверждение ]
DMOZ был основан в Соединенных Штатах как GnuHoo Ричем Скрентой и Бобом Труэлем в 1998 году, когда они оба работали инженерами в Sun Microsystems . Крис Толлес, работавший в Sun Microsystems руководителем отдела маркетинга продуктов сетевой безопасности, также подписал контракт в 1998 году как соучредитель Gnuhoo вместе с соучредителями Брином Доулом и Джереми Венокуром. Скрента разработал TASS, предка tin , популярного потокового средства чтения новостей Usenet для систем Unix . Первоначальная структура категорий каталога Gnuhoo была основана на структуре групп новостей Usenet, существовавших в то время.
Каталог Gnuhoo был запущен 5 июня 1998 года. После того, как Ричард Столлман и Free Software Foundation выступили против использования Gnu в названии, GnuHoo был изменен на NewHoo . [6] Yahoo! затем выступила против использования Hoo в названии, что побудило предложить изменить название на ZURL . [7] До перехода на ZURL , NewHoo был приобретен Netscape Communications Corporation в октябре 1998 года и стал проектом Open Directory. Netscape выпустила данные Open Directory по лицензии Open Directory. Вскоре после этого Netscape был приобретен AOL , и DMOZ был одним из активов, включенных в это приобретение.
К тому времени, как Netscape взяла на себя управление, Open Directory Project имел около 100 000 проиндексированных URL-адресов с участием около 4500 редакторов. 5 октября 1999 года количество URL-адресов, проиндексированных DMOZ, достигло одного миллиона. По неофициальной оценке, в апреле 2000 года количество URL-адресов в DMOZ составляло 1,6 миллиона, что превышает количество URL-адресов в Yahoo! Directory . [8] DMOZ достиг рубежей в индексации двух миллионов URL-адресов 14 августа 2000 года, трех миллионов записей 18 ноября 2001 года и четырех миллионов 3 декабря 2003 года. По состоянию на апрель 2013 года было 5 169 995 сайтов, перечисленных в более чем 1 017 500 категориях. По состоянию на 31 октября 2015 года в 1 026 706 категориях было зарегистрировано 3 996 412 сайтов.
В январе 2006 года DMOZ начал публиковать онлайн-отчеты, чтобы информировать общественность о развитии проекта. Первый отчет охватывал 2005 год. Ежемесячные отчеты выпускались впоследствии до сентября 2006 года. [9] Эти отчеты давали больше информации о функционировании каталога, чем упрощенная статистика, представленная на главной странице каталога. Количество списков и категорий, указанных на главной странице, включало категории «Тест» и «Закладки», но они не были включены в RDF-дамп, предлагаемый пользователям. В августе 2006 года было около 7330 активных редакторов. [9] 75 151 редактор внесли свой вклад в каталог по состоянию на 31 марта 2007 года. [10] По состоянию на апрель 2013 года количество редакторов, внесших свой вклад, возросло до 97 584. [10]
20 октября 2006 года главный сервер DMOZ потерпел катастрофический сбой [11] , из-за которого редакторы не могли работать над каталогом до 18 декабря 2006 года. В этот период старая версия каталога была доступна публике. 13 января 2007 года формы Site Suggestion и Update Listings снова стали доступны. [12] 26 января 2007 года возобновилась еженедельная публикация дампов RDF. Чтобы избежать будущих сбоев, с тех пор система размещалась на резервной конфигурации из двух серверов на базе Intel. [13]
Интерфейс сайта был обновлен в 2016 году под названием «DMOZ 3.0», но в следующем году AOL отключила его.
По мере того, как DMOZ становился все более известным, появились еще два крупных веб-каталога, редактируемых добровольцами и спонсируемых Go.com и Zeal , оба теперь несуществующие. Эти каталоги не лицензировали свой контент для открытого распространения контента . [14] [15]
Концепция использования масштабного сообщества редакторов для компиляции онлайн-контента была успешно применена к другим типам проектов. Модель редактирования DMOZ напрямую вдохновила по крайней мере три других проекта добровольцев с открытым контентом: музыкальный сайт MusicMoz, каталог ресторанов с открытым контентом, известный как ChefMoz [16], и энциклопедия, известная как Open Site. [17] Наконец, по словам Ларри Сэнгера , DMOZ был частью вдохновения для проекта Nupedia , из которого выросла Wikipedia . [18]
Gnuhoo позаимствовал базовую схему для своей первоначальной онтологии из Usenet . В 1998 году Рич Скрента сказал: «Я взял длинный список групп и вручную отредактировал их в иерархию». [19] Например, тема, охватываемая новостной группой comp.ai.alife, была представлена категорией Computers/AI/Artificial_Life. Первоначальные подразделения были для Adult , Arts , Business , Computers , Games , Health , Home , News , Recreation , Reference , Regional , Science , Shopping , Society , Sports и «World». В то время как эти шестнадцать категорий верхнего уровня остались нетронутыми, онтология категорий второго и нижнего уровня претерпела постепенную эволюцию; значительные изменения инициируются обсуждением среди редакторов, а затем внедряются после достижения консенсуса.
В июле 1998 года каталог стал многоязычным с добавлением категории высшего уровня World . Остальная часть каталога содержит только англоязычные сайты. К маю 2005 года было представлено семьдесят пять языков. Темпы роста неанглоязычных компонентов каталога были выше, чем англоязычного компонента с 2002 года. В то время как английский компонент каталога содержал почти 75% сайтов в 2003 году, мировой уровень вырос до более чем 1,5 миллиона сайтов по состоянию на май 2005 года, составив примерно одну треть каталога. Онтология в неанглоязычных категориях в целом отражает онтологию англоязычного каталога, хотя исключения, отражающие языковые различия, встречаются довольно часто.
Несколько категорий верхнего уровня имеют уникальные характеристики. Категория Adult отсутствует на домашней странице каталога, но она полностью доступна в дампе RDF, который предоставляет DMOZ. В то время как основная часть каталога категоризируется в основном по темам, категория Regional категоризируется в основном по регионам. Это привело к тому, что многие стали рассматривать DMOZ как два параллельных каталога: Regional и Topical .
14 ноября 2000 года в DMOZ был создан специальный каталог для лиц моложе 18 лет. [20] Ключевые факторы, отличающие эту область «Дети и подростки» от основного каталога:
К маю 2005 года эта часть DMOZ включала более 32 000 сайтов.
С начала 2004 года весь сайт был в кодировке UTF-8 . До этого кодировка была ISO 8859-1 для категорий английского языка и зависящий от языка набор символов для других языков. Дампы RDF были закодированы в UTF-8 с начала 2000 года.
Списки каталогов поддерживались редакторами. В то время как некоторые редакторы сосредоточились на добавлении новых списков, другие сосредоточились на поддержании существующих списков, а некоторые делали и то, и другое. Это включало такие задачи, как редактирование отдельных списков для исправления орфографических и/или грамматических ошибок, а также мониторинг статуса связанных сайтов. Другие же прошлись по заявкам на сайты, чтобы удалить спам и дублирующие заявки.
Robozilla — это веб-поиск, написанный для проверки статуса всех сайтов, перечисленных в DMOZ. Периодически Robozilla помечала сайты, которые, как казалось, были перемещены или исчезли, и редакторы следили за ними, чтобы проверить сайты и принять меры. Этот процесс был критически важен для каталога в стремлении достичь одной из его основополагающих целей: уменьшить количество неиспользуемых ссылок в веб-каталогах. Вскоре после каждого запуска сайты, отмеченные ошибками, автоматически перемещались в непроверенную очередь, где редакторы могли исследовать их, когда позволяло время.
Из-за популярности DMOZ и ее влияния на рейтинги поисковых систем (см. PageRank ), домены с истекшим сроком регистрации, размещенные в DMOZ, стали объектом перехвата доменов , и эта проблема была решена путем регулярного удаления доменов с истекшим сроком регистрации из каталога.
Хотя корпоративное финансирование и штат сотрудников DMOZ со временем сократились, волонтеры создали инструменты редактирования, такие как средства проверки ссылок в дополнение к Robozilla, сканеры категорий, средства проверки орфографии, инструменты поиска, которые напрямую просеивают недавний дамп RDF, букмарклеты для автоматизации некоторых функций редактирования, дополнения на основе Mozilla [22] и инструменты, которые помогли работать с непроверенными очередями.
Ранее данные DMOZ предоставлялись в соответствии с условиями лицензии Open Directory License, которая требовала наличия специальной таблицы атрибуции DMOZ на каждой веб-странице, использующей эти данные.
Open Directory License также включала требование, чтобы пользователи данных постоянно проверяли сайт DMOZ на наличие обновлений и прекращали использование и распространение данных или работ, полученных из данных, как только происходит обновление. Это ограничение побудило Free Software Foundation ссылаться на Open Directory License как на несвободную лицензию документации, ссылаясь на право распространять данную версию, не являющуюся постоянной, и на требование проверять наличие изменений в лицензии.
В 2011 году DMOZ молча изменил свою лицензию на лицензию Creative Commons Attribution [ необходима ссылка ] , которая является свободной лицензией (и совместима с GPL). [23]
Данные DMOZ доступны через дамп, подобный RDF, который публикуется на сервере загрузки, более старые версии также архивируются там. [24] Новые версии обычно генерируются еженедельно. Редактор DMOZ каталогизировал ряд ошибок, которые встречаются в дампе DMOZ RDF, наиболее важным из которых является то, что формат файла не является RDF. [25] Таким образом, хотя сегодня так называемый дамп RDF является допустимым XML , он не является допустимым RDF, и, как таковое, программное обеспечение для обработки дампа DMOZ RDF должно быть специально написано для данных DMOZ.
Данные DMOZ поддерживают основные службы каталогов для многих крупнейших поисковых систем и порталов Интернета, включая Netscape Search, AOL Search и Alexa . Google Directory использовал информацию DMOZ до своего закрытия в июле 2011 года. [26]
Данные DMOZ также используются и в других целях. Например, весной 2004 года Overture анонсировала поисковую службу для третьих лиц, объединяющую результаты поиска Yahoo! Directory с заголовками, описаниями и метаданными категорий DMOZ. Поисковая система Gigablast анонсировала 12 мая 2005 года свою поисковую копию DMOZ. Технология позволяет осуществлять поиск веб-сайтов, перечисленных в определенных категориях, «по сути, мгновенно создавая более 500 000 вертикальных поисковых систем». [27]
По состоянию на 8 сентября 2006 года [обновлять]DMOZ перечислил 313 англоязычных веб-сайтов, которые используют данные DMOZ, а также 238 сайтов на других языках. [28] Однако эти цифры не отражают полную картину использования, поскольку те сайты, которые используют данные DMOZ без соблюдения условий лицензии DMOZ, не перечислены.
Налагаются ограничения на то, кто может стать редактором DMOZ. Основным механизмом контроля является процесс подачи заявки на должность редактора, в ходе которого кандидаты на должность редактора демонстрируют свои редакторские способности, раскрывают связи, которые могут представлять конфликт интересов [ требуется ссылка ] и иным образом дают представление о том, как заявитель, скорее всего, впишется в культуру и миссию DMOZ. [29] Большинство заявок отклоняются, но повторная подача заявок допускается и иногда поощряется. Те же стандарты применяются к редакторам всех категорий и подкатегорий. [ требуется ссылка ]
Модель редактирования DMOZ является иерархической . Став редакторами, люди, как правило, будут иметь разрешения на редактирование только в небольшой категории. После того, как они продемонстрируют базовые навыки редактирования в соответствии с Руководством по редактированию, они могут подать заявку на дополнительные привилегии редактирования либо в более широкой категории, либо в другой категории в каталоге. Наставнические отношения между редакторами поощряются, а внутренние форумы предоставляют возможность новым редакторам задавать вопросы. [ необходима цитата ]
DMOZ имеет свои собственные внутренние форумы, содержимое которых предназначено только для редакторов, чтобы общаться друг с другом, в первую очередь, по вопросам редактирования тем. Для доступа к форумам требуется учетная запись редактора, и редакторы должны сохранять содержимое этих форумов конфиденциальным. [30]
Со временем старшим редакторам могут быть предоставлены дополнительные привилегии, которые отражают их опыт редактирования и лидерство в сообществе редактирования. Наиболее простой из них является привилегия edit all , которая позволяет редактору получать доступ ко всем категориям в каталоге. Привилегии meta дополнительно позволяют редакторам выполнять такие задачи, как просмотр приложений редактора, настройка функций категории и обработка внешних и внутренних отчетов о злоупотреблениях. Привилегии cateditall аналогичны edit all , но только для одной категории каталога. Аналогично, привилегии catmod аналогичны meta , но только для одной категории каталога. Привилегии catmv позволяют редакторам вносить изменения в онтологию каталога путем перемещения или переименования категорий. Все эти привилегии предоставляются администраторами и сотрудниками, как правило, после обсуждения с редакторами meta . [ необходима цитата ]
В августе 2004 года был введен новый уровень привилегий, называемый admin . Статус администратора был предоставлен ряду давно работающих мета-редакторов персоналом. Администраторы имеют возможность предоставлять привилегии editall+ другим редакторам и утверждать новые политики для всего каталога, полномочия, которые ранее были доступны только редакторам root (штатным). [31]
Все редакторы DMOZ должны соблюдать Правила редактирования DMOZ. Эти правила описывают основы редактирования: какие типы сайтов могут быть перечислены, а какие нет; как списки сайтов должны быть названы и описаны в примерной последовательности; соглашения по наименованию и построению категорий; ограничения конфликта интересов при редактировании сайтов, которыми редактор может владеть или с которыми он может быть связан; и кодекс поведения в сообществе. [32] Редакторы, которые были уличены в нарушении этих правил, могут быть ущемлены сотрудниками или старшими редакторами, им могут быть урезаны права на редактирование или они могут быть полностью лишены своих прав на редактирование. Правила DMOZ периодически пересматриваются после обсуждения на форумах редакторов. [ требуется ссылка ]
Давно существуют обвинения в том, что добровольные редакторы DMOZ благоприятно относятся к своим собственным веб-сайтам, одновременно препятствуя добросовестным усилиям своих конкурентов. [33] Такие обвинения выдвигаются сотрудниками ODP и редакторами мета-страниц, которые имеют полномочия принимать дисциплинарные меры против добровольных редакторов, подозреваемых в участии в злоупотреблениях при редактировании. [34] В 2003 году DMOZ представил новую Систему публичных сообщений о злоупотреблениях , которая позволяет членам широкой общественности сообщать и отслеживать обвинения в злоупотреблении редакторским поведением с помощью онлайн-формы. [35] Несдержанное обсуждение предполагаемых недостатков DMOZ стало более распространенным на основных форумах для веб-мастеров . Хотя политика сайта предполагает, что отдельный сайт должен быть представлен только в одной категории, [36] по состоянию на октябрь 2007 года Topix.com, сайт-агрегатор новостей, управляемый основателем DMOZ Ричем Скрентой, имел более 17 000 листингов. [37]
В начале истории DMOZ его сотрудники предоставляли представителям избранных компаний, таких как Rolling Stone или CNN , доступ для редактирования, чтобы перечислять отдельные страницы с их веб-сайтов. [38] Ссылки на отдельные статьи CNN добавлялись до 2004 года, но были полностью удалены из каталога в январе 2008 года [39] из-за того, что контент устарел и не стоил усилий на поддержание. С тех пор подобных экспериментов с политикой редактирования не проводилось.
В основе некоторых противоречий вокруг DMOZ лежат его права собственности и управление. Некоторые из первоначальных волонтеров GnuHoo считали, что их обманом заставили присоединиться к коммерческому предприятию. [6] В разной степени эти жалобы продолжаются и по сей день.
В начале существования DMOZ мало кто задумывался о том, как следует управлять DMOZ, и не было никаких официальных форумов , руководств или часто задаваемых вопросов . [40]
Со временем форумы редакторов ODP стали фактическим парламентом DMOZ, и когда один из сотрудников DMOZ публиковал мнение на форумах, это считалось официальным решением. [30] Несмотря на это, сотрудники DMOZ начали предоставлять доверенным старшим редакторам дополнительные привилегии редактирования, включая возможность утверждать новые заявки редакторов, что в конечном итоге привело к стратифицированной иерархии обязанностей и привилегий среди редакторов DMOZ, при этом оплачиваемый персонал DMOZ имел последнее слово относительно политики и процедур DMOZ. [31] [41]
Роберт Китинг, руководитель Touchstone Consulting Group в Вашингтоне, округ Колумбия, с 2006 года, работал менеджером программы AOL для DMOZ с 2004 года. Он начал работать в AOL в 1999 году в качестве старшего редактора AOL Search, затем управляющего редактора AOL Search, DMOZ, а затем менеджера по экосистеме медиа AOL Product Marketing. [42] [43]
Процедуры удаления редакторов DMOZ контролируются сотрудниками DMOZ и метаредакторами. Согласно официальным редакционным правилам DMOZ, редакторы удаляются за злоупотребления в редактировании или нецивилизованное поведение. Обсуждения, которые могут привести к дисциплинарным мерам в отношении редакторов-волонтеров, проходят на закрытом форуме, доступ к которому имеют только сотрудники DMOZ и метаредакторы. Редакторы-волонтеры, чьи работы обсуждаются, не уведомляются о том, что такие процедуры проводятся. [41] Некоторые люди считают такое положение дел неприятным, желая вместо этого обсуждения, больше похожего на судебный процесс в судебной системе США. [44]
В статье «Объяснение удаления редактора» редактор мета-ресурса DMOZ Арларсон утверждает, что «большая часть путаницы в отношении удаления редакторов из DMOZ возникает из-за ложных или вводящих в заблуждение заявлений бывших редакторов». [45]
Правила конфиденциальности DMOZ запрещают всем действующим редакторам DMOZ, которые могут что-либо знать, обсуждать причины удаления конкретных редакторов, [41] однако в правилах был предоставлен список возможных причин. [46] В прошлом это приводило к тому, что удаленные редакторы DMOZ задавались вопросом, почему они не могут войти в DMOZ, чтобы выполнить свою работу по редактированию. [47] [48]
Дэвид Ф. Пренатт-младший, бывший редактор DMOZ netesq , и другой бывший редактор, известный под псевдонимом The Cunctator , оба утверждают, что были уволены за несогласие с персоналом по поводу изменений в политике, в частности политики DMOZ в отношении авторских прав . Согласно их заявлениям, персонал использует оправдание нецивилизованного поведения как средство для увольнения надоедливых редакторов. [44] [49] [50]
Старшие редакторы DMOZ имеют возможность прикреплять заметки «предупреждение» или «не включать в список» к отдельным доменам, но ни один редактор не имеет односторонней возможности блокировать включение определенных сайтов в список. Сайты с такими заметками могут все еще быть включены в список, и иногда заметки удаляются после некоторого обсуждения. [51]
Критика иерархической структуры DMOZ появилась около 2005 года. Многие считают, что иерархические каталоги слишком сложны. С появлением Web 2.0 начали появляться фолксономии , и некоторые редакторы предположили, что фолксономии, сети и направленные графы более «естественны» и ими легче управлять, чем иерархиями. [52] [53] [54]
Программное обеспечение ODPSearch является производной версией Isearch с открытым исходным кодом , лицензированной в соответствии с Mozilla Public License . [55]
Форумы ODP Editor изначально работали на программном обеспечении, основанном на фирменной системе Ultimate Bulletin Board. В июне 2003 года они перешли на систему phpBB с открытым исходным кодом . С 2007 года эти форумы работали на модифицированной версии phpBB.
Программное обеспечение для отслеживания ошибок, используемое ODP, — Bugzilla , а веб-сервер — Apache . Также использовался веб-прокси-сервер Squid , но он был удален в августе 2007 года, когда серверы хранения были реорганизованы. Все эти приложения имеют открытый исходный код.
База данных/редакторское программное обеспечение DMOZ имеет закрытый исходный код (хотя Ричард Скрента заявил в июне 1998 года, что он рассматривает возможность лицензирования его по GNU General Public License ). Это привело к критике со стороны вышеупомянутого проекта GNU, многие из которых также критиковали лицензию контента DMOZ. Позднее контент был выпущен по лицензии Creative Commons, которая совместима с лицензией GNU. [56]
Таким образом, были предприняты некоторые усилия по созданию альтернатив DMOZ. Эти альтернативы позволили бы сообществам редакторов-единомышленников создавать и поддерживать свои собственные веб-каталоги с открытым исходным кодом/открытым контентом.
Chef Moz , ответвление DMOZ, был каталогом открытого контента ссылок ресторанов в World Wide Web . Сайт был создан и поддерживался сообществом добровольных редакторов и принадлежал Netscape .
Chef Moz, подобно своему родительскому DMOZ, использовал иерархическую схему онтологии для организации списков сайта. Листинги по схожей теме были сгруппированы в категории, которые затем могли включать более мелкие категории.
17 февраля 2011 года администратор DMOZ «lisagirl» подтвердила, что шеф-повар Моз умер. [57]
С момента своего основания в 2000 году и до ноября 2009 года (когда редакторам стало невозможно войти на сайт), ChefMoz вырос и стал крупнейшим мировым каталогом ресторанов в Интернете. Общее количество ресторанов, проиндексированных с 2000 года, указано в следующей таблице: [58]