stringtranslate.com

Апач Натч

Apache Nutch — это расширяемый и масштабируемый проект программного обеспечения для веб-сканирования с открытым исходным кодом .

Функции

Талисман робота-нутча

Nutch полностью написан на языке программирования Java , но данные записываются в независимых от языка форматах. Он имеет модульную архитектуру, позволяющую разработчикам создавать плагины для анализа медиа-типов, извлечения данных, выполнения запросов и кластеризации.

Сборщик («робот» или « веб-сканер ») был написан с нуля специально для этого проекта.

История

Nutch был создан Дугом Каттингом , создателем Lucene и Hadoop , и Майком Кафареллой .

В июне 2003 года была разработана успешная демонстрационная система объемом 100 миллионов страниц. Чтобы удовлетворить потребности в обработке задач сканирования и индексирования на нескольких машинах, проект Nutch также реализовал средство MapReduce и распределенную файловую систему . Эти два объекта были выделены в отдельный подпроект под названием Hadoop .

В январе 2005 года Nutch присоединился к инкубатору Apache, из которого в июне того же года он стал подпроектом Lucene. С апреля 2010 года Nutch считается независимым проектом высшего уровня Apache Software Foundation . [2]

В феврале 2014 года проект Common Crawl принял Nutch для открытого широкомасштабного сканирования веб-страниц. [3]

Когда-то целью проекта Nutch было создание глобальной крупномасштабной поисковой системы в Интернете, но сейчас это уже не так. [ нужна цитата ]

История выпусков

Масштабируемость

IBM Research изучила производительность [8] Nutch/Lucene в рамках своего проекта Commercial Scale Out (CSO). [9] Их выводы заключались в том, что горизонтально масштабируемая система, такая как Nutch/Lucene, может достичь уровня производительности на кластере блейд-серверов, недостижимого ни на одном масштабируемом компьютере, таком как POWER5 .

Набор данных ClueWeb09 (используемый, например, в TREC ) был собран с помощью Nutch со средней скоростью 755,31 документа в секунду. [10]

Связанные проекты

Поисковые системы, созданные с помощью Nutch

Смотрите также

Рекомендации

  1. ^ ab «Apache Nutch™ — Загрузки» . Проверено 27 сентября 2022 г.
  2. ^ "Апач Нутч -" . www.nutch.apache.org .
  3. ^ ab «Переход Common Crawl в Nutch - Common Crawl - Блог» . blog.commoncrawl.org . Проверено 14 октября 2015 г.
  4. ^ "Выпуск Nutch 2.3" . Новости Apache Nutch . Фонд программного обеспечения Apache. 22 января 2015 года . Проверено 18 января 2016 г.
  5. ^ "Примечания к выпуску Nutch 1.10" . АФС ДЖИРА . Фонд программного обеспечения Apache. 6 мая 2015 года . Проверено 18 января 2016 г.
  6. ^ "Примечания к выпуску Nutch 1.11" . АФС ДЖИРА . Фонд программного обеспечения Apache. 7 декабря 2015 года . Проверено 18 января 2016 г.
  7. ^ "Выпуск Nutch 2.4" . Новости Apache Nutch . Фонд программного обеспечения Apache. 11 октября 2019 года . Проверено 20 мая 2022 г.
  8. ^ «Масштабируемость поисковой системы Nutch» (PDF) .
  9. ^ «Подготовка и установка базовой операционной системы для коммерческого суперкомпьютера» (PDF) . Архивировано из оригинала (PDF) 3 декабря 2008 г.
  10. ^ Веб-сканер Sapphire — Статистика сканирования. Boston.lti.cs.cmu.edu (01 октября 2008 г.). Проверено 21 июля 2013 г.
  11. ^ «Наш обновленный поиск» . Креативное сообщество. 3 сентября 2004 г.
  12. ^ «Уникальный инструмент поиска Creative Commons теперь интегрирован в Firefox 1.0» . Креативное сообщество. 2004-11-22. Архивировано из оригинала 7 января 2010 г.
  13. ^ «Новый интерфейс поиска CC» . Креативное сообщество. 2 августа 2006 г.
  14. ^ «Где я могу получить исходный код Wikia Search?». Архивировано из оригинала 4 ноября 2011 г. Проверено 12 февраля 2010 г.
  15. ^ «Обновление Wikia – делаем больше того, что работает | Джимми Уэйлс» . 31 марта 2009 г.

Библиография

Внешние ссылки