Nutch полностью написан на языке программирования Java , но данные записываются в независимых от языка форматах. Он имеет модульную архитектуру, позволяющую разработчикам создавать плагины для анализа медиа-типов, извлечения данных, выполнения запросов и кластеризации.
Сборщик («робот» или « веб-сканер ») был написан с нуля специально для этого проекта.
В июне 2003 года была разработана успешная демонстрационная система объемом 100 миллионов страниц. Чтобы удовлетворить потребности в обработке задач сканирования и индексирования на нескольких машинах, проект Nutch также реализовал средство MapReduce и распределенную файловую систему . Эти два объекта были выделены в отдельный подпроект под названием Hadoop .
В январе 2005 года Nutch присоединился к инкубатору Apache, из которого в июне того же года он стал подпроектом Lucene. С апреля 2010 года Nutch считается независимым проектом высшего уровня Apache Software Foundation . [2]
В феврале 2014 года проект Common Crawl принял Nutch для открытого широкомасштабного сканирования веб-страниц. [3]
Когда-то целью проекта Nutch было создание глобальной крупномасштабной поисковой системы в Интернете, но сейчас это уже не так. [ нужна цитата ]
История выпусков
Масштабируемость
IBM Research изучила производительность [8] Nutch/Lucene в рамках своего проекта Commercial Scale Out (CSO). [9] Их выводы заключались в том, что горизонтально масштабируемая система, такая как Nutch/Lucene, может достичь уровня производительности на кластере блейд-серверов, недостижимого ни на одном масштабируемом компьютере, таком как POWER5 .
Набор данных ClueWeb09 (используемый, например, в TREC ) был собран с помощью Nutch со средней скоростью 755,31 документа в секунду. [10]
Связанные проекты
Hadoop — платформа Java, поддерживающая распределенные приложения, работающие в больших кластерах.
Поисковые системы, созданные с помощью Nutch
Common Crawl – общедоступное сканирование по всему Интернету, использование Nutch началось в 2014 году. [3]
Creative Commons Search – реализация Nutch, использовавшаяся в период 2004–2006 гг. [11] [12] [13]
^ ab «Apache Nutch™ — Загрузки» . Проверено 27 сентября 2022 г.
^ "Апач Нутч -" . www.nutch.apache.org .
^ ab «Переход Common Crawl в Nutch - Common Crawl - Блог» . blog.commoncrawl.org . Проверено 14 октября 2015 г.
^ "Выпуск Nutch 2.3" . Новости Apache Nutch . Фонд программного обеспечения Apache. 22 января 2015 года . Проверено 18 января 2016 г.
^ "Примечания к выпуску Nutch 1.10" . АФС ДЖИРА . Фонд программного обеспечения Apache. 6 мая 2015 года . Проверено 18 января 2016 г.
^ "Примечания к выпуску Nutch 1.11" . АФС ДЖИРА . Фонд программного обеспечения Apache. 7 декабря 2015 года . Проверено 18 января 2016 г.
^ "Выпуск Nutch 2.4" . Новости Apache Nutch . Фонд программного обеспечения Apache. 11 октября 2019 года . Проверено 20 мая 2022 г.
^ «Масштабируемость поисковой системы Nutch» (PDF) .
^ «Подготовка и установка базовой операционной системы для коммерческого суперкомпьютера» (PDF) . Архивировано из оригинала (PDF) 3 декабря 2008 г.
^ Веб-сканер Sapphire — Статистика сканирования. Boston.lti.cs.cmu.edu (01 октября 2008 г.). Проверено 21 июля 2013 г.
^ «Наш обновленный поиск» . Креативное сообщество. 3 сентября 2004 г.
^ «Уникальный инструмент поиска Creative Commons теперь интегрирован в Firefox 1.0» . Креативное сообщество. 2004-11-22. Архивировано из оригинала 7 января 2010 г.
^ «Новый интерфейс поиска CC» . Креативное сообщество. 2 августа 2006 г.
^ «Где я могу получить исходный код Wikia Search?». Архивировано из оригинала 4 ноября 2011 г. Проверено 12 февраля 2010 г.
^ «Обновление Wikia – делаем больше того, что работает | Джимми Уэйлс» . 31 марта 2009 г.
Библиография
Шоберг, Дж. (26 октября 2006 г.). Создание поисковых приложений с помощью Lucene и Nutch (1-е изд.). Апресс . п. 350. ИСБН 978-1-59059-687-6. Архивировано из оригинала 2 декабря 2009 года . Проверено 15 августа 2009 г.