Апач Натч

Apache Nutch — это расширяемый и масштабируемый проект программного обеспечения для веб-сканирования с открытым исходным кодом .

Функции

Талисман робота-нутча

Nutch полностью написан на языке программирования Java , но данные записываются в независимых от языка форматах. Он имеет модульную архитектуру, позволяющую разработчикам создавать плагины для анализа медиа-типов, извлечения данных, выполнения запросов и кластеризации.

Сборщик («робот» или « веб-сканер ») был написан с нуля специально для этого проекта.

История

Nutch был создан Дугом Каттингом , создателем Lucene и Hadoop , и Майком Кафареллой .

В июне 2003 года была разработана успешная демонстрационная система объемом 100 миллионов страниц. Чтобы удовлетворить потребности в обработке задач сканирования и индексирования на нескольких машинах, проект Nutch также реализовал средство MapReduce и распределенную файловую систему . Эти два объекта были выделены в отдельный подпроект под названием Hadoop .

В январе 2005 года Nutch присоединился к инкубатору Apache, из которого в июне того же года он стал подпроектом Lucene. С апреля 2010 года Nutch считается независимым проектом высшего уровня Apache Software Foundation . ^[2]

В феврале 2014 года проект Common Crawl принял Nutch для открытого широкомасштабного сканирования веб-страниц. ^[3]

Когда-то целью проекта Nutch было создание глобальной крупномасштабной поисковой системы в Интернете, но сейчас это уже не так. ^{[ нужна цитата ]}

История выпусков

Масштабируемость

IBM Research изучила производительность ^[8] Nutch/Lucene в рамках своего проекта Commercial Scale Out (CSO). ^[9] Их выводы заключались в том, что горизонтально масштабируемая система, такая как Nutch/Lucene, может достичь уровня производительности на кластере блейд-серверов, недостижимого ни на одном масштабируемом компьютере, таком как POWER5 .

Набор данных ClueWeb09 (используемый, например, в TREC ) был собран с помощью Nutch со средней скоростью 755,31 документа в секунду. ^[10]

Связанные проекты

Hadoop — платформа Java, поддерживающая распределенные приложения, работающие в больших кластерах.

Поисковые системы, созданные с помощью Nutch

Common Crawl – общедоступное сканирование по всему Интернету, использование Nutch началось в 2014 году. ^[3]
Creative Commons Search – реализация Nutch, использовавшаяся в период 2004–2006 гг. ^[11]^[12]^[13]
DiscoverEd — прототип поиска открытых образовательных ресурсов , разработанный Creative Commons.
Krugle использует Nutch для сканирования веб-страниц в поисках кода, архивов и технически интересного контента.
mozDex (неактивный)
Wikia Search - запущен в 2008 г., закрыт в 2009 г. ^[14]^[15]

Смотрите также

Библиография

Шоберг, Дж. (26 октября 2006 г.). Создание поисковых приложений с помощью Lucene и Nutch (1-е изд.). Апресс . п. 350. ИСБН 978-1-59059-687-6. Архивировано из оригинала 2 декабря 2009 года . Проверено 15 августа 2009 г.

Внешние ссылки

Официальный веб-сайт