Библиотека Java для полнотекстового поиска
Apache Lucene — это бесплатная библиотека программного обеспечения поисковой системы с открытым исходным кодом , изначально написанная на Java Дугом Каттингом . Она поддерживается Apache Software Foundation и выпускается под лицензией Apache Software License . Lucene широко используется в качестве стандартной основы для приложений поиска в производстве. [2] [3] [4]
Lucene был портирован на другие языки программирования, включая Object Pascal , Perl , C# , C++ , Python , Ruby и PHP . [5]
История
Первоначально Doug Cutting написал Lucene в 1999 году . [6] Lucene была его пятой поисковой системой. Ранее он написал две, работая в Xerox PARC , одну в Apple и четвертую в Excite . [7] Первоначально она была доступна для загрузки с ее домашней страницы на веб-сайте SourceForge . Она присоединилась к семейству Java-продуктов с открытым исходным кодом Apache Software Foundation в Джакарте в сентябре 2001 года и стала собственным проектом Apache верхнего уровня в феврале 2005 года. Название Lucene — это второе имя жены Doug Cutting и имя ее бабушки по материнской линии. [8]
Lucene ранее включал в себя ряд подпроектов, таких как Lucene.NET, Mahout , Tika и Nutch . Эти три теперь являются независимыми проектами верхнего уровня.
В марте 2010 года поисковый сервер Apache Solr присоединился к Lucene в качестве подпроекта, объединив сообщества разработчиков.
Версия 4.0 была выпущена 12 октября 2012 года. [9]
В марте 2021 года Lucene сменила логотип, и Apache Solr снова стал проектом Apache верхнего уровня, независимым от Lucene.
Особенности и общее использование
Хотя Lucene подходит для любых приложений, требующих полнотекстовой индексации и поиска, он также известен своей полезностью при реализации поисковых систем в Интернете и локального поиска на одном сайте. [10] [11]
Lucene включает функцию выполнения нечеткого поиска на основе расстояния редактирования . [12]
Lucene также использовался для внедрения рекомендательных систем. [13] Например, класс «MoreLikeThis» Lucene может генерировать рекомендации для похожих документов. При сравнении подхода «MoreLikeThis» на основе векторного сходства терминов с мерами сходства документов на основе цитирования, такими как анализ близости совместного цитирования и совместного цитирования, подход Lucene преуспел в рекомендации документов с очень похожими структурными характеристиками и более узкой степенью родства. [14] Напротив, меры сходства документов на основе цитирования, как правило, больше подходят для рекомендации более широко связанных документов, [14] что означает, что подходы на основе цитирования могут быть более подходящими для генерации случайных рекомендаций, при условии, что рекомендуемые документы содержат внутритекстовые цитаты.
Проекты на основе Lucene
Lucene сама по себе является просто библиотекой индексации и поиска и не содержит функциональность сканирования и парсинга HTML . Однако несколько проектов расширяют возможности Lucene:
Смотрите также
Ссылки
- ^ "Добро пожаловать в Apache Lucene". Раздел новостей Lucene™. Архивировано из оригинала 12 февраля 2021 г. Получено 12 февраля 2020 г.
- ^ Кампхёйс, Крис; де Врис, Арьен П.; Бойцов, Леонид; Лин, Джимми (2020), «Какой BM25 вы имеете в виду? Масштабное исследование воспроизводимости вариантов подсчета», в Хосе, Джоэмон М.; Йилмаз, Эмине; Магальяйнш, Жуан; Кастельс, Пабло (ред.), Достижения в области информационного поиска , Конспект лекций по информатике, т. 12036, Cham: Springer International Publishing, стр. 28–34, doi : 10.1007/978-3-030-45442-5_4, ISBN 978-3-030-45441-8, ЧМЦ 7148026
- ^ Гранд, Адриен; Мьюир, Роберт; Ференци, Джим; Лин, Джимми (2020), «От MAXSCORE до Block-Max Wand: история о том, как Lucene значительно улучшила производительность оценки запросов», в Хосе, Джоэмон М.; Йилмаз, Эмине; Магальяйнш, Жуан; Кастельс, Пабло (ред.), Достижения в области информационного поиска , Конспект лекций по информатике, т. 12036, Cham: Springer International Publishing, стр. 20–27, doi : 10.1007/978-3-030-45442-5_3, ISBN 978-3-030-45441-8, ЧМЦ 7148045
- ^ Аззопарди, Лейф; Мошфеги, Яшар; Халви, Мартин; Алхавалде, Рами С.; Балог, Кристиан; Ди Буччио, Эмануэле; Чеккарелли, Диего; Фернандес-Луна, Хуан М.; Халл, Чарли; Мэнникс, Джейк; Палчоудхури, Саупарна (14 февраля 2017 г.). «Lucene4IR: Разработка ресурсов для оценки информационного поиска с использованием Lucene». Форум ACM SIGIR . 50 (2): 58–75. дои : 10.1145/3053408.3053421. ISSN 0163-5840. S2CID 212416159.
- ^ "LuceneImplementations". apache.org . Архивировано из оригинала 6 октября 2015 г. Получено 23 сентября 2015 г.
- ^ KeywordAnalyzer "Лучший поиск с Apache Lucene и Solr" (PDF) . 19 ноября 2007 г. Архивировано из оригинала (PDF) 31 января 2012 г.
- ^ Cutting, Doug (2019-06-07). «Я написал пару поисковых систем в Xerox PARC, затем V-Twin в Apple, затем переписал поиск Excite, затем Lucene. Так что, Lucene можно считать V-Twin 3.0? Почти 25 лет спустя V-Twin все еще живет как Mac OS X Search Kit!». @cutting . Получено 2019-06-19 .
- ^ Баркер, Дин (2016). Управление веб-контентом . O'Reilly. стр. 233. ISBN 978-1491908105.
- ^ "Apache Lucene - Добро пожаловать в Apache Lucene". apache.org . Архивировано из оригинала 4 февраля 2016 года . Получено 4 февраля 2016 года .
- ^ МакКэндлесс, Майкл; Хэтчер, Эрик; Господетич, Отис (2010). Lucene in Action, Второе издание . Мэннинг. стр. 8. ISBN 978-1933988177.
- ^ "GNU/Linux Semantic Storage System" (PDF) . glscube.org . Архивировано из оригинала (PDF) 2010-06-01.
- ^ "Apache Lucene - Синтаксис парсера запросов". lucene.apache.org . Архивировано из оригинала 2017-05-02.
- ^ Дж. Бил, С. Лангер и Б. Гипп, «Архитектура и наборы данных системы рекомендаций исследовательских работ Docear», в трудах 3-го Международного семинара по научным публикациям в области горного дела (WOSP 2014) на Совместной конференции ACM/IEEE по цифровым библиотекам (JCDL 2014), Лондон, Великобритания, 2014 г.
- ^ ab M. Schwarzer, M. Schubotz, N. Meuschke, C. Breitinger, V. Markl и B. Gipp, https://www.gipp.com/wp-content/papercite-data/pdf/schwarzer2016.pdf «Оценка рекомендаций на основе ссылок для Википедии» в Трудах 16-й совместной конференции ACM/IEEE-CS по цифровым библиотекам (JCDL), Нью-Йорк, США, 2016 г., стр. 191–200.
- ^ Уэйнер, Питер. «11 передовых баз данных, которые стоит изучить сейчас». InfoWorld. Архивировано из оригинала 21 сентября 2015 г. Получено 21 сентября 2015 г.
- ^ "Elasticsearch: RESTful, Distributed Search & Analytics - Elastic". elastic.co . Архивировано из оригинала 8 октября 2015 г. Получено 23 сентября 2015 г.
- ^ "Будущее Compass & Elasticsearch". чувак пребывает . Архивировано из оригинала 2015-10-15 . Получено 2015-10-14 .
- ^ ab Natividad, Angela. "Socialtext Updates Search, Goes Kino". CMS Wire. Архивировано из оригинала 29-09-2012 . Получено 31-05-2011 .
- ^ Марвин Хамфри. "KinoSearch - Библиотека поисковой системы. - metacpan.org". p3rl.org . Получено 23 сентября 2015 г. .
- ^ Diment, Kieren; Trout, Matt S (2009). "Catalyst Cookbook". Полное руководство по Catalyst . Apress . стр. 280. ISBN 978-1-4302-2365-8.
- ^ Wishart, DS ; et al. (январь 2009 г.). "HMDB: база знаний по человеческому метаболому". Nucleic Acids Res. 37 (выпуск базы данных): D603–10. doi :10.1093/nar/gkn810. PMC 2686599 . PMID 18953024.
- ^ Лим, Эмилия; Пон, Эллисон; Джумбу, Янник; Нокс, Крейг; Шривастава, Савита; Го, Ан Чи; Неве, Ванесса; Уишарт, Дэвид С. (январь 2010 г.). «T3DB: всесторонне аннотированная база данных распространенных токсинов и их целей». Nucleic Acids Res . 38 (выпуск базы данных): D781–6. doi :10.1093/nar/gkp934. PMC 2808899. PMID 19897546 .
Библиография
Внешние ссылки