Вертикальная поисковая система отличается от обычной поисковой системы в Интернете тем, что она фокусируется на определенном сегменте онлайн-контента. Их еще называют специализированными или тематическими поисковыми системами. Область вертикального контента может основываться на актуальности, типе медиа или жанре контента. Общие вертикали включают шоппинг, автомобильную промышленность, юридическую информацию, медицинскую информацию, научную литературу, поиск работы и путешествия. Примеры систем вертикального поиска включают Библиотеку Конгресса , Mocavo , Nuroa , Trulia и Yelp .
В отличие от обычных поисковых систем, которые пытаются индексировать большие части Всемирной паутины с помощью веб-сканера , вертикальные поисковые системы обычно используют целенаправленный сканер , который пытается индексировать только релевантные веб-страницы по заранее определенной теме или набору тем. . Некоторые сайты вертикального поиска ориентированы на отдельные вертикали, в то время как другие сайты включают несколько вертикальных поисков в рамках одной поисковой системы.
Вертикальный поиск предлагает несколько потенциальных преимуществ по сравнению с обычными поисковыми системами:
Вертикальный поиск можно рассматривать как аналог корпоративного поиска , где предметом внимания является предприятие, например компания, правительство или другая организация. В 2013 году веб-сайты сравнения потребительских цен со встроенными системами вертикального поиска, такие как FindTheBest, привлекли крупные раунды венчурного финансирования, что указывает на тенденцию роста этих приложений технологии вертикального поиска. [1] [2]
Вертикали, специфичные для предметной области, фокусируются на конкретной теме. Джон Баттел описывает это в своей книге «Поиск» (2005):
Решения для поиска, специфичные для предметной области, фокусируются на одной области знаний, создавая индивидуальный поиск, который из-за ограниченного корпуса предметной области и четких связей между понятиями обеспечивает чрезвычайно релевантные результаты для поисковиков. [3]
Любая универсальная поисковая система будет индексировать все страницы и выполнять поиск в ширину для сбора документов. Поиск в специализированных поисковых системах более эффективно выполняет поиск в небольшом подмножестве документов, фокусируясь на определенном наборе. Было обнаружено, что спайдеринг, осуществляемый с помощью системы обучения с подкреплением, в три раза более эффективен, чем поиск в ширину . [4]
В начале 2014 года Агентство перспективных исследовательских проектов Министерства обороны США ( DARPA ) опубликовало на своем веб-сайте заявление, в котором излагаются предварительные детали «программы Memex», целью которой является разработка новых поисковых технологий, преодолевающих некоторые ограничения текстового поиска. [5] DARPA хочет, чтобы технология Memex, разработанная в ходе этого исследования, могла использоваться поисковыми системами, которые могут искать информацию в Deep Web – той части Интернета, которая в значительной степени недоступна для коммерческих поисковых систем, таких как Google или Yahoo . На веб-сайте DARPA говорится: «Цель состоит в том, чтобы изобрести более эффективные методы взаимодействия и обмена информацией, чтобы пользователи могли быстро и тщательно организовывать и искать подмножества информации, соответствующие их индивидуальным интересам». [6] Как сообщалось в статье Wired за 2015 год , технология поиска, разрабатываемая в рамках программы Memex, «направлена на то, чтобы пролить свет на темную сеть и выявить закономерности и взаимосвязи в онлайн-данных, чтобы помочь правоохранительным органам и другим лицам отслеживать незаконную деятельность». [7] DARPA намерено, чтобы программа заменила централизованные процедуры, используемые коммерческими поисковыми системами, заявляя, что «создание новой парадигмы индексирования и поиска для конкретной области обеспечит механизмы для улучшения обнаружения контента, извлечения информации, поиска информации, сотрудничества пользователей». и расширение текущих возможностей поиска на глубокую сеть, темную сеть и нетрадиционный (например, мультимедийный) контент». [8] В описании программы DARPA объясняет название программы как дань уважения оригинальному изобретению Буша Memex, которое послужило источником вдохновения. [5]
В апреле 2015 года было объявлено, что некоторые части Memex будут иметь открытый исходный код. [9] Модули были доступны для скачивания. [8]