stringtranslate.com

Вертикальный поиск

Вертикальная поисковая система отличается от обычной поисковой системы в Интернете тем, что она фокусируется на определенном сегменте онлайн-контента. Их еще называют специализированными или тематическими поисковыми системами. Область вертикального контента может основываться на актуальности, типе медиа или жанре контента. Общие вертикали включают шоппинг, автомобильную промышленность, юридическую информацию, медицинскую информацию, научную литературу, поиск работы и путешествия. Примеры систем вертикального поиска включают Библиотеку Конгресса , Mocavo , Nuroa , Trulia и Yelp .

В отличие от обычных поисковых систем, которые пытаются индексировать большие части Всемирной паутины с помощью веб-сканера , вертикальные поисковые системы обычно используют целенаправленный сканер , который пытается индексировать только релевантные веб-страницы по заранее определенной теме или набору тем. . Некоторые сайты вертикального поиска ориентированы на отдельные вертикали, в то время как другие сайты включают несколько вертикальных поисков в рамках одной поисковой системы.

Преимущества

Вертикальный поиск предлагает несколько потенциальных преимуществ по сравнению с обычными поисковыми системами:

Вертикальный поиск можно рассматривать как аналог корпоративного поиска , где предметом внимания является предприятие, например компания, правительство или другая организация. В 2013 году веб-сайты сравнения потребительских цен со встроенными системами вертикального поиска, такие как FindTheBest, привлекли крупные раунды венчурного финансирования, что указывает на тенденцию роста этих приложений технологии вертикального поиска. [1] [2]

Поиск по конкретному домену

Вертикали, специфичные для предметной области, фокусируются на конкретной теме. Джон Баттел описывает это в своей книге «Поиск» (2005):

Решения для поиска, специфичные для предметной области, фокусируются на одной области знаний, создавая индивидуальный поиск, который из-за ограниченного корпуса предметной области и четких связей между понятиями обеспечивает чрезвычайно релевантные результаты для поисковиков. [3]

Любая универсальная поисковая система будет индексировать все страницы и выполнять поиск в ширину для сбора документов. Поиск в специализированных поисковых системах более эффективно выполняет поиск в небольшом подмножестве документов, фокусируясь на определенном наборе. Было обнаружено, что спайдеринг, осуществляемый с помощью системы обучения с подкреплением, в три раза более эффективен, чем поиск в ширину . [4]

Программа Memex DARPA

В начале 2014 года Агентство перспективных исследовательских проектов Министерства обороны США ( DARPA ) опубликовало на своем веб-сайте заявление, в котором излагаются предварительные детали «программы Memex», целью которой является разработка новых поисковых технологий, преодолевающих некоторые ограничения текстового поиска. [5] DARPA хочет, чтобы технология Memex, разработанная в ходе этого исследования, могла использоваться поисковыми системами, которые могут искать информацию в Deep Web – той части Интернета, которая в значительной степени недоступна для коммерческих поисковых систем, таких как Google или Yahoo . На веб-сайте DARPA говорится: «Цель состоит в том, чтобы изобрести более эффективные методы взаимодействия и обмена информацией, чтобы пользователи могли быстро и тщательно организовывать и искать подмножества информации, соответствующие их индивидуальным интересам». [6] Как сообщалось в статье Wired за 2015 год , технология поиска, разрабатываемая в рамках программы Memex, «направлена ​​на то, чтобы пролить свет на темную сеть и выявить закономерности и взаимосвязи в онлайн-данных, чтобы помочь правоохранительным органам и другим лицам отслеживать незаконную деятельность». [7] DARPA намерено, чтобы программа заменила централизованные процедуры, используемые коммерческими поисковыми системами, заявляя, что «создание новой парадигмы индексирования и поиска для конкретной области обеспечит механизмы для улучшения обнаружения контента, извлечения информации, поиска информации, сотрудничества пользователей». и расширение текущих возможностей поиска на глубокую сеть, темную сеть и нетрадиционный (например, мультимедийный) контент». [8] В описании программы DARPA объясняет название программы как дань уважения оригинальному изобретению Буша Memex, которое послужило источником вдохновения. [5]

В апреле 2015 года было объявлено, что некоторые части Memex будут иметь открытый исходный код. [9] Модули были доступны для скачивания. [8]

Рекомендации

  1. Рао, Лина (5 марта 2013 г.). «Платформа для сравнения цен на основе данных FindTheBest привлекла 11 миллионов долларов от New World, Kleiner Perkins и других» . TechCrunch. Архивировано из оригинала 1 июня 2013 года . Проверено 27 мая 2013 г.
  2. ХО, ВИКТОРИЯ (11 мая 2013 г.). «Азиатский сайт сравнения цен Save 22 получил ангельский раунд «среднешестизначных цифр»» . Архивировано из оригинала 7 июня 2013 года . Проверено 27 мая 2013 г.
  3. ^ Баттель, Джон (2005). Поиск: как Google и его конкуренты переписали правила бизнеса и изменили нашу культуру . Нью-Йорк: Портфолио.
  4. ^ МакКаллум, Эндрю (1999). «Подход машинного обучения к созданию доменно-ориентированных поисковых систем». ИДЖКАИ . 99 : 662–667. CiteSeerX 10.1.1.88.3818 . 
  5. ^ ab «Memex стремится создать новую парадигму для поиска по конкретному домену» (пресс-релиз). ДАРПА . 9 февраля 2014. Архивировано из оригинала 11 февраля 2015 года . Проверено 11 февраля 2015 г.
  6. ^ «Memex (поиск по конкретному домену)» . www.darpa.mil . Архивировано из оригинала 16 сентября 2016 г. Проверено 21 сентября 2016 г.
  7. Ким Зеттер (2 февраля 2015 г.). «DARPA разрабатывает поисковую систему для даркнета». Проводной . Архивировано из оригинала 29 июня 2023 года . Проверено 19 ноября 2020 г.
  8. ^ ab «Memex (поиск по конкретному домену)» . ДАРПА. Архивировано из оригинала 10 июня 2015 года . Проверено 20 апреля 2015 г.
  9. ^ Форбс (17 апреля 2015 г.). «Осторожно, Google, DARPA только что открыло исходный код всей этой поисковой технологии Swish в «темной паутине»» . Форбс . Архивировано из оригинала 20 апреля 2015 года . Проверено 20 апреля 2015 г.