Поисковая система — это программная система , которая предоставляет гиперссылки на веб-страницы и другую соответствующую информацию в Интернете в ответ на запрос пользователя . Пользователь вводит запрос в веб-браузере или мобильном приложении , и результаты поиска часто представляют собой список гиперссылок, сопровождаемых текстовыми резюме и изображениями. Пользователи также имеют возможность ограничить поиск определенным типом результатов, например изображениями, видео или новостями.
Для поискового провайдера его движок является частью распределенной вычислительной системы, которая может охватывать множество центров обработки данных по всему миру. Скорость и точность ответа движка на запрос основаны на сложной системе индексации , которая постоянно обновляется автоматизированными веб-краулерами . Это может включать в себя интеллектуальный анализ данных файлов и баз данных, хранящихся на веб-серверах , но некоторый контент недоступен для краулеров.
С момента зарождения Интернета в 1990-х годах существовало много поисковых систем, но Google Search стал доминирующим в 2000-х годах и остается таковым. В настоящее время его доля на мировом рынке составляет 91%. [1] [2] Бизнес веб-сайтов, улучшающий их видимость в результатах поиска , известный как маркетинг и оптимизация , таким образом, в значительной степени сосредоточен на Google.
В 1945 году Ванневар Буш описал систему поиска информации, которая позволяла бы пользователю получать доступ к огромному объему информации, все за одним столом. [3] Он назвал ее memex . Он описал систему в статье под названием « Как мы можем думать », опубликованной в The Atlantic Monthly . [4] Memex была предназначена для того, чтобы дать пользователю возможность преодолеть постоянно растущую сложность поиска информации в постоянно растущих централизованных индексах научных работ. Ванневар Буш представлял себе библиотеки исследований со связанными аннотациями, которые похожи на современные гиперссылки . [5]
Анализ ссылок в конечном итоге стал важнейшим компонентом поисковых систем благодаря таким алгоритмам, как Hyper Search и PageRank . [6] [7]
Первые поисковые системы в Интернете появились еще до появления Всемирной паутины в декабре 1990 года: поиск пользователей WHOIS появился в 1982 году, [8] а многосетевой поиск пользователей Knowbot Information Service был впервые реализован в 1989 году. [9] Первой хорошо документированной поисковой системой, которая искала файлы контента, а именно файлы FTP , была Archie , которая дебютировала 10 сентября 1990 года. [10]
До сентября 1993 года Всемирная паутина индексировалась полностью вручную. Был список веб-серверов, отредактированный Тимом Бернерсом-Ли и размещенный на веб-сервере ЦЕРНа . Сохранился один снимок списка 1992 года, [11] но по мере того, как все больше и больше веб-серверов подключались к сети, центральный список уже не мог поспевать за обновлениями. На сайте NCSA новые серверы были анонсированы под заголовком «Что нового!». [12]
Первым инструментом, использовавшимся для поиска контента (в отличие от пользователей) в Интернете, был Archie . [13] Название означает «архив» без «v». [14] Он был создан Аланом Эмтаджем , [14] [15] [16] [17] студентом факультета компьютерных наук Университета Макгилла в Монреале, Квебек , Канада. Программа загружала списки каталогов всех файлов, расположенных на публичных анонимных FTP-сайтах ( File Transfer Protocol ), создавая доступную для поиска базу данных имен файлов; однако поисковая система Archie не индексировала содержимое этих сайтов, поскольку объем данных был настолько ограничен, что их можно было легко искать вручную.
Рост Gopher (созданной в 1991 году Марком МакКахиллом в Университете Миннесоты ) привел к появлению двух новых поисковых программ, Veronica и Jughead . Как и Archie, они искали имена и заголовки файлов, хранящиеся в индексных системах Gopher. Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) обеспечивала поиск по ключевым словам большинства заголовков меню Gopher во всех списках Gopher. Jughead (Jonzy's Universal Gopher Hierarchy Excavation And Display) был инструментом для получения информации о меню с определенных серверов Gopher. Хотя название поисковой системы « Archie Search Engine » не было ссылкой на серию комиксов Archie , « Veronica » и « Jughead » являются персонажами этой серии, таким образом ссылаясь на своего предшественника.
Летом 1993 года поисковой системы для Интернета не существовало, хотя многочисленные специализированные каталоги поддерживались вручную. Оскар Ниерштрас из Женевского университета написал серию скриптов Perl , которые периодически зеркалировали эти страницы и переписывали их в стандартный формат. Это легло в основу W3Catalog , первой примитивной поисковой системы Интернета, выпущенной 2 сентября 1993 года. [18]
В июне 1993 года Мэтью Грей, тогда работавший в Массачусетском технологическом институте , создал, вероятно, первого веб-робота , World Wide Web Wanderer на основе Perl , и использовал его для создания индекса под названием «Wandex». Целью Wanderer было измерение размера Всемирной паутины, что он и делал до конца 1995 года. Вторая поисковая система в Интернете Aliweb появилась в ноябре 1993 года. Aliweb не использовал веб-робота , а вместо этого зависел от уведомления администраторов веб-сайтов о существовании на каждом сайте файла индекса в определенном формате.
JumpStation (созданная в декабре 1993 года [19] Джонатаном Флетчером ) использовала веб-робота для поиска веб-страниц и построения их индекса, а также использовала веб-форму в качестве интерфейса для своей программы запросов. Таким образом, это был первый инструмент обнаружения ресурсов WWW , который объединил три основные функции поисковой системы в Интернете (сканирование, индексирование и поиск), как описано ниже. Из-за ограниченных ресурсов, доступных на платформе, на которой он работал, его индексирование и, следовательно, поиск были ограничены заголовками, найденными на веб-страницах, с которыми сталкивался краулер.
Одной из первых поисковых систем, основанных на "полном тексте", была WebCrawler , которая вышла в 1994 году. В отличие от своих предшественников, она позволяла пользователям искать любое слово на любой веб-странице , что стало стандартом для всех основных поисковых систем с тех пор. Это была также поисковая система, которая была широко известна общественности. Кроме того, в 1994 году была запущена Lycos (которая начиналась в Университете Карнеги-Меллона ), которая стала крупным коммерческим начинанием.
Первой популярной поисковой системой в Интернете был Yahoo! Search . [20] Первым продуктом Yahoo !, основанным Джерри Янгом и Дэвидом Фило в январе 1994 года, был веб-каталог Yahoo! Directory . В 1995 году была добавлена функция поиска, позволяющая пользователям осуществлять поиск в Yahoo! Directory. [ 21] [22] Он стал одним из самых популярных способов для людей находить интересующие их веб-страницы, но его функция поиска работала на его веб-каталоге, а не на его полнотекстовых копиях веб-страниц.
Вскоре после этого появилось несколько поисковых систем, которые боролись за популярность. Среди них были Magellan , Excite , Infoseek , Inktomi , Northern Light и AltaVista . Искатели информации также могли просматривать каталог вместо поиска по ключевым словам.
В 1996 году Робин Ли разработал алгоритм оценки сайта RankDex для ранжирования страниц результатов поисковых систем [23] [24] [25] и получил патент США на эту технологию. [26] Это была первая поисковая система, которая использовала гиперссылки для измерения качества индексируемых ею веб-сайтов, [27] предшествовавшая очень похожему патенту на алгоритм, поданному Google два года спустя, в 1998 году. [28] Ларри Пейдж ссылался на работу Ли в некоторых своих патентах США на PageRank. [29] Позже Ли использовал свою технологию Rankdex для поисковой системы Baidu , которая была основана им в Китае и запущена в 2000 году.
В 1996 году Netscape хотела предоставить единственной поисковой системе эксклюзивную сделку в качестве избранной поисковой системы в веб-браузере Netscape. Интерес был настолько велик, что вместо этого Netscape заключила сделки с пятью основными поисковыми системами: за 5 миллионов долларов в год каждая поисковая система должна была поочередно размещаться на странице поисковой системы Netscape. Пятью поисковыми системами были Yahoo!, Magellan, Lycos, Infoseek и Excite. [30] [31]
Google перенял идею продажи поисковых терминов в 1998 году у небольшой поисковой компании goto.com . Этот шаг оказал значительное влияние на бизнес поисковых систем, который превратился из борющегося в один из самых прибыльных бизнесов в Интернете. [ необходима цитата ]
Поисковые системы также были известны как одни из самых ярких звезд в безумии интернет-инвестиций, которое произошло в конце 1990-х годов. [32] Несколько компаний вышли на рынок эффектно, получив рекордную прибыль во время своих первичных публичных размещений . Некоторые из них сняли свою публичную поисковую систему и продают только корпоративные версии, такие как Northern Light. Многие компании поисковых систем были захвачены пузырем доткомов , спекулятивным рыночным бумом, который достиг пика в марте 2000 года.
Около 2000 года поисковая система Google приобрела известность. [33] Компания достигла лучших результатов для многих поисков с помощью алгоритма под названием PageRank , как было объяснено в статье Anatomy of a Search Engine, написанной Сергеем Брином и Ларри Пейджем , более поздними основателями Google. [7] Этот итеративный алгоритм ранжирует веб-страницы на основе количества и PageRank других веб-сайтов и страниц, ссылающихся на них, исходя из предпосылки, что хорошие или желаемые страницы ссылаются на большее количество, чем другие. Патент Ларри Пейджа на PageRank ссылается на более ранний патент Робина Ли RankDex как на источник влияния. [29] [25] Google также сохранила минималистский интерфейс своей поисковой системы. Напротив, многие из ее конкурентов встраивали поисковую систему в веб-портал . Фактически, поисковая система Google стала настолько популярной, что появились поддельные поисковые системы, такие как Mystery Seeker .
К 2000 году Yahoo! предоставляла поисковые услуги на основе поисковой системы Inktomi. Yahoo! приобрела Inktomi в 2002 году, а Overture (которой принадлежали AlltheWeb и AltaVista) — в 2003 году. Yahoo! перешла на поисковую систему Google до 2004 года, когда она запустила собственную поисковую систему, основанную на объединенных технологиях своих приобретений.
Microsoft впервые запустила MSN Search осенью 1998 года, используя результаты поиска Inktomi. В начале 1999 года сайт начал отображать списки Looksmart , смешанные с результатами Inktomi. В течение короткого времени в 1999 году MSN Search вместо этого использовал результаты AltaVista. В 2004 году Microsoft начала переход на собственную технологию поиска, работающую на собственном веб-краулере (называемом msnbot ).
Переименованная поисковая система Microsoft, Bing , была запущена 1 июня 2009 года. 29 июля 2009 года Yahoo! и Microsoft заключили сделку, в соответствии с которой поиск Yahoo! будет работать на основе технологии Microsoft Bing.
По состоянию на 2019 год [обновлять]активными поисковыми роботами являются Google, Sogou , Baidu, Bing, Gigablast , Mojeek , DuckDuckGo и Yandex .
Поисковая система поддерживает следующие процессы практически в реальном времени: [34]
Поисковые системы получают информацию, просматривая сайты с одного сайта на другой. «Паук» проверяет стандартное имя файла robots.txt , адресованное ему. Файл robots.txt содержит директивы для поисковых пауков, сообщающие им, какие страницы сканировать, а какие нет. После проверки robots.txt и нахождения его или нет, паук отправляет определенную информацию обратно для индексации в зависимости от многих факторов, таких как заголовки, содержимое страницы, JavaScript , каскадные таблицы стилей (CSS), заголовки или ее метаданные в метатегах HTML . После определенного количества просканированных страниц, объема проиндексированных данных или времени, проведенного на сайте, паук прекращает сканирование и движется дальше. «[Н]и один веб-сканер не может фактически сканировать всю доступную сеть. Из-за бесконечного количества веб-сайтов, ловушек-пауков, спама и других особенностей реальной сети, сканеры вместо этого применяют политику сканирования, чтобы определить, когда сканирование сайта следует считать достаточным. Некоторые веб-сайты сканируются полностью, в то время как другие сканируются только частично». [36]
Индексирование означает связывание слов и других определяемых токенов, найденных на веб-страницах, с их доменными именами и полями на основе HTML . Связи создаются в общедоступной базе данных, доступной для поисковых запросов в Интернете. Запрос пользователя может состоять из одного слова, нескольких слов или предложения. Индекс помогает найти информацию, относящуюся к запросу, как можно быстрее. [35] Некоторые из методов индексирования и кэширования являются коммерческими секретами, тогда как веб-сканирование — это простой процесс посещения всех сайтов на систематической основе.
Между посещениями паука кэшированная версия страницы (часть или весь контент, необходимый для ее отображения), сохраненная в рабочей памяти поисковой системы, быстро отправляется запрашивающему. Если посещение просрочено, поисковая система может просто действовать как веб -прокси . В этом случае страница может отличаться от индексированных поисковых терминов. [35] Кэшированная страница сохраняет внешний вид версии, слова которой были ранее проиндексированы, поэтому кэшированная версия страницы может быть полезна для веб-сайта, когда фактическая страница была утеряна, но эта проблема также считается легкой формой linkrot .
Обычно, когда пользователь вводит запрос в поисковую систему , это несколько ключевых слов . [37] Индекс уже содержит названия сайтов, содержащих ключевые слова, и они мгновенно извлекаются из индекса. Реальная нагрузка по обработке заключается в создании веб-страниц, которые являются списком результатов поиска: каждая страница во всем списке должна быть взвешена в соответствии с информацией в индексах. [35] Затем верхний элемент результата поиска требует поиска, реконструкции и разметки фрагментов , показывающих контекст сопоставленных ключевых слов. Это только часть обработки, которую требует каждая веб-страница результатов поиска, и дальнейшие страницы (следующие за верхней) требуют больше этой постобработки.
Помимо простого поиска ключевых слов, поисковые системы предлагают собственные графические интерфейсы или управляемые командами операторы и параметры поиска для уточнения результатов поиска. Они предоставляют необходимые элементы управления для пользователя, вовлеченного в цикл обратной связи, который пользователи создают путем фильтрации и взвешивания при уточнении результатов поиска, учитывая начальные страницы первых результатов поиска. Например, с 2007 года поисковая система Google.com позволяет фильтровать по дате, нажав «Показать инструменты поиска» в крайнем левом столбце начальной страницы результатов поиска, а затем выбрав желаемый диапазон дат. [38] Также возможно взвешивание по дате, поскольку каждая страница имеет время изменения. Большинство поисковых систем поддерживают использование булевых операторов AND, OR и NOT, чтобы помочь конечным пользователям уточнить поисковый запрос . Булевы операторы предназначены для буквального поиска, который позволяет пользователю уточнять и расширять условия поиска. Движок ищет слова или фразы точно так, как они были введены. Некоторые поисковые системы предоставляют расширенную функцию, называемую поиском по близости , которая позволяет пользователям определять расстояние между ключевыми словами. [35] Существует также поиск на основе концепций , при котором исследование включает в себя использование статистического анализа страниц, содержащих искомые вами слова или фразы.
Полезность поисковой системы зависит от релевантности набора результатов, которые она возвращает. Хотя могут быть миллионы веб-страниц, которые включают определенное слово или фразу, некоторые страницы могут быть более релевантными, популярными или авторитетными, чем другие. Большинство поисковых систем используют методы ранжирования результатов , чтобы сначала предоставить «лучшие» результаты. То, как поисковая система решает, какие страницы являются наилучшими соответствиями, и в каком порядке должны быть показаны результаты, сильно различается от одной системы к другой. [35] Методы также меняются со временем по мере изменения использования Интернета и развития новых технологий. Существует два основных типа поисковых систем, которые развивались: один — это система предопределенных и иерархически упорядоченных ключевых слов, которые люди широко программировали. Другой — это система, которая генерирует « инвертированный индекс », анализируя тексты, которые она находит. Эта первая форма в гораздо большей степени полагается на сам компьютер, чтобы выполнить большую часть работы.
Большинство поисковых систем в Интернете являются коммерческими предприятиями, финансируемыми за счет доходов от рекламы , и поэтому некоторые из них позволяют рекламодателям повышать рейтинг своих объявлений в результатах поиска за определенную плату. Поисковые системы, которые не принимают деньги за результаты поиска, зарабатывают деньги, размещая рекламу, связанную с поиском, рядом с обычными результатами поисковой системы. Поисковые системы зарабатывают деньги каждый раз, когда кто-то нажимает на одну из этих объявлений. [39]
Локальный поиск — это процесс, который оптимизирует усилия местных предприятий. Они фокусируются на изменениях, чтобы убедиться, что все поиски являются последовательными. Это важно, потому что многие люди определяют, куда они планируют пойти и что купить, основываясь на своих поисках. [40]
По состоянию на январь 2022 года Google является самой используемой поисковой системой в мире с долей рынка 90,6%, а другими наиболее используемыми поисковыми системами в мире являются Bing , Yahoo!, Baidu , Yandex и DuckDuckGo . [ 2] В 2024 году доминирование Google было признано незаконной монополией в деле, возбужденном Министерством юстиции США. [41][обновлять]
В России доля рынка Яндекса составляет 62,6%, по сравнению с 28,3% у Google. А Яндекс является второй по популярности поисковой системой на смартфонах в Азии и Европе. [42] В Китае самой популярной поисковой системой является Baidu. [43] Южнокорейский поисковый портал Naver используется для 62,8% онлайн-поиска в стране. [44] Yahoo! Japan и Yahoo! Taiwan являются самыми популярными путями для интернет-поиска в Японии и Тайване соответственно. [45] Китай — одна из немногих стран, где Google не входит в тройку лучших поисковых систем по доле рынка. Ранее Google был ведущей поисковой системой в Китае, но ушел из нее после разногласий с правительством по поводу цензуры и кибератаки. Но Bing входит в тройку лучших поисковых систем с долей рынка 14,95%. Baidu находится на первом месте с 49,1% доли рынка. [46] [ необходима цитата ]
На большинстве рынков стран Европейского Союза доминирует Google, за исключением Чехии , где Seznam является сильным конкурентом. [47]
Поисковая система Qwant базируется в Париже , Франция , откуда она привлекает большую часть из 50 миллионов ежемесячно регистрируемых пользователей.
Хотя поисковые системы запрограммированы на ранжирование веб-сайтов на основе некоторой комбинации их популярности и релевантности, эмпирические исследования указывают на различные политические, экономические и социальные предубеждения в информации, которую они предоставляют [48] [49] , и на базовые предположения о технологии. [50] Эти предубеждения могут быть прямым результатом экономических и коммерческих процессов (например, компании, которые размещают рекламу в поисковой системе, могут стать также более популярными в ее органических результатах поиска), а также политических процессов (например, удаление результатов поиска в целях соблюдения местных законов). [51] Например, Google не будет показывать определенные неонацистские веб-сайты во Франции и Германии, где отрицание Холокоста является незаконным.
Предубеждения также могут быть результатом социальных процессов, поскольку алгоритмы поисковых систем часто разрабатываются таким образом, чтобы исключать ненормативные точки зрения в пользу более «популярных» результатов. [52] Алгоритмы индексации основных поисковых систем склоняются в сторону охвата сайтов, базирующихся в США, а не веб-сайтов из стран, не входящих в США. [49]
Google Bombing — один из примеров попытки манипулировать результатами поиска в политических, социальных или коммерческих целях.
Несколько ученых изучали культурные изменения, вызванные поисковыми системами, [53] и представление определенных спорных тем в их результатах, таких как терроризм в Ирландии , [54] отрицание изменения климата , [55] и теории заговора . [56]
Высказывались опасения, что поисковые системы, такие как Google и Bing, предоставляют персонализированные результаты на основе истории активности пользователя, что приводит к тому, что Эли Паризер в 2011 году назвал эхо-камерами или пузырями фильтров. [57] Аргумент заключается в том, что поисковые системы и платформы социальных сетей используют алгоритмы для выборочного угадывания того, какую информацию пользователь хотел бы видеть, на основе информации о пользователе (такой как местоположение, прошлое поведение кликов и история поиска). В результате веб-сайты, как правило, показывают только информацию, которая согласуется с прошлой точкой зрения пользователя. По словам Эли Паризера, пользователи получают меньше воздействия противоречивых точек зрения и интеллектуально изолированы в своем собственном информационном пузыре. С тех пор, как эта проблема была выявлена, появились конкурирующие поисковые системы, которые стремятся избежать ее, не отслеживая или не «всплывая» в пользователях, такие как DuckDuckGo . Однако многие ученые подвергли сомнению точку зрения Паризера, обнаружив, что существует мало доказательств существования пузыря фильтров. [58] [59] [60] Напротив, ряд исследований, пытающихся проверить существование пузырей фильтров, обнаружили лишь незначительные уровни персонализации в поиске, [60] что большинство людей сталкиваются с диапазоном мнений при просмотре в Интернете, и что новости Google имеют тенденцию продвигать основные устоявшиеся новостные агентства. [61] [59]
Глобальный рост Интернета и электронных СМИ в арабском и мусульманском мире в течение последнего десятилетия побудил исламских приверженцев на Ближнем Востоке и азиатском субконтиненте попытаться создать свои собственные поисковые системы, свои собственные фильтрованные поисковые порталы, которые позволили бы пользователям выполнять безопасный поиск . Более чем обычные фильтры безопасного поиска , эти исламские веб-порталы классифицируют веб-сайты на « халяльные » или « харамные », основываясь на толковании законов шариата . ImHalal появился в сети в сентябре 2011 года. Halalgoogling появился в сети в июле 2013 года. Они используют фильтры харам в коллекциях Google и Bing (и других). [62]
В то время как отсутствие инвестиций и медленный темп развития технологий в мусульманском мире препятствовали прогрессу и мешали успеху исламской поисковой системы, нацеленной в качестве основных потребителей на приверженцев ислама, такие проекты, как Muxlim (сайт о мусульманском образе жизни) получили миллионы долларов от инвесторов, таких как Rite Internet Ventures, и также потерпели неудачу. Другие ориентированные на религию поисковые системы — Jewogle, еврейская версия Google, [63] и христианская поисковая система SeekFind.org. SeekFind фильтрует сайты, которые нападают или унижают их веру. [64]
Отправка в поисковую систему — это процесс, в котором веб-мастер отправляет веб-сайт напрямую в поисковую систему. Хотя отправка в поисковую систему иногда представляется как способ продвижения веб-сайта, обычно это не является необходимым, поскольку основные поисковые системы используют веб-краулеры, которые в конечном итоге найдут большинство веб-сайтов в Интернете без посторонней помощи. Они могут либо отправлять одну веб-страницу за раз, либо отправлять весь сайт с помощью карты сайта , но обычно необходимо отправлять только домашнюю страницу веб-сайта, поскольку поисковые системы способны сканировать хорошо разработанный веб-сайт. Остаются две причины отправлять веб-сайт или веб-страницу в поисковую систему: добавить совершенно новый веб-сайт, не дожидаясь, пока поисковая система его обнаружит, и обновить запись веб-сайта после существенного редизайна.
Некоторые программы для отправки в поисковые системы не только отправляют веб-сайты в несколько поисковых систем, но и добавляют ссылки на веб-сайты с их собственных страниц. Это может показаться полезным для повышения рейтинга веб-сайта , поскольку внешние ссылки являются одним из важнейших факторов, определяющих рейтинг веб-сайта. Однако Джон Мюллер из Google заявил, что это «может привести к огромному количеству неестественных ссылок для вашего сайта» с негативным влиянием на рейтинг сайта. [65]
По сравнению с поисковыми системами, система социальных закладок имеет несколько преимуществ перед традиционным автоматизированным программным обеспечением для определения местоположения и классификации ресурсов, таким как поисковые пауки . Вся основанная на тегах классификация интернет-ресурсов (например, веб-сайтов) выполняется людьми, которые понимают содержание ресурса, в отличие от программного обеспечения, которое алгоритмически пытается определить значение и качество ресурса. Кроме того, люди могут находить и добавлять в закладки веб-страницы , которые еще не были замечены или проиндексированы веб-пауками. [66] Кроме того, система социальных закладок может ранжировать ресурс на основе того, сколько раз он был добавлен в закладки пользователями, что может быть более полезной метрикой для конечных пользователей , чем системы, которые ранжируют ресурсы на основе количества внешних ссылок, указывающих на него. Однако оба типа ранжирования уязвимы для мошенничества (см. Обман системы ), и оба нуждаются в технических контрмерах, чтобы попытаться справиться с этим.
Первой поисковой системой в Интернете была Archie , созданная в 1990 году [67] Аланом Эмтаджем , студентом Университета Макгилла в Монреале. Первоначально автор хотел назвать программу «archives», но ему пришлось сократить ее, чтобы соответствовать мировому стандарту Unix, согласно которому программам и файлам присваиваются короткие, загадочные имена, такие как grep, cat, troff, sed, awk, perl и т. д.
Основным методом хранения и извлечения файлов был протокол передачи файлов (FTP). Это была (и до сих пор остается) система, которая определяла общий способ обмена файлами между компьютерами через Интернет. Работает она следующим образом: некий администратор решает, что он хочет сделать файлы доступными со своего компьютера. Он устанавливает на своем компьютере программу, называемую FTP-сервером. Когда кто-то в Интернете хочет извлечь файл с этого компьютера, он или она подключается к нему через другую программу, называемую FTP-клиентом. Любая программа FTP-клиента может подключаться к любой программе FTP-сервера, если и клиентская, и серверная программы полностью соответствуют спецификациям, изложенным в протоколе FTP.
Первоначально любой, кто хотел поделиться файлом, должен был настроить FTP-сервер, чтобы сделать файл доступным для других. Позже «анонимные» FTP-сайты стали хранилищами файлов, позволяя всем пользователям размещать и извлекать их.
Даже с архивными сайтами многие важные файлы все еще были разбросаны по небольшим FTP-серверам. Эти файлы можно было найти только с помощью интернет-эквивалента «сарафанного радио»: кто-то отправлял электронное письмо в список рассылки или на форум для обсуждений, объявляя о доступности файла.
Archie изменил все это. Он объединил сборщик данных на основе скрипта, который извлекал списки сайтов анонимных FTP-файлов, с регулярным выражением для поиска имен файлов, соответствующих запросу пользователя. (4) Другими словами, сборщик Archie прочесывал FTP-сайты по всему Интернету и индексировал все найденные файлы. Его регулярный выражение предоставлял пользователям доступ к его базе данных. [68]
В 1993 году группа System Computing Services Университета Невады разработала Veronica . [67] Он был создан как тип поискового устройства, похожего на Archie, но для файлов Gopher. Другая поисковая служба Gopher, названная Jughead, появилась немного позже, вероятно, с единственной целью — завершить триумвират комиксов. Jughead — это аббревиатура от Jonzy's Universal Gopher Hierarchy Excavation and Display, хотя, как и в случае с Veronica, можно с уверенностью предположить, что создатель вернулся к аббревиатуре. Функциональность Jughead была практически идентична функциональности Veronica, хотя она, похоже, была немного грубее по краям. [68]
World Wide Web Wanderer , разработанный Мэтью Греем в 1993 году [69], был первым роботом в Интернете и был разработан для отслеживания роста Интернета. Первоначально Wanderer считал только веб-серверы, но вскоре после своего появления он начал захватывать URL-адреса по мере продвижения. База данных захваченных URL-адресов стала Wandex, первой веб-базой данных.
Wanderer Мэтью Грея вызвал в свое время немало споров, отчасти потому, что ранние версии программного обеспечения бесконтрольно распространялись по Сети и вызывали заметное снижение производительности в масштабах всей сети. Это снижение произошло из-за того, что Wanderer обращался к одной и той же странице сотни раз в день. Wanderer вскоре изменил свои методы, но споры о том, хороши или плохи роботы для Интернета, остались.
В ответ на «Странника» в октябре 1993 года Мартейн Костер создал Archie-подобную индексацию Интернета, или ALIWEB. Как следует из названия, ALIWEB был HTTP-эквивалентом Archie, и благодаря этому он до сих пор во многих отношениях уникален.
ALIWEB не имеет поискового робота. Вместо этого веб-мастера участвующих сайтов публикуют собственную индексную информацию для каждой страницы, которую они хотят включить в список. Преимущество этого метода в том, что пользователи могут описать свой собственный сайт, и робот не бегает, пожирая пропускную способность сети. Недостатки ALIWEB сегодня представляют собой большую проблему. Основной недостаток заключается в том, что необходимо отправить специальный файл индексации. Большинство пользователей не понимают, как создать такой файл, и поэтому не отправляют свои страницы. Это приводит к относительно небольшой базе данных, что означает, что пользователи с меньшей вероятностью будут искать в ALIWEB, чем на одном из крупных сайтов, основанных на ботах. Эта уловка-22 была несколько компенсирована включением других баз данных в поиск ALIWEB, но он все еще не имеет массовой привлекательности поисковых систем, таких как Yahoo! или Lycos. [68]
Excite , изначально называвшийся Architext, был основан шестью студентами Стэнфорда в феврале 1993 года. Их идея заключалась в использовании статистического анализа связей между словами для обеспечения более эффективного поиска в большом объеме информации в Интернете. Их проект был полностью профинансирован к середине 1993 года. Как только финансирование было получено, они выпустили версию своего поискового программного обеспечения для веб-мастеров, чтобы они могли использовать его на своих собственных веб-сайтах. В то время программное обеспечение называлось Architext, но теперь оно носит название Excite for Web Servers. [68]
Excite был первой серьезной коммерческой поисковой системой, запущенной в 1995 году. [70] Он был разработан в Стэнфорде и был куплен @Home за $6,5 млрд. В 2001 году Excite и @Home обанкротились, а InfoSpace купила Excite за $10 млн.
Некоторые из первых анализов веб-поиска были проведены на основе журналов поиска Excite [71] [72]
В апреле 1994 года два кандидата наук Стэнфордского университета, Дэвид Фило и Джерри Янг , создали несколько страниц, которые стали довольно популярными. Они назвали коллекцию страниц Yahoo! Их официальное объяснение выбора названия состояло в том, что они считали себя парой yahoo.
По мере того, как число ссылок росло, а их страницы начали получать тысячи посещений в день, команда создала способы лучшей организации данных. Чтобы облегчить поиск данных, Yahoo! (www.yahoo.com) стал поисковым каталогом. Функция поиска представляла собой простую поисковую систему по базе данных. Поскольку записи Yahoo! вводились и классифицировались вручную, Yahoo! на самом деле не был классифицирован как поисковая система. Вместо этого он, как правило, считался поисковым каталогом. С тех пор Yahoo! автоматизировал некоторые аспекты процесса сбора и классификации, стирая различие между поисковой системой и каталогом.
Wanderer захватывал только URL, что затрудняло поиск вещей, которые не были явно описаны их URL. Поскольку URL изначально довольно загадочны, это не помогало среднестатистическому пользователю. Поиск в Yahoo! или Galaxy был гораздо эффективнее, поскольку они содержали дополнительную описательную информацию об индексированных сайтах.
В июле 1994 года в Университете Карнеги — Меллона Майкл Молдин, находившийся в отпуске по CMU, разработал поисковую систему Lycos .
Поисковые системы в Интернете — это сайты, обогащенные возможностями поиска контента, хранящегося на других сайтах. Существуют различия в работе различных поисковых систем, но все они выполняют три основные задачи. [73]
Процесс начинается, когда пользователь вводит запрос в систему через предоставленный интерфейс.
Существует три основных типа поисковых систем: те, которые работают на основе роботов (их называют краулерами ; муравьями или пауками), те, которые работают на основе человеческих данных, и те, которые представляют собой гибрид этих двух типов.
Поисковые системы на основе краулеров — это те, которые используют автоматизированные программные агенты (называемые краулерами), которые посещают веб-сайт, считывают информацию на самом сайте, считывают метатеги сайта, а также следуют ссылкам, к которым подключается сайт, выполняя индексацию на всех связанных веб-сайтах. Краулер возвращает всю эту информацию обратно в центральное хранилище, где данные индексируются. Краулер будет периодически возвращаться на сайты, чтобы проверить любую измененную информацию. Частота, с которой это происходит, определяется администраторами поисковой системы.
Поисковые системы, работающие на людях, полагаются на людей, которые предоставляют информацию, которая впоследствии индексируется и каталогизируется. Только предоставленная информация помещается в индекс.
В обоих случаях, когда вы запрашиваете поисковую систему для поиска информации, вы на самом деле ищете по индексу, который создала поисковая система — вы на самом деле не ищете в Интернете. Эти индексы представляют собой гигантские базы данных информации, которая собирается, хранится и впоследствии просматривается. Это объясняет, почему иногда поиск в коммерческой поисковой системе, такой как Yahoo! или Google, возвращает результаты, которые на самом деле являются мертвыми ссылками. Поскольку результаты поиска основаны на индексе, если индекс не обновлялся с момента, когда веб-страница стала недействительной, поисковая система рассматривает страницу как все еще активную ссылку, даже если она больше не является таковой. Она останется таковой до тех пор, пока индекс не будет обновлен.
Так почему же один и тот же поиск в разных поисковых системах даст разные результаты? Часть ответа на этот вопрос заключается в том, что не все индексы будут абсолютно одинаковыми. Это зависит от того, что найдут пауки или что отправили люди. Но что еще важнее, не каждая поисковая система использует один и тот же алгоритм для поиска по индексам. Алгоритм — это то, что поисковые системы используют для определения релевантности информации в индексе тому, что ищет пользователь.
Одним из элементов, которые сканирует алгоритм поисковой системы, является частота и расположение ключевых слов на веб-странице. Те, у которых частота выше, обычно считаются более релевантными. Но технология поисковой системы становится все более изощренной в своих попытках препятствовать тому, что известно как наполнение ключевыми словами или спамдексинг.
Другим общим элементом, который анализируют алгоритмы, является то, как страницы ссылаются на другие страницы в Интернете. Анализируя, как страницы ссылаются друг на друга, поисковая система может определить, о чем страница (похожи ли ключевые слова на связанных страницах на ключевые слова на исходной странице), а также считается ли эта страница «важной» и заслуживает ли она повышения рейтинга. Так же, как технология становится все более сложной для игнорирования переполнения ключевыми словами, она также становится более подкованной для веб-мастеров, которые встраивают искусственные ссылки в свои сайты, чтобы создать искусственный рейтинг.
Современные поисковые системы в Интернете представляют собой очень сложные программные системы, использующие технологию, которая развивалась на протяжении многих лет. Существует ряд подкатегорий программного обеспечения поисковых систем, которые по отдельности применимы к определенным потребностям «просмотра». К ним относятся поисковые системы в Интернете (например, Google ), поисковые системы по базам данных или структурированным данным (например, Dieselpoint ), а также смешанные поисковые системы или корпоративный поиск. Наиболее распространенные поисковые системы, такие как Google и Yahoo !, используют сотни тысяч компьютеров для обработки триллионов веб-страниц, чтобы возвращать довольно точные результаты. Из-за этого большого объема запросов и обработки текста программное обеспечение должно работать в сильно рассредоточенной среде с высокой степенью избыточности.
Другая категория поисковых систем — это научные поисковые системы. Это поисковые системы, которые ищут научную литературу. Самый известный пример — Google Scholar. Исследователи работают над улучшением технологии поисковых систем, заставляя их понимать элемент содержания статей, например, извлекать теоретические конструкции или ключевые результаты исследований. [74]
{{cite web}}
: Отсутствует или пусто |title=
( помощь )