stringtranslate.com

Википедия:Тест поисковой системы

Поисковая система перечисляет веб-страницы в Интернете . Это облегчает исследование, предлагая немедленное множество применимых вариантов. Возможно, полезные элементы в списке результатов включают исходный материал или электронные инструменты, которые может предоставить веб-сайт, такие как словарь, но сам список, в целом, может также указывать на важную информацию. Однако, распознавание этой информации может потребовать проницательности.

Результаты поисковой системы могут помочь редакторам сохранить (то, что примечательно ) или удалить (то, что не поддается проверке ) исходный материал, в зависимости от его надежности. В Википедии существует высокий спрос на надежность . Различение надежности исходного материала является особенно важным навыком для использования сети, в то время как сама вики лишь облегчает создание нескольких черновиков. По мере продвижения презентаций и удалений это разнообразие вариантов ввода, как правило, приводит к желаемой цели — нейтральной точке зрения . В зависимости от типа запроса и вида поисковой системы это разнообразие может открыться для одного автора.

Некоторые тесты поисковых систем

  1. Популярность — см. инструмент Google для отслеживания тенденций ниже.
  2. Использование – Определите значимость термина. (См., например, инструмент Google ngram.)
  3. Подлинность – Определите поддельную мистификацию или городскую легенду .
  4. Известность — решите, следует ли номинировать страницу на удаление.
  5. Существование – узнайте, какие источники (включая веб-сайты) на самом деле существуют для возможной презентации.
  6. Информация – Проверьте достоверность фактов и цитат.
  7. Имена и терминология . Определите названия, используемые для вещей (включая альтернативные названия и терминологию).
  8. Авторские права — определите, копируется ли материал , и если да, проверьте наличие лицензии.

На этой странице описываются как тесты веб-поиска, так и инструменты веб-поиска, которые могут помочь в развитии Википедии, а также их предубеждения и ограничения.

Преимущества конкретной поисковой системы можно различить, используя множество общих поисковых систем. Отличительными преимуществами каждой из них являются их пользовательский интерфейс и, что менее очевидно, их алгоритмы для составления и поиска собственных индексов. Поскольку веб-сканер может быть заблокирован — как определенный, так и в целом — разные поисковые системы могут перечислять разные веб-сайты, и существует больше веб-сайтов, доступных по URL, чем индексируется в любой базе данных.

Наиболее распространенными поисковыми системами являются Google, Bing и Yahoo. Существуют специализированные поисковые системы для медицины , науки , новостей и права среди прочих. Существует несколько обобщенных поисковых систем. Они адаптируют ваш запрос ко многим поисковым системам. См. § Общие поисковые системы ниже. Эта страница в основном использует Google вместо Bing или Yahoo , но стремится к обобщению там, где это возможно. Например, она описывает Google Groups (группы Usenet), Google Scholar (академия), Google News и Google Books.

Добросовестный поиск: практическое правило

  • ВП:GFG
  • WP:GOOGLECHECK

Если добавление к статье без указания источника кажется вам правдоподобным, подумайте о том, чтобы воспользоваться подходящей поисковой системой и найти надежный источник, прежде чем принимать решение о возврате к предыдущей версии.

Тесты поисковых систем

В зависимости от предмета и того, насколько тщательно он используется, тест поисковой системы может быть очень эффективным и полезным или давать вводящие в заблуждение или бесполезные результаты. В большинстве случаев тест поисковой системы является эвристикой первого прохода или « правилом большого пальца ».

Что может сделать поисковый тест, а что нет

Поисковая система может индексировать страницы и тексты, размещенные другими людьми в Интернете, подобно большому индексу в конце книги.

Поисковые системы могут:

Поисковые системы не могут:

и поисковые системы часто не будут:

Тест поисковой системы не может помочь вам избежать работы по интерпретации ваших результатов и принятию решения о том, что они на самом деле показывают. Появление в индексе само по себе обычно не является доказательством чего-либо.

Тесты поисковых систем и политика Википедии

Проверяемость

Тесты поисковых систем могут возвращать результаты, которые являются фиктивными, предвзятыми, мистификацией или подобными. Важно учитывать, получена ли используемая информация из надежных источников, прежде чем использовать или цитировать ее. Менее надежные источники могут быть бесполезными или нуждаться в разъяснении своего статуса и основы, чтобы другие читатели получили нейтральное и информированное понимание, чтобы судить о надежности источников.

Нейтральность

Google (и другие поисковые системы) не стремятся к нейтральной точке зрения . Википедия стремится. Google индексирует самостоятельно созданные страницы и страницы медиа, которые не имеют политики нейтралитета. Википедия имеет политику нейтралитета, которая является обязательной и применяется ко всем статьям и всей редакционной деятельности, связанной со статьями.

Таким образом, Google не является источником нейтральных названий, а только популярных. Нейтральность обязательна в Википедии (включая решение о том, как называть вещи), даже если не в других местах, и, в частности, нейтралитет важнее популярности.

(См. WP:NPOV § Нейтральность и проверяемость для получения информации о балансе политик проверяемости и нейтральности, а также WP:NPOV § Наименование статей для получения информации о том, как следует называть статьи)

Известность

Количество "попаданий" (результатов поиска) является очень грубой мерой важности. Некоторые неважные темы имеют много "попаданий", некоторые важные темы имеют мало или вообще не имеют их, по причинам, обсуждаемым далее на этой странице.

Цифры количества попаданий сами по себе редко могут "доказать" что-либо о значимости , без дальнейшего обсуждения типа попаданий, того, что искалось, как это искалось и какую интерпретацию давать результатам. С другой стороны, изучение типов возникающих попаданий [ необходимо разъяснение ] (или их отсутствия) часто дает полезную информацию, связанную с значимостью.

Кроме того, поисковые системы не устраняют неоднозначность и склонны сопоставлять частичные поиски. (Однако, как описано ниже, вы можете исключить частичные совпадения, процитировав фразу для сопоставления): Хотя «Мадонна в скалах» определенно является энциклопедической и известной записью, она не является иконой поп-культуры. Однако из-за сопоставления Мадонны как частичного совпадения, а также других ссылок на Мадонну, не связанных с картиной, результаты поиска Google или Bing будут несоразмерны по сравнению с любой столь же известной картиной эпохи Возрождения. Чтобы исключить частичные совпадения при поиске фразы в Google, процитируйте фразу для сопоставления следующим образом: «Мадонна в скалах».

Использование поисковых систем

Выражения поисковой системы (примеры и руководство)

В этом разделе объясняются некоторые поисковые выражения, используемые в веб-поиске Google . [2] Аналогичные подходы будут работать во многих других поисковых системах и других поисковых системах Google, но всегда читайте их страницы справки для получения дополнительной информации, поскольку возможности и работа поисковых систем часто различаются. Обратите внимание, что если вы вошли в учетную запись Google при поиске в Google, то это может повлиять на результаты, которые вы получаете, на основе вашей истории поиска. [3] Также не забудьте проверить «Языки для отображения (поисковых) результатов» в «Настройках поиска». [4] )

Единственным наиболее полезным инструментом поисковой системы может быть использование кавычек для поиска точного соответствия фразе. Однако поисковая система, такая как Google, имеет как простой, так и расширенный поиск с дополнительными параметрами поиска. Расширенный поиск упрощает ввод дополнительных параметров, которые могут помочь в поиске. Следующие сворачиваемые разделы охватывают основные примеры и помощь по использованию поисковых систем с Википедией.

Специализированные поисковые системы, такие как архивы медицинских документов, имеют собственную специализированную структуру поиска, которая здесь не рассматривается.

Конкретные варианты использования поисковых систем в Википедии

Интерпретация результатов

Общий

  • WP:ХИТЫ

Никогда не следует полагаться на сырое количество попаданий для доказательства значимости. Вместо этого следует обратить внимание на то, что (книги, новостные статьи, научные статьи и веб-страницы) найдено, и на то, действительно ли они демонстрируют значимость или незначимость в каждом конкретном случае. Количество попаданий всегда было и, скорее всего, всегда останется крайне ошибочным инструментом для измерения значимости и не должно считаться ни окончательным, ни окончательным. Управляемую выборку найденных результатов следует открывать по отдельности и читать, чтобы фактически проверить их релевантность.

В случае Google (и других поисковых систем, таких как Bing и Yahoo!) количество посещений в верхней части страницы ненадежно и обычно не должно сообщаться. Количество посещений, указанное на предпоследней (предпоследней) странице результатов, может быть немного точнее. Для поисков с небольшим количеством зарегистрированных посещений (менее 1000) фактическое количество посещений, необходимое для достижения нижней части последней страницы результатов, может быть точнее, но даже это не является точным. Google возвращает разные результаты поиска в зависимости от таких факторов, как ваша предыдущая история поиска и на каком сервере Google вы оказались. [8] [9]

Другие полезные соображения при интерпретации результатов:

Предубеждения, о которых следует знать

В большинстве случаев результаты поиска следует рассматривать с осознанностью и осторожным скептицизмом, прежде чем полагаться на них. Распространенные предубеждения включают:

Общие предубеждения

Общие сведения (Интернет или люди в целом):

Общие поисковые системы (Google, Bing и т. д.):

Другой:

Иностранные языки, нелатинская письменность и старые названия

Часто для элементов неанглийского происхождения или в нелатинских шрифтах значительно большее количество результатов поиска получается при поиске в правильном шрифте или для различных транскрипций — обязательно проверьте « Языки для отображения (поисковых) результатов » в « Настройках поиска ». [4] Например, арабское имя нужно искать в оригинальном шрифте, что легко сделать с помощью Google (при условии, что вы знаете, что искать), но могут возникнуть проблемы, если, например, английские, французские и немецкие веб-страницы транскрибируют имя, используя разные соглашения. Даже для веб-страниц только на английском языке может быть много вариантов одного и того же арабского или русского имени . Личные имена на других языках (русский, англосаксонский ), возможно, придется искать как включая, так и исключая отчество , а поиск имен и других слов на сильно флективных языках должен учитывать, что для получения общего количества результатов может потребоваться поиск форм с различными окончаниями падежей или другими грамматическими вариациями, не очевидными для того, кто не знает языка. Имена во многих культурах традиционно даются вместе с титулами, которые считаются частью имени, но могут и опускаться (как Гази Мустафа Кемаль Паша ).

Даже в древнеанглийском языке написание и представление старых имен может допускать десятки вариаций для одного и того же человека. Упрощенный поиск одного конкретного варианта может на порядок недооценивать присутствие в сети.

Подобный поиск требует определенной лингвистической компетентности, которой обладает не каждый отдельный Википедист, но сообщество Википедии в целом включает в себя множество двуязычных и многоязычных людей, и для номинантов и избирателей АдГ важно, по крайней мере, осознавать свои собственные ограничения и не делать необоснованных предположений, когда предвзятость языка или транскрипции может оказаться решающим фактором.

Проблемы с подсчетом отдельных страниц Google

Обратите внимание также, что количество совпадений в строке поиска, сообщаемое поисковыми системами, является лишь оценкой. Например, Google будет подсчитывать фактическое количество совпадений только после того, как пользователь просматривает все страницы результатов, до последней, и даже тогда он накладывает ограничения на это число. Иногда оценка количества «совпадений» может значительно отличаться (на один или несколько порядков ) от общего количества результатов, показанных на последней странице результатов.

Поиск по определенному сайту может помочь определить, поступает ли большинство совпадений с одного и того же веб-сайта; на один веб-сайт могут приходиться сотни тысяч посещений.

Для поисковых терминов, которые возвращают много результатов, Google использует процесс, который исключает результаты, которые «очень похожи» на другие перечисленные результаты, как игнорируя страницы с существенно похожим содержанием, так и ограничивая количество страниц, которые могут быть возвращены из любого заданного домена. Например, поиск по «Taco Bell» даст только пару страниц из tacobell.com, хотя многие в этом домене, безусловно, совпадут. Кроме того, список отдельных результатов Google создается путем выбора первых 1000 результатов, а затем исключения дубликатов без замен. Следовательно, список отдельных результатов всегда будет содержать менее 1000 результатов, независимо от того, сколько веб-страниц фактически соответствовали поисковым терминам. Например, по состоянию на 14 декабря 2010 года из примерно 742 миллионов страниц, связанных с «Microsoft», Google возвращал 572 «отличных» результата. [10] . Необходимо проявлять осторожность при оценке относительной важности веб-сайтов, дающих более 1000 результатов поиска.

Ограничения поисковой системы – технические примечания

  • WP:GOOGLELIMITS

Многие, возможно, большинство, общедоступных веб-страниц не индексируются. Каждая поисковая система захватывает разный процент от общего числа. Никто не может точно сказать, какая часть захватывается.

Предполагаемый размер Всемирной паутины составляет не менее 11,5 миллиардов страниц, [11] но гораздо более глубокая (и большая) паутина , оцениваемая в более чем 3 триллиона страниц, существует в базах данных, содержимое которых поисковые системы не индексируют. Эти динамические веб-страницы форматируются веб-сервером, когда пользователь запрашивает их, и, как таковые, не могут быть индексированы обычными поисковыми системами. Веб-сайт Патентного и товарного бюро США является примером; хотя поисковая система может найти его главную страницу, можно только искать в его базе данных отдельных патентов, вводя запросы на самом сайте. [12]

Google, как и все поисковые системы Интернета, может найти только ту информацию, которая действительно была размещена в Интернете. Существует еще значительное количество информации, которой нет в Интернете.

Google, как и все основные поисковые службы, следует протоколу robots.txt и может быть заблокирован сайтами, которые не хотят, чтобы их контент индексировался или кэшировался Google. Сайты, содержащие большое количество контента, защищенного авторским правом (галереи изображений, подписные газеты, веб-комиксы, фильмы, видео, справочные службы), обычно предполагающие членство, будут блокировать Google и другие поисковые системы. Другие сайты также могут блокировать Google из-за проблем с нагрузкой или пропускной способностью на сервере, на котором размещен контент.

Поисковые системы также могут не иметь возможности читать ссылки или метаданные, которые обычно требуют плагина браузера, Adobe PDF или Macromedia Flash, или когда веб-сайт отображается как часть изображения. Поисковые системы также не могут слушать подкасты или другие аудиопотоки, или даже видео, упоминающие поисковый запрос. Аналогично поисковые системы не могут читать файлы PDF, состоящие из фотосканов, или заглядывать внутрь сжатых файлов (.zip).

Форумы, сайты только для членства и только для подписки (поскольку Googlebot не регистрируется для доступа к сайту) и сайты, которые циклически меняют свой контент, не кэшируются и не индексируются ни одной поисковой системой. С переходом большего количества сайтов на дизайн AJAX/Web 2.0 это ограничение станет более распространенным, поскольку поисковые системы будут только имитировать переход по ссылкам на веб-странице. Настройки страниц AJAX (например, Google Maps) динамически возвращают данные на основе манипуляций JavaScript в реальном времени.

Google также стал жертвой атак с перенаправлением, которые могут привести к тому, что он выдаст больше результатов по определенному поисковому запросу, чем есть на самом деле страниц с контентом.

Google и другие популярные поисковые системы также являются целью для поисковых "улучшений результатов поиска", также известных как оптимизаторы поисковых систем, поэтому может быть также возвращено много результатов, которые ведут на страницу, которая служит только в качестве рекламы. Иногда страницы содержат сотни ключевых слов, специально разработанных для привлечения пользователей поисковых систем на эту страницу, но на самом деле представляют собой рекламу вместо страницы с контентом, связанным с ключевым словом.

Количество совпадений, сообщаемое Google, является лишь оценкой, которая в некоторых случаях, как было показано, неизбежно отклоняется почти на порядок, особенно для количества совпадений, превышающего несколько тысяч. [13] [14] Для таких распространенных слов, которые дают несколько тысяч совпадений Google, свободно доступные текстовые корпуса, такие как Британский национальный корпус (для британского английского языка) и Корпус современного американского английского языка (для американского английского языка), могут предоставить более точную оценку относительной частоты двух слов.

Пример ограничений

Сайт Economic Crime Summit довольно недружелюбен к Google и Internet Archive. Он очень перегружен графикой, не предоставляя Google практически ничего для поиска и много отсутствующих страниц в версии Internet Archive. Так что, хотя вы можете вызвать Economic Crime Summit Conference 2002, ссылка обзора, которая бы сказала, кто что представил, не работает. Архив Economic Crime Summit Conference 2004 еще хуже, так как он был в трех местах, и ни одна из архивных ссылок ничего не говорит вам о представленных работах.

Через Интернет-архив вы получили доказательство того, что некоторая информация относительно «Влияния достижений компьютерных технологий на обработку доказательств» существовала в Интернете. [15] Однако сегодня Google не может найти эту информацию! Программа, известная как часть Конференции по экономическим преступлениям 2002 года и в свое время указанная на веб-сайте в Интернете, в настоящее время [ когда? ] не может быть найдена Google.

Распространенные поисковые системы

  • H:CSE

Наиболее распространенными поисковыми системами являются Google, Bing, Yahoo и DuckDuckGo, но наиболее полезные поисковые системы, выбор которых зависит от контекста, могут оказаться не самыми распространенными.

Специализированные поисковые системы

Google Scholar хорошо работает в областях, ориентированных на печатные издания и представленных в сети на всех (или почти на всех) уважаемых площадках. Эта поисковая система является хорошим дополнением к коммерчески доступной Thompson ISI Web of Knowledge, особенно в областях, которые не очень хорошо освещены в последней, включая книги, конференционные доклады, неамериканские журналы, общие журналы в области стратегии, менеджмента, международного бизнеса, [16] обучения английскому языку и образовательных технологий. [17] Анализ алгоритма PageRank , используемого Google Scholar, показал, что эта поисковая система, а также ее коммерческие аналоги, предоставляют адекватную информацию о популярности некоторого конкретного источника, [18] хотя это не отражает автоматически реальный научный вклад конкретной публикации. [18]

MedLine , теперь часть PubMed , является оригинальной широкомасштабной поисковой системой, возникшей более четырех десятилетий назад и индексирующей даже более ранние статьи. Таким образом, особенно в биологии и медицине, PubMed "ассоциированные статьи" является прокси Google Scholar для старых статей, не представленных в сети. Например, журнал Stroke размещает статьи в сети вплоть до 1970-х годов. Для этой статьи 1978 года [1] Google Scholar перечисляет 100 цитирующих статей, в то время как PubMed перечисляет 89 ассоциированных статей

В Интернете доступно большое количество юридических библиотек во многих странах, в том числе: Библиотека Конгресса, Библиотека Конгресса (THOMAS), Верховный суд Индианы, FindLaw (США); Юридическая библиотека и источники Кентского университета (Великобритания).

См. также этот список поисковых систем .

Обобщенные поисковые системы

Существует несколько обобщенных поисковых систем. Они адаптируют ваш запрос ко многим поисковым системам. Веб-браузеры предлагают выбор поисковых систем для использования в поле поиска, и их можно использовать по одной для экспериментов с результатами поиска. Метапоисковые системы используют несколько поисковых систем одновременно. Плагин веб-браузера может добавить поисковую систему или метапоисковую систему в ваш список вариантов.

Смотрите также

Ссылки

  1. ^ Например, если в Google Книгах имеется 16 совпадений по одному имени и 24 по другому, то вероятность того, что второе имя на самом деле встречается чаще, составляет всего 70%.
  2. ^ Операторы поиска Google и дополнительная помощь по поиску
  3. ^ Персонализация истории поиска
  4. ^ ab Настройки поиска Google
  5. ^ Избегайте inauthor:"Books, LLC", поскольку LLC "публикует" необработанные распечатки статей Википедии.
  6. ^ Поиск в Google по запросу: AYB ИЛИ AYBABTU ИЛИ "Вся ваша база"
  7. ^ Google Answers вопрос о частоте слов в новостных источниках
  8. ^ Такуя, Фунахаси; Хаято, Ямана (2010). "Проверка надежности счетчиков попаданий поисковых систем" (PDF) . Труды 10-й международной конференции по текущим тенденциям в веб-инженерии . Отделение компьютерных наук и инженерии, Университет Васэда . Получено 5 мая 2015 г.
  9. ^ Салливан, Дэнни (21 октября 2010 г.). «Почему Google не может правильно подсчитывать результаты». SearchEngineLand.com . Получено 5 мая 2015 г.
  10. ^ Поиск Google по запросу «Microsoft»
  11. ^ Гулли, Антонио; Синьорини, Алессио (28 августа 2005 г.). «Индексируемый Интернет — это более 11,5 миллиардов страниц». {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  12. ^ Мор, Элвин; Мюррей, Брайан Х. (2000). «Определение размеров Интернета». Cyveillance. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  13. ^ Марк Либерман (2009), «Цитаты в кавычках и без кавычек», Language Log .
  14. ^ Либерман, Марк (2005), «Сомневаясь в реальности», Language Log ; и другие публикации Language Log, ссылки на которые приведены там.
  15. ^ http://web.archive.org/web/20011212161658/http://www.summit.nw3c.org/Programs_Agenda.htm
  16. ^ Harzing, AWK; van der Wal, R. (2008). Google Scholar как новый источник для анализа цитирования? Этика в науке и экологической политике , т. 8, № 1, стр. 62–71
  17. ^ ван Аалст, Ян. (2010) Использование Google Scholar для оценки влияния журнальных статей в образовании. Educational Researcher 39: 387.
  18. ^ ab Маслов, С.; Реднер, С. (2008). Перспективы и подводные камни расширения алгоритма PageRank Google на сети цитирования. Журнал нейронауки, 28, 11103–11105

Дальнейшее чтение