stringtranslate.com

Поисковая система видео

Поисковая система видео — это веб- поисковая система , которая сканирует Интернет в поисках видеоконтента . Некоторые поисковые системы видео анализируют контент, размещенный на внешних серверах, в то время как другие позволяют загружать контент и размещать его на своих собственных серверах. Некоторые системы также позволяют пользователям выполнять поиск по типу видеоформата и длине клипа. Результаты поиска видео обычно сопровождаются миниатюрой видео .

Видеопоисковые системы — это компьютерные программы, предназначенные для поиска видео, хранящихся на цифровых устройствах, либо через Интернет-серверы, либо в хранилищах того же компьютера. Этот поиск можно осуществлять с помощью аудиовизуального индексирования , которое позволяет извлекать информацию из аудиовизуального материала и записывать ее в виде метаданных, которые будут отслеживаться поисковыми системами.

Полезность

Основное использование этих поисковых систем — это растущее создание аудиовизуального контента и необходимость правильного управления им. Оцифровка аудиовизуальных архивов и появление Интернета привели к тому, что большое количество видеофайлов хранится в больших базах данных, восстановление которых может быть очень затруднено из-за огромных объемов данных и существования семантического разрыва.

Критерий поиска

Критерий поиска, используемый каждой поисковой системой, зависит от ее характера и цели поиска.

Метаданные

Метаданные — это информация о фактах. Это может быть информация о том, кто является автором видео, дата создания, продолжительность и вся информация, которую можно было извлечь и включить в те же файлы. Интернет часто используется на языке XML для кодирования метаданных, который очень хорошо работает через Интернет и удобен для чтения людьми. Таким образом, благодаря информации, содержащейся в этих файлах, проще всего найти интересующие нас данные.

В видео есть два типа метаданных, которые мы можем интегрировать в сам видеокод и внешние метаданные со страницы, где находится видео. В обоих случаях мы оптимизируем их, чтобы сделать их идеальными при индексировании.

Внутренние метаданные

Все видеоформаты содержат свои собственные метаданные. Возможны название, описание, качество кодирования или транскрипция контента. Для просмотра этих данных существуют такие программы, как FLV MetaData Injector, Sorenson Squeeze или Castfire. Каждый из них имеет некоторые утилиты и специальные характеристики.

Преобразование из одного формата в другой может привести к потере большей части этих данных, поэтому проверьте правильность информации о новом формате. Поэтому желательно иметь видео в нескольких форматах, чтобы все поисковые роботы могли его найти и проиндексировать.

Внешние метаданные

В большинстве случаев необходимо применять те же механизмы, что и при позиционировании изображения или текстового контента.

Название и описание

Они являются важнейшими факторами при позиционировании видео, поскольку содержат большую часть необходимой информации. Заголовки должны быть четко описательными и должны удалять все бесполезные слова и фразы.

Имя файла

Оно должно быть описательным, включая ключевые слова, описывающие видео, без необходимости видеть его название или описание. В идеале слова разделяйте тире «-».

Теги

На странице, где находится видео, должен быть список ключевых слов, связанных с микроформатом «rel-tag». Эти слова будут использоваться поисковыми системами в качестве основы для организации информации.

Транскрипция и субтитры

Хотя это и не совсем стандартно, существует два формата, в которых информация хранится в указанном временном компоненте: один для субтитров, а другой для расшифровок, которые также можно использовать для субтитров. Форматы: SRT или SUB для субтитров и TTXT для расшифровок.

Распознавание речи

Распознавание речи состоит из расшифровки речи аудиодорожки видеороликов, создания текстового файла. Таким образом и с помощью экстрактора фраз можно легко найти, представляет ли видеоконтент интерес. Некоторые поисковые системы помимо использования распознавания речи для поиска видео, также используют его для нахождения конкретной точки мультимедийного файла, в которой находится определенное слово или фраза, и перехода непосредственно к этой точке. Gaudi (Google Audio Indexing), проект, разработанный Google Labs , использует технологию распознавания голоса, чтобы определить точный момент произнесения одного или нескольких слов в аудиофайле, позволяя пользователю сразу перейти к точному моменту произнесения этих слов. Если поисковый запрос соответствует некоторым видео с YouTube, позиции обозначаются желтыми маркерами, и для прочтения расшифрованного текста необходимо навести указатель мыши.

Распознавание говорящего

Помимо транскрипции, анализ может обнаружить разных говорящих и иногда приписать речь определенному имени говорящего.

Распознавание текста

Распознавание текста может быть очень полезно для распознавания персонажей в видеороликах через «хироны». Как и в случае с распознавателями речи, существуют поисковые системы, позволяющие (за счет распознавания символов) воспроизводить видео с определенной точки.

TalkMiner, пример поиска определенных фрагментов видео с помощью распознавания текста, анализирует каждое видео один раз в секунду в поисках идентификационных признаков слайда, таких как его форма и статический характер, захватывает изображение слайда и использует оптическое распознавание символов (OCR). ), чтобы распознавать слова на слайдах. Затем эти слова индексируются в поисковой системе TalkMiner, которая в настоящее время предлагает пользователям более 20 000 видеороликов от таких учреждений, как Стэнфордский университет, Калифорнийский университет в Беркли и TED.

Анализ кадра

С помощью визуальных дескрипторов мы можем анализировать кадры видео и извлекать информацию, которую можно оценить как метаданные. Описания генерируются автоматически и могут описывать различные аспекты кадров, такие как цвет, текстура, форма, движение и ситуация.

Разделение на главы

Анализ видео может привести к автоматическому разбиению на главы с использованием таких методов, как изменение угла камеры, идентификация звуковых фрагментов. Зная типичную структуру видеодокумента, можно определить начальные и конечные титры, части контента, а также начало и окончание рекламных пауз.

Критерий ранжирования

Полезность поисковой системы зависит от релевантности возвращаемого набора результатов. Хотя могут существовать миллионы видеороликов, содержащих определенное слово или фразу, некоторые видеоролики могут быть более актуальными, популярными или иметь больший авторитет, чем другие. Эта договоренность во многом связана с поисковой оптимизацией.

Большинство поисковых систем используют разные методы для классификации результатов и обеспечения лучшего видео в первых результатах. Однако большинство программ позволяют сортировать результаты по нескольким критериям.

Упорядочить по релевантности

Этот критерий более неоднозначен и менее объективен, но иногда он наиболее близок к тому, что мы хотим; полностью зависит от поисковика и алгоритма, который выбрал владелец. Вот почему это всегда обсуждалось, а теперь, когда результаты поиска настолько укоренились в нашем обществе, это обсуждается еще больше. Этот тип управления часто зависит от количества раз, когда встречается искомое слово, количества его просмотров, количества страниц, ссылающихся на этот контент, и оценок, данных пользователями, которые его видели. [1]

Упорядочить по дате загрузки

Этот критерий полностью основан на сроках. Результаты можно сортировать по старшинству в репозитории.

Упорядочить по количеству просмотров

Это может дать нам представление о популярности каждого видео.

Заказ по длине

Это длина видео, и она может дать представление о том, какое это видео.

Сортировать по рейтингу пользователей

В репозиториях распространена практика, позволяющая пользователям оценивать видео, чтобы качественный и релевантный контент занимал высокое место в списке результатов, получающих видимость. Эта практика тесно связана с виртуальными сообществами.

Интерфейсы

Мы можем выделить два основных типа интерфейсов: некоторые из них представляют собой веб-страницы, размещенные на серверах, к которым осуществляется доступ через Интернет и поиск осуществляется через сеть, а другие представляют собой компьютерные программы, выполняющие поиск в частной сети.

Интернет

В интернет-интерфейсах мы можем найти репозитории, в которых размещаются видеофайлы, включающие поисковую систему, которая осуществляет поиск только в своих собственных базах данных, а также программы поиска видео без репозитория, которые выполняют поиск в источниках внешнего программного обеспечения.

Репозитории с видеопоиском

Обеспечивает размещение в видеофайлах, хранящихся на его серверах, и обычно имеет встроенную поисковую систему, которая осуществляет поиск по видео, загруженным пользователями. Одними из первых веб-хранилищ или, по крайней мере, наиболее известными являются порталы Vimeo, Dailymotion и YouTube.

Их поиск часто основан на чтении тегов метаданных, заголовков и описаний, которые пользователи присваивают своим видео. Критерии размещения и порядка результатов этих поисков обычно выбираются между датой загрузки файла, количеством просмотров или тем, что они называют релевантностью. Тем не менее, критерии сортировки в настоящее время являются основным оружием этих сайтов, поскольку позиционирование видео важно с точки зрения продвижения. [ нужна цитата ]

Репозитории видеопоисковиков

Это веб-сайты, специализирующиеся на поиске видео в сети или в определенных заранее выбранных репозиториях. Они работают с помощью веб-пауков, которые автоматически проверяют сеть и создают копии посещенных веб-сайтов, которые затем индексируются поисковыми системами, чтобы они могли обеспечить более быстрый поиск.

Частная сеть

Схема функционирования

Иногда поисковая система выполняет поиск только в аудиовизуальных файлах, хранящихся на компьютере или, как это происходит в телевизорах, на частном сервере, к которому пользователи получают доступ через локальную сеть. Эти поисковые системы обычно представляют собой программное обеспечение или многофункциональные интернет-приложения с очень специфическими параметрами поиска для максимальной скорости и эффективности при представлении результатов. Они обычно используются для больших баз данных и поэтому ориентированы на удовлетворение потребностей телекомпаний. Примером такого типа программного обеспечения может быть Digition Suite, который не только является эталоном в интерфейсах такого типа, но и очень близок нам в отношении системы хранения и поиска файлов от Corporació Catalana de Mitjans Audiovisuals . [2]

Этот конкретный пакет, и, возможно, его самой сильной стороной является то, что он объединяет весь процесс создания, индексирования, хранения, поиска, редактирования и восстановления. Как только мы получаем оцифрованный аудиовизуальный контент, он индексируется с помощью различных методов разного уровня в зависимости от важности контента и его хранения. Пользователь, когда он хочет получить определенный файл, должен заполнить поля поиска, такие как название программы, дата выпуска, действующие персонажи или имя производителя, и робот начинает поиск. Как только результаты появятся и будут упорядочены в соответствии с предпочтениями, пользователь сможет воспроизводить видео низкого качества, чтобы работать как можно быстрее. Когда он находит нужный контент, он загружается с хорошим разрешением, редактируется и воспроизводится. [3]

Дизайн и алгоритмы

Поиск видео медленно развивался через несколько основных форматов поиска, которые существуют сегодня и все из которых используют ключевые слова . Ключевые слова для каждого поиска можно найти в заголовке носителя, любом тексте, прикрепленном к веб-страницам, связанным с носителем и контентом, которые также определяются авторами и пользователями видеоресурсов.

Некоторые поиски видео выполняются с использованием поиска, выполняемого человеком, другие создают технологические системы, которые работают автоматически, чтобы определить, что находится в видео, и удовлетворить потребности искателей. Многие усилия по улучшению поиска видео, включая как поиск, выполняемый человеком, так и написание алгоритма, распознающего, что находится внутри видео, означали полную переработку поисковых усилий.

Общепризнано, что преобразование речи в текст возможно, хотя недавно Томас Уайлд, новый генеральный директор Everyzing, признал, что Everyzing работает в 70% случаев, когда звучит музыка, окружающий шум или говорит более одного человека. Если доступен стиль речи в выпуске новостей (один человек говорит четко, нет окружающего шума), этот показатель может возрасти до 93%. (Из саммита веб-видео, Сан-Хосе, Калифорния, 27 июня 2007 г.).

В каждом языке существует около 40 фонем , а во всех разговорных языках их около 400. Вместо применения алгоритма поиска текста после завершения обработки речи в текст некоторые системы используют алгоритм фонетического поиска для поиска результатов в произнесенном слове. Другие работают, буквально прослушивая весь подкаст и создавая текстовую транскрипцию, используя сложный процесс преобразования речи в текст. После создания текстового файла его можно искать по любому количеству поисковых слов и фраз.

Общепризнано, что визуальный поиск по видео не работает должным образом и ни одна компания не использует его публично. Исследователи из Калифорнийского университета в Сан-Диего и Университета Карнеги-Меллон работали над проблемой визуального поиска более 15 лет и признались на конференции «Будущее поиска» в Калифорнийском университете в Беркли весной 2007 года, что до того, как она станет жизнеспособной даже в простых задачах, осталось еще много лет. поиск.

Поисковые системы по видео

Агностический поиск

Поиск, на который не влияет хостинг видео, результаты которого не зависят от того, где находится видео:

Независимый поиск

Результаты поиска изменены или подозрительны, поскольку большому размещенному видео уделяется предпочтение в результатах поиска:

Смотрите также

Рекомендации

  1. ^ (на английском языке) SEO от центрального веб-мастера Google
  2. ^ (на каталанском языке) Оцифруйте или умрите (Алисия Конеса). Архивировано 8 июля 2011 года в Wayback Machine .
  3. ^ (на каталанском языке) Diggition Suite от Activa Multimedia

Внешние ссылки

Процесс поисковых систем How Stuff Works (на английском языке)