В информационных системах тег — это ключевое слово или термин, присвоенный фрагменту информации (например, закладке Интернета , мультимедиа , записи базы данных или компьютерному файлу ). Этот вид метаданных помогает описать элемент и позволяет снова найти его с помощью просмотра или поиска. [1] Теги обычно выбираются неформально и лично создателем элемента или его зрителем, в зависимости от системы, хотя они также могут быть выбраны из контролируемого словаря . [2] : 68
Тегирование было популяризировано веб-сайтами , связанными с Web 2.0 , и является важной функцией многих служб Web 2.0. [2] [3] Теперь оно также является частью других систем баз данных , настольных приложений и операционных систем . [4]
Люди используют теги для классификации , обозначения собственности, обозначения границ и указания онлайн-идентификации . Теги могут иметь форму слов, изображений или других идентификационных знаков. Аналогичным примером тегов в физическом мире является маркировка музейных объектов. Люди использовали текстовые ключевые слова для классификации информации и объектов задолго до появления компьютеров. Компьютерные алгоритмы поиска сделали использование таких ключевых слов быстрым способом изучения записей.
Тегирование приобрело популярность из-за роста социальных закладок , обмена изображениями и веб-сайтов социальных сетей . [2] Эти сайты позволяют пользователям создавать и управлять метками (или «тегами»), которые категоризируют контент с помощью простых ключевых слов. Веб-сайты, которые включают теги, часто отображают коллекции тегов в виде облаков тегов , [a] как и некоторые настольные приложения. [b] На веб-сайтах, которые объединяют теги всех пользователей, теги отдельного пользователя могут быть полезны как им самим, так и более широкому сообществу пользователей веб-сайта.
Системы тегирования иногда классифицируются на два вида: сверху вниз и снизу вверх . [3] : 142 [4] : 24 Нисходящие таксономии создаются уполномоченной группой дизайнеров (иногда в форме контролируемого словаря ), тогда как восходящие таксономии (называемые фолксономиями ) создаются всеми пользователями. [3] : 142 Это определение «сверху вниз» и «снизу вверх» не следует путать с различием между единой иерархической древовидной структурой (в которой существует один правильный способ классификации каждого элемента) и несколькими неиерархическими наборами (в которых существует несколько способов классификации элемента); структура как нисходящих, так и восходящих таксономий может быть либо иерархической, либо неиерархической, либо комбинацией того и другого. [3] : 142–143 Некоторые исследователи и приложения экспериментировали с комбинированием иерархической и неиерархической маркировки для облегчения поиска информации. [7] [8] [9] Другие комбинируют нисходящую и восходящую маркировку, [10] в том числе в некоторых крупных библиотечных каталогах ( OPAC ), таких как WorldCat . [11] [12] : 74 [13] [14]
Когда теги или другие таксономии имеют дополнительные свойства (или семантику ), такие как отношения и атрибуты , они составляют онтологию . [3] : 56–62
Теги метаданных, описанные в этой статье, не следует путать с использованием слова «тег» в некоторых программах для обозначения автоматически сгенерированной перекрестной ссылки ; примерами последних являются таблицы тегов в Emacs [15] и смарт-теги в Microsoft Office [16] .
Использование ключевых слов как части системы идентификации и классификации существовало задолго до появления компьютеров. Устройства для хранения данных на бумаге , в частности, карточки с надрезами по краям , которые позволяли классифицировать и сортировать по нескольким критериям, использовались еще до двадцатого века, а фасетная классификация использовалась библиотеками с 1930-х годов.
В конце 1970-х и начале 1980-х годов Emacs , текстовый редактор для систем Unix , предлагал сопутствующую программу под названием Tags , которая могла автоматически строить таблицу перекрестных ссылок, называемую таблицей тегов , которую Emacs мог использовать для перехода между вызовом функции и определением этой функции. [17] Такое использование слова «тег» не относилось к тегам метаданных, но было ранним использованием слова «тег» в программном обеспечении для обозначения индекса слов .
Онлайновые базы данных и ранние веб-сайты использовали ключевые теги как способ для издателей помочь пользователям находить контент. В ранние дни Всемирной паутины keywords
элемент meta использовался веб -дизайнерами, чтобы сообщать поисковым системам, о чем веб-страница, но эти ключевые слова были видны только в исходном коде веб-страницы и не могли быть изменены пользователями.
В 1997 году совместный портал «Описание экватора и некоторых других земель», созданный documenta X, Германия, использовал фольклорный термин Тег для своих соавторов и гостевых авторов на своей странице загрузки. [18] В «Экваторе» термин Тег для пользовательского ввода был описан как абстрактный литерал или ключевое слово, чтобы помочь пользователю. Однако пользователи определяли отдельные Теги и не делились Тегами в тот момент.
В 2003 году сайт социальных закладок Delicious предоставил своим пользователям возможность добавлять «теги» к своим закладкам (чтобы было легче найти их позже); [2] : 162 Delicious также предоставил просматриваемые агрегированные представления закладок всех пользователей, имеющих определенный тег. [19] Через пару лет сайт обмена фотографиями Flickr позволил своим пользователям добавлять собственные текстовые теги к каждой из своих фотографий, создавая гибкие и простые метаданные, которые делали фотографии легкодоступными для поиска. [20] Успех Flickr и влияние Delicious популяризировали эту концепцию, [21] и другие сайты социального программного обеспечения , такие как YouTube , Technorati и Last.fm , также внедрили теги. [22] В 2005 году стандарт веб-синдикации Atom предоставил элемент «категория» для вставки категорий предметов в веб-каналы , а в 2007 году Тим Брей предложил URN «тег» . [23]
Многие системы (и другие системы управления веб-контентом ) позволяют авторам добавлять свободные теги к записи, вместе с (или вместо) помещением записи в предопределенную категорию. [a] Например, запись может отображать, что она была помечена baseball
и tickets
. Каждый из этих тегов обычно является веб-ссылкой, ведущей на страницу индекса, где перечислены все записи, связанные с этим тегом. Блог может иметь боковую панель, перечисляющую все теги, используемые в этом блоге, причем каждый тег ведет на страницу индекса. Чтобы переклассифицировать запись, автор редактирует ее список тегов. Все связи между записями автоматически отслеживаются и обновляются программным обеспечением блога; нет необходимости перемещать страницу в сложной иерархии категорий.
Некоторые настольные приложения и веб-приложения имеют собственные системы тегов, такие как теги электронной почты в Gmail и Mozilla Thunderbird , [12] : 73 теги закладок в Firefox , [24] теги аудио в iTunes или Winamp и теги фотографий в различных приложениях. [25] Некоторые из этих приложений отображают коллекции тегов в виде облаков тегов . [b]
Существуют различные системы применения тегов к файлам в файловой системе компьютера .
В Mac System 7 от Apple , выпущенной в 1991 году, пользователи могли назначать одну из семи редактируемых цветных меток (с редактируемыми именами, такими как «Важно», «Горячо» и «В процессе») каждому файлу и папке. [26] В более поздних версиях операционной системы Mac, начиная с выпуска OS X 10.9 в 2013 году, пользователи могли назначать несколько произвольных тегов в качестве расширенных атрибутов файла любому файлу или папке, [27] а до этого времени стандарт OpenMeta с открытым исходным кодом предоставлял аналогичную функциональность тегирования для Mac OS X. [ 28]
Для ядра Linux доступно несколько семантических файловых систем , реализующих теги , включая Tagsistant . [29]
Microsoft Windows позволяет пользователям устанавливать теги только для документов Microsoft Office и некоторых видов файлов изображений. [30]
Кроссплатформенные стандарты тегирования файлов включают Extensible Metadata Platform (XMP), стандарт ISO для встраивания метаданных в популярные форматы файлов изображений, видео и документов, такие как JPEG и PDF , не нарушая их читаемость приложениями, которые не поддерживают XMP. [31] XMP в значительной степени заменяет более раннюю модель обмена информацией IPTC . Exif — это стандарт, который определяет форматы файлов изображений и аудио, используемые цифровыми камерами , включая некоторые теги метаданных. [32] TagSpaces — это кроссплатформенное приложение с открытым исходным кодом для тегирования файлов; оно вставляет теги в имя файла . [33]
Официальный тег — это ключевое слово, принятое на мероприятиях и конференциях для использования участниками в своих веб-публикациях, таких как записи в блогах, фотографии мероприятия и слайды презентаций. [34] Затем поисковые системы могут индексировать их, чтобы сделать соответствующие материалы, связанные с мероприятием, доступными для поиска единообразно. В этом случае тег является частью контролируемого словаря .
Исследователь может работать с большой коллекцией элементов (например, цитаты из прессы, библиография, изображения) в цифровой форме. Если он/она хочет связать каждый из них с небольшим количеством тем (например, с главами книги или с подтемами общей темы), то группа тегов для этих тем может быть прикреплена к каждому из элементов в более крупной коллекции. [35] Таким образом, классификация свободной формы позволяет автору управлять тем, что в противном случае было бы громоздким объемом информации. [36]
Тройной тег или машинный тег использует специальный синтаксис для определения дополнительной семантической информации о теге, что делает его более простым или осмысленным для интерпретации компьютерной программой. [37] Тройные теги состоят из трех частей: пространства имен , предиката и значения. Например, geo:long=50.123456
— это тег для географической координаты долготы , значение которой равно 50.123456. Эта тройная структура похожа на модель Resource Description Framework для информации.
Формат тройного тега был впервые разработан для geolicious в ноябре 2004 года [38] для отображения закладок Delicious и получил более широкое распространение после его принятия Mappr и GeoBloggers для отображения фотографий Flickr . [39] В январе 2007 года Аарон Страуп Коуп из Flickr представил термин «машинный тег» как альтернативное название для тройного тега, добавив несколько вопросов и ответов о цели, синтаксисе и использовании. [40]
Специализированные метаданные для географической идентификации известны как геотегирование ; машинные теги также используются для других целей, таких как идентификация фотографий, сделанных на определенном мероприятии, или наименование видов с использованием биномиальной номенклатуры . [41]
Хэштег — это разновидность тега метаданных, отмеченного префиксом #
, иногда называемым символом «хэш». Эта форма тегирования используется в микроблогах и социальных сетях , таких как Twitter , Facebook , Google+ , VK и Instagram . Хеш используется для того, чтобы отличать текст тега от другого текста в посте.
Тег знаний — это тип метаинформации , который описывает или определяет некоторые аспекты фрагмента информации (например, документа , цифрового изображения , таблицы базы данных или веб-страницы ). [42] Теги знаний — это больше, чем традиционные неиерархические ключевые слова или термины ; это тип метаданных , которые фиксируют знания в форме описаний, категоризации, классификации, семантики , комментариев, заметок, аннотаций, гиперданных , гиперссылок или ссылок, которые собираются в профилях тегов (своего рода онтологии ). [42] Эти профили тегов ссылаются на информационный ресурс, который находится в распределенном и часто неоднородном хранилище. [42]
Теги знаний являются частью дисциплины управления знаниями , которая использует методологии Enterprise 2.0 для пользователей, чтобы захватывать идеи, экспертные знания, атрибуты, зависимости или отношения, связанные с ресурсом данных. [3] : 251 [43] Различные виды знаний могут быть захвачены в тегах знаний, включая фактические знания (которые находятся в книгах и данных), концептуальные знания (которые находятся в перспективах и концепциях), ожидаемые знания (необходимые для вынесения суждений и гипотез) и методологические знания (выведенные из рассуждений и стратегий). [43] Эти формы знаний часто существуют вне самих данных и выводятся из личного опыта, понимания или экспертизы. Теги знаний считаются расширением самой информации, которое добавляет дополнительную ценность, контекст и значение информации. Теги знаний ценны для сохранения организационной информации, которая часто теряется из-за текучести кадров , для обмена знаниями, хранящимися в умах людей, которые обычно изолированы и не используются организацией, и для соединения знаний, которые часто теряются или отсоединены от информационного ресурса. [44]
В типичной системе тегов нет явной информации о значении или семантике каждого тега, и пользователь может применять новые теги к элементу так же легко, как и применять старые теги. [2] Иерархические системы классификации могут меняться медленно и укоренены в культуре и эпохе, которые их создали; напротив, гибкость тегов позволяет пользователям классифицировать свои коллекции элементов способами, которые они считают полезными, но персонализированное разнообразие терминов может создавать проблемы при поиске и просмотре.
Когда пользователи могут свободно выбирать теги (создавая фолксономию , в отличие от выбора терминов из контролируемого словаря ), полученные метаданные могут включать омонимы (те же теги, используемые с разными значениями) и синонимы (несколько тегов для одного и того же понятия), что может привести к ненадлежащим связям между элементами и неэффективным поискам информации о предмете. [45] Например, тег «апельсин» может относиться к фрукту или цвету , а элементы, связанные с версией ядра Linux, могут быть помечены как «Linux», «ядро», «Пингвин», «программное обеспечение» или множеством других терминов. Пользователи также могут выбирать теги, которые являются различными склонениями слов (например, единственное и множественное число), [46] что может способствовать трудностям навигации, если система не включает стемминг тегов при поиске или просмотре. Более масштабные фолксономии решают некоторые проблемы тегирования, поскольку пользователи систем тегирования склонны замечать текущее использование "терминов тегов" в этих системах и, таким образом, использовать существующие теги для того, чтобы легко формировать связи со связанными элементами. Таким образом, фолксономии могут коллективно разрабатывать частичный набор соглашений о тегировании.
Несмотря на кажущееся отсутствие контроля, исследования показали, что простая форма общего словаря возникает в системах социальных закладок. Совместное тегирование демонстрирует форму динамики сложных систем (или самоорганизующейся динамики). [47] Таким образом, даже если центральный контролируемый словарь не ограничивает действия отдельных пользователей, распределение тегов со временем сходится к стабильным распределениям степенного закона . [47] После того, как такие стабильные распределения формируются, простые фолксономические словари могут быть извлечены путем изучения корреляций , которые образуются между различными тегами. Кроме того, исследования показали, что алгоритмам машинного обучения легче изучать семантику тегов, когда пользователи тегируют «многословно» — когда они аннотируют ресурсы с помощью множества свободно связанных, описательных ключевых слов. [48]
Системы тегирования, открытые для общественности, также открыты для тегового спама, когда люди применяют чрезмерное количество тегов или не связанных между собой тегов к элементу (например, видео YouTube ) для привлечения зрителей. Это злоупотребление можно смягчить с помощью человеческой или статистической идентификации спам-элементов. [49] Количество разрешенных тегов также может быть ограничено для сокращения спама.
Некоторые системы тегирования предоставляют одно текстовое поле для ввода тегов, поэтому для возможности токенизации строки необходимо использовать разделитель. Два популярных разделителя — это пробел и запятая . Чтобы разрешить использование разделителей в тегах, система может разрешать разделители более высокого уровня (например, кавычки ) или экранированные символы . Системы могут избегать использования разделителей, позволяя добавлять только один тег к каждому виджету ввода за раз, хотя это делает добавление нескольких тегов более трудоемким.
Синтаксис для использования в HTML заключается в использовании микроформата rel-tag , который использует атрибут rel со значением «tag» (т. е. ), чтобы указать, что связанная страница действует как тег для текущего контекста. [50]rel="tag"
и все остальные опции здесь, метаданные можно добавлять к отдельным файлам, чтобы улучшить их поисковую способность, а уникальное поле облака тегов в интерфейсе Leap позволяет быстро и без лишних хлопот переходить к индивидуально помеченным файлам.
Вызов функции, определенной в одном модуле компиляции, из другого аналогичен перекрестным ссылкам в больших гипертекстовых документах. Используя таблицы тегов, среда Emacs позволяет пользователю превращать исходный код программы в мощные гипертекстовые документы.
теги для поля, чтобы упростить перекрестные ссылки на данные между базой данных Access и Microsoft Outlook (или другой программой для работы с личной информацией и электронной почтой) и Интернетом.
EMACS — это редактор отображения MIT, разработанный для того, чтобы быть "расширяемым, настраиваемым и самодокументируемым" [...] Еще одним интересным средством для редактирования программ является пакет TAGS. Отдельная программа TAGS создает таблицу TAGS, содержащую имя файла и позицию в этом файле, в котором определена каждая функция прикладной программы. Эта таблица загружается в EMACS; указание команды Meta,
function name
заставляет EMACS выбрать соответствующий файл и перейти к надлежащему определению функции в этом файле.
Теги не были в первоначальной версии Flickr. Стюарт Баттерфилд хотел добавить их. Ему понравилось, как они работали в del.icio.us, приложении для социальных закладок. Мы добавили очень простую функциональность тегов, так что вы могли тегировать свои фотографии, а затем просматривать все свои фотографии с определенным тегом или фотографии любого человека с определенным тегом. Вскоре после этого пользователи начали говорить нам, что действительно интересно в тегах не только то, как вы тегируете свои фотографии, но и то, как все сообщество Flickr тегирует фотографии. Поэтому мы начали получать много запросов от пользователей на возможность видеть глобальный вид тегового ландшафта.