В информационных системах тег — это ключевое слово или термин , присвоенный части информации (например, интернет-закладке , мультимедиа , записи базы данных или компьютерному файлу ). Метаданные такого типа помогают описать элемент и позволяют его снова найти при просмотре или поиске. [1] Теги обычно выбираются неформально и лично создателем элемента или его зрителем, в зависимости от системы, хотя они также могут выбираться из контролируемого словаря . [2] : 68
Теги были популяризированы веб-сайтами , связанными с Web 2.0 , и являются важной функцией многих сервисов Web 2.0. [2] [3] Теперь он также является частью других систем баз данных , настольных приложений и операционных систем . [4]
Люди используют теги, чтобы облегчить классификацию , обозначить принадлежность, обозначить границы и указать идентичность в Интернете . Теги могут иметь форму слов, изображений или других опознавательных знаков. Аналогичным примером меток в физическом мире является маркировка музейных предметов. Люди использовали текстовые ключевые слова для классификации информации и объектов задолго до появления компьютеров. Компьютерные алгоритмы поиска сделали использование таких ключевых слов быстрым способом изучения записей.
Тегирование приобрело популярность благодаря росту социальных закладок , обмена изображениями и веб-сайтов социальных сетей . [2] Эти сайты позволяют пользователям создавать метки (или «теги») и управлять ими, которые классифицируют контент с помощью простых ключевых слов. Веб-сайты, содержащие теги, часто отображают коллекции тегов в виде облаков тегов [a] , как и некоторые настольные приложения. [b] На веб-сайтах, которые объединяют теги всех пользователей, теги отдельных пользователей могут быть полезны как им самим, так и более широкому сообществу пользователей веб-сайта.
Системы тегов иногда делят на два типа: нисходящие и восходящие . [3] : 142 [4] : 24 Таксономии «сверху вниз» создаются уполномоченной группой дизайнеров (иногда в форме контролируемого словаря ), тогда как таксономии «снизу вверх» (называемые фольксономиями ) создаются всеми пользователями. [3] : 142 Это определение «сверху вниз» и «снизу вверх» не следует путать с различием между единой иерархической древовидной структурой (в которой существует один правильный способ классификации каждого элемента) и множеством неиерархических наборов ( в котором существует несколько способов классификации предмета); структура как нисходящей, так и восходящей таксономии может быть иерархической, неиерархической или комбинацией того и другого. [3] : 142–143 Некоторые исследователи и приложения экспериментировали с сочетанием иерархических и неиерархических тегов для облегчения поиска информации. [7] [8] [9] Другие комбинируют тегирование сверху вниз и снизу вверх, [10] в том числе в некоторых крупных библиотечных каталогах ( OPAC ), таких как WorldCat . [11] [12] : 74 [13] [14]
Когда теги или другие таксономии имеют дополнительные свойства (или семантику ), такие как отношения и атрибуты , они составляют онтологию . [3] : 56–62
Теги метаданных, описанные в этой статье, не следует путать с использованием слова «тег» в некоторых программах для обозначения автоматически создаваемой перекрестной ссылки ; примерами последних являются таблицы тегов в Emacs [15] и смарт-теги в Microsoft Office . [16]
Использование ключевых слов как часть системы идентификации и классификации задолго до появления компьютеров. Бумажные устройства для хранения данных, в частности карты с надрезом по краям , которые позволяли классифицировать и сортировать по множеству критериев, уже использовались до двадцатого века, а фасетная классификация использовалась библиотеками с 1930-х годов.
В конце 1970-х и начале 1980-х годов текстовый редактор Unix Emacs предлагал сопутствующую программу под названием Tags , которая могла автоматически создавать таблицу перекрестных ссылок, называемую таблицей тегов , которую Emacs мог использовать для перехода между вызовом функции и ее определением. [17] Такое использование слова «тег» не относилось к тегам метаданных, но было ранним использованием слова «тег» в программном обеспечении для обозначения индекса слова .
Интернет-базы данных и первые веб-сайты использовали теги ключевых слов, чтобы издатели могли помочь пользователям находить контент. На заре Всемирной паутины мета keywords
-элемент использовался веб-дизайнерами, чтобы сообщить поисковым системам , о чем была веб-страница, но эти ключевые слова были видны только в исходном коде веб-страницы и не могли быть изменены пользователями.
В 1997 году совместный портал «Описание экватора и некоторых других земель», созданный documenta X, Германия, использовал фольксономический термин « Тег» для своих соавторов и приглашенных авторов на своей странице загрузки. [18] В «Экваторе» термин « Тег » для пользовательского ввода был описан как абстрактный литерал или ключевое слово , помогающее пользователю. Однако пользователи определяли отдельные теги и на этом этапе не делились тегами .
В 2003 году сайт социальных закладок Delicious предоставил своим пользователям возможность добавлять «теги» к своим закладкам (чтобы облегчить их поиск позже); [2] : 162 Delicious также предоставил агрегированные представления закладок всех пользователей, имеющих определенный тег, с возможностью просмотра. [19] Через пару лет сайт обмена фотографиями Flickr позволил своим пользователям добавлять собственные текстовые теги к каждому из своих изображений, создавая гибкие и простые метаданные, которые сделали изображения удобными для поиска. [20] Успех Flickr и влияние Delicious популяризировали эту концепцию, [21] и другие сайты социального программного обеспечения , такие как YouTube , Technorati и Last.fm , также внедрили тегирование. [22] В 2005 году стандарт веб-синдикации Atom предоставил элемент «категория» для вставки тематических категорий в веб-каналы , а в 2007 году Тим Брэй предложил «тег» URN . [23]
Многие системы (и другие системы управления веб-контентом ) позволяют авторам добавлять к сообщению теги произвольной формы наряду с (или вместо) помещением сообщения в заранее определенную категорию. [a] Например, в сообщении может отображаться, что оно отмечено тегами baseball
и tickets
. Каждый из этих тегов обычно представляет собой веб-ссылку , ведущую на индексную страницу со списком всех сообщений, связанных с этим тегом. Блог может иметь боковую панель со списком всех тегов, используемых в этом блоге, причем каждый тег ведет на индексную страницу. Чтобы переклассифицировать сообщение, автор редактирует список тегов. Все связи между публикациями автоматически отслеживаются и обновляются программным обеспечением блога; нет необходимости перемещать страницу внутри сложной иерархии категорий.
Некоторые настольные приложения и веб-приложения имеют свои собственные системы тегов, такие как теги электронной почты в Gmail и Mozilla Thunderbird , [12] :73 теги закладок в Firefox , [24] теги аудио в iTunes или Winamp , а также теги фотографий в различных приложениях. [25] Некоторые из этих приложений отображают коллекции тегов в виде облаков тегов . [б]
Существуют различные системы присвоения тегов файлам в файловой системе компьютера .
В Mac System 7 от Apple , выпущенной в 1991 году, пользователи могли назначать одну из семи редактируемых цветных меток (с редактируемыми именами, такими как «Основной», «Горячий» и «В процессе») каждому файлу и папке. [26] В более поздних версиях операционной системы Mac, начиная с выпуска OS X 10.9 в 2013 году, пользователи могли назначать несколько произвольных тегов в качестве расширенных атрибутов файла любому файлу или папке, [27] а до этого времени использовался стандарт OpenMeta с открытым исходным кодом . предоставил аналогичную функциональность тегов для Mac OS X. [28]
Для ядра Linux доступно несколько семантических файловых систем , реализующих теги , включая Tagsistant . [29]
Microsoft Windows позволяет пользователям устанавливать теги только для документов Microsoft Office и некоторых типов файлов изображений. [30]
К межплатформенным стандартам маркировки файлов относятся расширяемая платформа метаданных (XMP), стандарт ISO для встраивания метаданных в популярные форматы файлов изображений, видео и документов, такие как JPEG и PDF , без нарушения их читаемости приложениями, не поддерживающими XMP. [31] XMP в значительной степени заменяет более раннюю модель обмена информацией IPTC . Exif — это стандарт, определяющий форматы изображений и аудиофайлов , используемые цифровыми камерами , включая некоторые теги метаданных. [32] TagSpaces — кроссплатформенное приложение с открытым исходным кодом для маркировки файлов; он вставляет теги в имя файла . [33]
Официальный тег — это ключевое слово, принятое на мероприятиях и конференциях для использования участниками в своих веб-публикациях, таких как записи в блогах, фотографии мероприятия и слайды презентаций. [34] Поисковые системы могут затем индексировать их, чтобы сделать релевантные материалы, связанные с событием, доступными для единообразного поиска. В этом случае тег является частью контролируемого словаря .
Исследователь может работать с большой коллекцией материалов (например, цитат из прессы, библиографии, изображений) в цифровой форме. Если он/она хочет связать каждую из них с небольшим количеством тем (например, с главами книги или с подтемами общей темы), то к каждому из элементов в книге можно прикрепить группу тегов для этих тем. большая коллекция. [35] Таким образом, классификация произвольной формы позволяет автору управлять объемами информации, которые в противном случае были бы громоздкими. [36]
Тройной тег или машинный тег использует специальный синтаксис для определения дополнительной семантической информации о теге, что делает его более простым и понятным для интерпретации компьютерной программой. [37] Тройные теги состоят из трех частей: пространства имен , предиката и значения. Например, geo:long=50.123456
это тег для географической координаты долготы , значение которой равно 50,123456. Эта тройная структура аналогична информационной модели структуры описания ресурсов .
Формат тройного тега был впервые разработан для geolicious в ноябре 2004 года [38] для отображения закладок Delicious и получил более широкое признание после того, как был принят Mappr и GeoBloggers для отображения фотографий Flickr . [39] В январе 2007 года Аарон Страуп Коуп из Flickr представил термин « машинный тег» в качестве альтернативного названия тройного тега, добавив несколько вопросов и ответов о целях, синтаксисе и использовании. [40]
Специализированные метаданные для географической идентификации известны как геотеги ; машинные метки также используются для других целей, таких как идентификация фотографий, сделанных на определенном мероприятии, или наименование видов с использованием биномиальной номенклатуры . [41]
Хэштег — это своего рода тег метаданных, отмеченный префиксом #
, иногда называемым символом «хеш». Эта форма тегирования используется в микроблогах и социальных сетях, таких как Twitter , Facebook , Google+ , VK и Instagram . Хэш используется для того, чтобы отличать текст тега от другого текста в сообщении.
Тег знаний — это тип метаинформации , которая описывает или определяет некоторый аспект части информации (например , документа , цифрового изображения , таблицы базы данных или веб-страницы ). [42] Теги знаний — это больше, чем традиционные неиерархические ключевые слова или термины ; это тип метаданных , которые фиксируют знания в форме описаний, категоризации, классификаций, семантики , комментариев, примечаний, аннотаций, гиперданных , гиперссылок или ссылок, которые собираются в профилях тегов (разновидность онтологии ). [42] Эти профили тегов ссылаются на информационный ресурс, который находится в распределенном и часто гетерогенном хранилище данных. [42]
Теги знаний являются частью дисциплины управления знаниями , которая использует методологии Enterprise 2.0 , позволяющие пользователям собирать информацию, опыт, атрибуты, зависимости или отношения, связанные с ресурсом данных. [3] : 251 [43] В тегах знаний могут быть отражены различные виды знаний, включая фактические знания (которые можно найти в книгах и данных), концептуальные знания (найденные в точках зрения и концепциях), ожидаемые знания (необходимые для вынесения суждений и выдвижения гипотез). ) и методологические знания (полученные на основе рассуждений и стратегий). [43] Эти формы знаний часто существуют вне самих данных и основаны на личном опыте, понимании или знаниях. Теги знаний считаются расширением самой информации, которое добавляет ей дополнительную ценность, контекст и значение. Теги знаний ценны для сохранения организационной информации, которая часто теряется из-за текучести кадров , для обмена знаниями, хранящимися в сознании отдельных лиц, которые обычно изолированы и не используются организацией, а также для соединения знаний, которые часто теряются или отсоединяются от информационного ресурса. [44]
В типичной системе тегов нет явной информации о значении или семантике каждого тега, и пользователь может применять новые теги к элементу так же легко, как и старые теги. [2] Иерархические системы классификации могут меняться медленно и уходят корнями в культуру и эпоху, в которой они были созданы; напротив, гибкость тегов позволяет пользователям классифицировать свои коллекции элементов так, как они считают полезными, но персонализированное разнообразие терминов может создавать проблемы при поиске и просмотре.
Когда пользователи могут свободно выбирать теги (создавая фолксономию , а не выбирать термины из контролируемого словаря ), результирующие метаданные могут включать омонимы (одни и те же теги, используемые с разными значениями) и синонимы (несколько тегов для одного и того же понятия), что может приводят к неправильным связям между предметами и неэффективному поиску информации о предмете. [45] Например, тег «оранжевый» может относиться к фрукту или цвету , а элементы, относящиеся к версии ядра Linux, могут иметь теги «Linux», «ядро», «Пингвин», «программное обеспечение» или множество других терминов. Пользователи также могут выбирать теги, представляющие собой разные варианты изменения слов (например, в единственном и множественном числе), [46] что может усложнить навигацию, если система не включает в себя определение корней тегов при поиске или просмотре. Более масштабные фолксономии решают некоторые проблемы тегирования, поскольку пользователи систем тегов склонны замечать текущее использование «терминов тегов» внутри этих систем и, таким образом, использовать существующие теги, чтобы легко формировать связи со связанными элементами. Таким образом, фолксономии могут коллективно разработать частичный набор соглашений о тегах.
Несмотря на очевидное отсутствие контроля, исследования показали, что в системах социальных закладок возникает простая форма общего словаря. Совместная маркировка демонстрирует форму сложной системной динамики (или самоорганизующейся динамики). [47] Таким образом, даже если никакой централизованно управляемый словарь не ограничивает действия отдельных пользователей, распределение тегов со временем сходится к стабильному степенному закону распределения. [47] Как только формируются такие стабильные распределения, можно извлечь простые фольксономические словари, исследуя корреляции , которые формируются между различными тегами. Кроме того, исследования показали, что алгоритмам машинного обучения легче изучить семантику тегов, когда пользователи помечают «подробно» — когда они аннотируют ресурсы множеством свободно связанных описательных ключевых слов. [48]
Системы тегов, открытые для общественности, также открыты для спама тегов, в котором люди применяют чрезмерное количество тегов или несвязанных тегов к элементу (например, видео на YouTube ), чтобы привлечь зрителей. Это злоупотребление можно смягчить, используя человеческую или статистическую идентификацию спама. [49] Количество разрешенных тегов также может быть ограничено для уменьшения спама.
Некоторые системы тегов предоставляют одно текстовое поле для ввода тегов, поэтому для токенизации строки необходимо использовать разделитель. Двумя популярными разделителями являются пробел и запятая . Чтобы разрешить использование разделителей в тегах, система может допускать использование разделителей более высокого уровня (например, кавычек ) или escape-символов . Системы могут избежать использования разделителей, позволяя добавлять только один тег к каждому входному виджету за раз, хотя это делает добавление нескольких тегов более трудоемким.
Синтаксис для использования в HTML заключается в использовании микроформата rel-tag , который использует атрибут rel со значением «тег» (т. е. ), чтобы указать, что страница, на которую имеется ссылка, действует как тег для текущего контекста. [50]rel="tag"
Как и во всех других опциях здесь, метаданные могут быть добавлены к отдельным файлам, чтобы улучшить их поиск, а уникальное поле облака тегов в интерфейсе Leap позволяет вам быстро переходить к файлам с индивидуальной маркировкой без суеты.
Вызов функции, определенной в одной единице компиляции, из другой, аналогичен перекрестным ссылкам в больших гипертекстовых документах. Используя таблицы тегов, среда Emacs позволяет пользователю превращать исходный код программы в мощные гипертекстовые документы.
Вы можете включить смарт-теги для поля, чтобы упростить перекрестные ссылки на данные между базой данных Access и Microsoft Outlook (или другой программой личной информации и электронной почты) и Интернетом.
EMACS — это редактор дисплея MIT, разработанный как «расширяемый, настраиваемый и самодокументируемый» [...] Еще одним интересным средством редактирования программ является пакет TAGS. Отдельная программа TAGS создает таблицу TAGS, содержащую имя файла и позицию в этом файле, в котором определена каждая функция прикладной программы. Эта таблица загружается в EMACS; указание команды Meta,
function name
заставляет EMACS выбрать соответствующий файл и перейти к правильному определению функции в этом файле.
Тегов не было в первоначальной версии Flickr. Стюарт Баттерфилд хотел их добавить. Ему понравилось, как они работали над del.icio.us, приложением социальных закладок. Мы добавили очень простую функцию добавления тегов, чтобы вы могли отмечать свои фотографии, а затем просматривать все свои фотографии с определенным тегом или фотографии любого человека с определенным тегом. Вскоре после этого пользователи начали рассказывать нам, что действительно интересно в тегировании не только то, как вы помечаете свои фотографии, но и то, как все сообщество Flickr помечает фотографии. Итак, мы начали получать много запросов от пользователей на возможность увидеть глобальное представление тегов.