stringtranslate.com

Семантический HTML

Категории содержимого HTML-элементов

Семантический HTML — это использование разметки HTML для усиления семантики или смысла информации на веб-страницах и веб-приложениях, а не просто для определения ее представления или внешнего вида . Семантический HTML обрабатывается традиционными веб-браузерами , а также многими другими пользовательскими агентами . CSS используется для указания того, как он представляется пользователям-людям.

История

HTML включает семантическую разметку с момента своего создания. [1] В документе HTML автор может, среди прочего, «начать с заголовка; добавить заголовки и абзацы; добавить акценты к тексту; добавить изображения; добавить ссылки на другие страницы; [и] использовать различные виды списков». [2]

Различные версии стандарта HTML включали презентационную разметку, такую ​​как <font>(добавлено в HTML 3.2; удалено в HTML 4.0 Strict), <i>(все версии) и <center>(добавлено в HTML 3.2). Также существуют семантически нейтральные элементы span и div . С конца 1990-х годов, когда каскадные таблицы стилей начали работать в большинстве браузеров, веб-авторов призывали избегать использования презентационной разметки HTML с целью разделения контента и представления . [3]

В 2001 году Тим Бернерс-Ли принял участие в обсуждении семантической паутины , где было представлено, что интеллектуальные программные «агенты» могут однажды автоматически сканировать Интернет и находить, фильтровать и сопоставлять ранее не связанные, опубликованные факты для выгоды конечных пользователей. [4] Такие агенты не являются обычным явлением даже сейчас, но некоторые идеи Web 2.0 , мэшапов и веб-сайтов сравнения цен могут быть близки. Главное различие между этими гибридами веб-приложений и семантическими агентами Бернерса-Ли заключается в том, что текущая агрегация и гибридизация информации обычно проектируются веб-разработчиками, которые уже знают веб-местоположения и семантику API конкретных данных, которые они хотят мять, сравнивать и объединять.

Важным типом веб-агента, который автоматически сканирует и читает веб-страницы, не имея предварительного знания о том, что он может найти, является веб-краулер или паук поисковой системы. Эти программные агенты зависят от семантической ясности веб-страниц, которые они находят, поскольку они используют различные методы и алгоритмы для чтения и индексации миллионов веб-страниц в день и предоставляют веб-пользователям возможности поиска .

Для того чтобы поисковые роботы могли оценивать значимость фрагментов текста, которые они находят в документах HTML, а также для тех, кто создает мэшапы и другие гибриды, а также для более автоматизированных агентов по мере их разработки, семантические структуры, существующие в HTML, должны широко и единообразно применяться для выявления смысла опубликованной информации. [5]

В то время как истинная семантическая сеть может зависеть от сложных онтологий RDF и метаданных , каждый документ HTML вносит свой вклад в осмысленность Интернета посредством правильного использования заголовков, списков, названий и другой семантической разметки везде, где это возможно. Это «простое» использование HTML было названо «Обычным старым семантическим HTML» или POSH. [6] Правильное использование «тегов» Web 2.0 создает фолксономии , которые могут быть столь же или даже более значимыми для многих. [5] HTML 5 представил новые семантические элементы, такие как , , , , , , , и . [7] В целом, цель W3C — постепенно вводить больше способов для браузеров, разработчиков и сканеров, чтобы лучше различать различные типы данных, обеспечивая такие преимущества, как лучшее отображение в браузерах на разных устройствах. <section><article><footer><progress><nav><aside><mark><time>

Презентационные элементы формально не были объявлены устаревшими в рекомендациях HTML 4.01 и XHTML, но были рекомендованы против. В HTML 5 некоторые из этих элементов, такие как <i>и <b>, по-прежнему указаны, поскольку их значение было четко определено «как стилистически смещенное относительно обычной прозы без передачи какой-либо дополнительной важности». [8] [9]

Соображения

В случаях, когда документ требует более точной семантики, чем та, которая выражена только в HTML, фрагменты документа могут быть заключены в spanэлементы divс осмысленными именами классов [10], такими как <span class="author">и <div class="invoice">. Когда эти имена классов также являются идентификатором фрагмента в схеме или онтологии, они могут ссылаться на более определенное значение. Микроформаты формализуют этот подход к семантике в HTML.

Одним из важных ограничений этого подхода является то, что такая разметка, основанная на включении элементов, должна соответствовать условиям правильности. Поскольку эти документы в целом имеют древовидную структуру, это означает, что только сбалансированные фрагменты из поддерева могут быть размечены таким образом. [11] [12] Для разметки любого произвольного раздела HTML потребуется механизм, независимый от самой структуры разметки, такой как XPointer .

Хороший семантический HTML также улучшает доступность веб-документов (см. также Руководство по обеспечению доступности веб-контента ). [ необходима ссылка ] Например, когда программа чтения с экрана или аудиобраузер могут правильно определить структуру документа, они не будут тратить время пользователя с нарушениями зрения, зачитывая повторяющуюся или нерелевантную информацию, если она была размечена правильно.

Google "расширенные фрагменты"

В 2010 году Google указал три формы структурированных метаданных, которые их системы будут использовать для поиска структурированного семантического контента на веб-страницах. Такая информация, связанная с отзывами, профилями людей, списками предприятий и событиями, будет использоваться Google для улучшения «фрагмента» или короткого фрагмента цитируемого текста, который отображается, когда страница появляется в результатах поиска. Google указывает, что эти данные могут быть предоставлены с использованием микроданных , микроформатов или RDFa . [13] Микроданные указываются внутри itemtypeи itempropатрибуты добавляются к существующим элементам HTML; ключевые слова микроформата добавляются внутри classатрибутов, как обсуждалось выше; и RDFa опирается на rel, typeofи propertyатрибуты добавляются к существующим элементам. [14]

Смотрите также

Ссылки

  1. ^ Бернерс-Ли, Тим ; Фишетти, Марк (2000). Сплетение паутины: изначальный замысел и окончательная судьба Всемирной паутины ее изобретателем . Сан-Франциско: Harper. ISBN 978-0062515872.
  2. ^ Раггетт, Дэйв (24 апреля 2005 г.). «Начало работы с HTML». World Wide Web Consortium . Получено 8 декабря 2010 г.
  3. ^ Раггетт, Дэйв (8 апреля 2002 г.). «Добавляя штрих стиля». World Wide Web Consortium . Получено 8 декабря 2010 г.В статье отмечается, что презентационная HTML-разметка может быть полезна при работе с браузерами «до Netscape 4.0 и Internet Explorer 4.0 », которые оба были выпущены в 1997 году.
  4. ^ Бернерс-Ли, Тим; Хендлер, Джеймс; Лассила, Ора (2001). «Семантическая паутина». Scientific American . Получено 2009-10-02 .
  5. ^ ab Shadbolt, Nigel; Berners-Lee, Tim; Hall, Wendy (май–июнь 2006 г.). «The Semantic Web Revisited» (PDF) . IEEE Intelligent Systems . Получено 8 декабря 2010 г. .
  6. ^ "Plain Old Semantic HTML (POSH)". Microformats Wiki . Сообщество microformats. 20 апреля 2007 г. Получено 4 мая 2013 г.
  7. ^ Робинсон, Майк. «Давайте поговорим о семантике». HTML 5 Doctor . Получено 26 октября 2015 г.
  8. ^ "HTML5". Консорциум Всемирной паутины. Раздел 4.5.17: Элемент i.
  9. ^ "HTML5". Консорциум Всемирной паутины. Раздел 4.5.18: Элемент b.
  10. ^ Эти имена классов в лучшем случае носят предположительный характер, а не имеют формального смысла, если только они ранее не были совместно использованы как создателем, так и потребителем контента.
  11. ^ "Правильно сформированные XML-документы". Расширяемый язык разметки (XML) 1.1 . W3C .
  12. ^ «Важное понимание HTML» (на испанском языке). Бендев-младший.
  13. ^ "Rich snippets". Webmaster Central . Получено 26 мая 2010 г.
  14. ^ "Предприятия и организации - Информация об организации". Webmaster Central . Получено 26 мая 2010 г.

Внешние ссылки