HTML-парсеры — это программное обеспечение для автоматизированного анализа языка гипертекстовой разметки (HTML) . Они имеют две основные цели:
- Обход HTML: предоставить программистам интерфейс для легкого доступа и изменения "кода строки HTML". Канонический пример: парсеры DOM .
- HTML clean: для исправления недопустимого HTML и улучшения макета и стиля отступов полученной разметки. Канонический пример: HTML Tidy .
- * Дата последнего выпуска (значительных изменений).
- ** санация (создание веб-страниц, совместимых со стандартами, сокращение спама и т. д.) и очистка (удаление лишних презентационных тегов, удаление XSS-кода и т. д.) HTML-кода.
- *** Обновляет HTML4.X до XHTML или HTML5, преобразуя устаревшие теги (например, CENTER) в допустимые (например, DIV с
style="text-align:center;"
).
Ссылки
- ^ 12.2 Анализ HTML-документов — стандарт HTML. Архивировано 16 января 2013 г. на Wayback Machine.
- ^ HTML Tidy версия 5.8.0
- ^ ab Что такое Tidy?
- ^ HTMLUnit 3.7.0
- ^ Beautiful Soup релиз 4.10
- ^ jsoup Java HTML Parser, выпуск 1.18.1