stringtranslate.com

Сравнение HTML-парсеров

HTML-парсеры — это программное обеспечение для автоматизированного анализа языка гипертекстовой разметки (HTML) . Они имеют две основные цели:

* Дата последнего выпуска (значительных изменений).
** санация (создание веб-страниц, совместимых со стандартами, сокращение спама и т. д.) и очистка (удаление лишних презентационных тегов, удаление XSS-кода и т. д.) HTML-кода.
*** Обновляет HTML4.X до XHTML или HTML5, преобразуя устаревшие теги (например, CENTER) в допустимые (например, DIV с style="text-align:center;").

Ссылки

  1. ^ 12.2 Анализ HTML-документов — стандарт HTML. Архивировано 16 января 2013 г. на Wayback Machine.
  2. ^ HTML Tidy версия 5.8.0
  3. ^ ab Что такое Tidy?
  4. ^ HTMLUnit 3.7.0
  5. ^ Beautiful Soup релиз 4.10
  6. ^ jsoup Java HTML Parser, выпуск 1.18.1