stringtranslate.com

Машиночитаемый документ

Машиночитаемый документ — это документ , содержимое которого может быть легко обработано компьютерами . Такие документы отличаются от более общих машиночитаемых данных тем, что имеют дополнительную структуру, обеспечивающую необходимый контекст для поддержки бизнес-процессов, для которых они созданы.

Определение

Данные без контекста бессмысленны и не обладают четырьмя основными характеристиками надежных деловых записей , указанными в стандарте ISO 15489 «Информация и документация. Управление записями» : [1]

Подавляющее большинство информации представляет собой неструктурированные данные , и с точки зрения бизнеса это означает, что они «незрелые», т. е. Уровень 1 (хаотичный) Модели зрелости возможностей . Такая незрелость способствует неэффективности, снижает качество и ограничивает эффективность. Неструктурированная информация также плохо подходит для функций управления записями , обеспечивает неадекватные доказательства для юридических целей, увеличивает стоимость раскрытия информации в судебных разбирательствах и делает доступ и использование неоправданно обременительными в рутинных текущих бизнес-процессах .

Существует по крайней мере четыре аспекта машиночитаемости:

Еще в 1983 году Счетная палата США (GAO) начала подчеркивать преимущества машиночитаемой информации. [2] Еще раньше, в 1981 году, GAO начала сообщать о проблеме неадекватной практики ведения записей в федеральном правительстве США . [3] Такие недостатки свойственны не только правительству, и достижения в области информационных технологий означают, что большая часть информации теперь «рождается цифровой» и, таким образом, потенциально гораздо легче управляется автоматизированными средствами. [4] Однако в своих показаниях Конгрессу в 2010 году GAO подчеркнула проблемы с управлением электронными записями, и совсем недавно, в 2015 году, GAO продолжала сообщать о недостатках в работе агентств исполнительной власти по выполнению требований к управлению записями. [5] [6] Более того, спустя более чем два десятилетия после того, как крупная и ранее весьма уважаемая аудиторская фирма Arthur Andersen потерпела крах из-за скандала с уничтожением записей, практика ведения записей стала центральным вопросом на президентских выборах 2016 года.

4 января 2011 года президент Обама подписал HR 2142, Закон о модернизации Закона о результатах и ​​эффективности работы правительства (GPRA) 2010 года (GPRAMA), в качестве закона PL 111-352. Раздел 10 GPRAMA требует, чтобы федеральные агентства США публиковали свои стратегические и производственные планы и отчеты в формате, доступном для поиска и машинного считывания. [7] Кроме того, в 2013 году он издал Указ 13642, Делающий открытость и машинное считывание новым стандартом для правительственной информации в целом. [8] 28 июля 2016 года Управление по управлению и бюджету (OMB) продолжило, включив в пересмотренный выпуск циркуляра A-130 указание агентствам использовать открытые, машиночитаемые форматы, [9] и публиковать «публичную информацию в Интернете таким образом, чтобы способствовать анализу и повторному использованию для максимально широкого круга целей», [10] что означает, что информация является как общедоступной, так и машиночитаемой. 14 января 2019 года президент Трамп подписал закон HR 4174 [11] об открытых правительственных данных (OGDA), который законодательно закрепляет требование к агентствам предоставлять свои публичные данные в машиночитаемом формате. 28 июня 2019 года в циркуляре A-11 [12] OMB выразило намерение начать соблюдать раздел 10 GPRAMA. [13]

В поддержку такого направления политики технологический прогресс позволяет более эффективно и действенно управлять и использовать машиночитаемые электронные записи. Документоориентированные базы данных были разработаны для хранения, извлечения и управления документоориентированной информацией, также известной как полуструктурированные данные. Расширяемый язык разметки ( XML ) — это Рекомендация Консорциума Всемирной паутины ( W3C ) , устанавливающая правила кодирования документов в формате, который является как понятным человеку, так и машиночитаемым. Было разработано много инструментов для редактирования XML , и большинство, если не все основные приложения информационных технологий поддерживают XML в большей или меньшей степени. Тот факт, что сам XML является открытым, стандартным, машиночитаемым форматом, делает это относительно простым для разработчиков приложений.

Сопутствующая рекомендация W3C XML Schema ( XSD ) определяет, как формально описывать элементы в XML-документе. Что касается спецификации XML-схем, то ведущей организацией по разработке стандартов является Организация по развитию стандартов структурированной информации (OASIS) . Однако многие технические разработчики предпочитают работать с JSON , и для определения структуры данных JSON для проверки, документирования и управления взаимодействием была разработана JSON Schema [ сломанный якорь ] Инженерной группой Интернета (IETF).

Формат переносимого документа (PDF) — это формат файла, используемый для представления документов способом, независимым от прикладного программного обеспечения, оборудования и операционных систем. Каждый файл PDF инкапсулирует полное описание представления документа, включая текст, шрифты, графику и другую информацию, необходимую для его отображения. PDF/A — это стандартизированная по ISO версия PDF, специализированная для использования при архивировании и долгосрочном сохранении электронных документов. PDF/A-3 позволяет встраивать другие форматы файлов, включая XML , в документы, соответствующие формату PDF/A , таким образом потенциально обеспечивая наилучшее качество как для чтения человеком, так и для чтения машиной. Язык разметки W3C XSL-FO (XSL Formatting Objects) обычно используется для создания файлов PDF

Метаданные , данные о данных, могут использоваться для организации электронных ресурсов, обеспечения цифровой идентификации и поддержки архивирования и сохранения ресурсов. В хорошо структурированных, машиночитаемых электронных записях содержимое может быть повторно использовано как данные и метаданные. В контексте систем электронного ведения записей термины «управление» и «метаданные» фактически являются синонимами. При наличии надлежащих метаданных функции управления записями могут быть автоматизированы, тем самым снижая риск порчи доказательств и других мошеннических манипуляций с записями. Более того, такие записи могут использоваться для автоматизации процесса аудита данных, хранящихся в базах данных , тем самым снижая риск возникновения отдельных точек отказа, связанных с макиавеллистской концепцией единого источника истины .

Блокчейны позволяют создавать и поддерживать постоянно растущие списки записей, защищенных от подделки и пересмотра. Ключевой особенностью является то, что каждый узел в децентрализованной системе имеет копию блокчейна, поэтому нет единой точки отказа, подверженной манипуляциям и мошенничеству .

Смотрите также

Ссылки

  1. ^ "Руководство NARA по управлению веб-записями". Национальный архив . 15 августа 2016 г.
  2. ^ «Лучшее использование информационных технологий может уменьшить бремя федеральной бумажной работы» (PDF) . gao.gov . 1983-04-11 . Получено 2019-07-25 .
  3. ^ "УПРАВЛЕНИЕ ФЕДЕРАЛЬНЫМИ ЗАПИСЯМИ: История пренебрежения". gao.gov . 1981-02-24 . Получено 2016-09-08 .
  4. ^ «Определение «рожденных цифровыми»: эссе Рики Эрвея, OCLC Research» (PDF) . oclc.org . 2010-11-30 . Получено 2016-09-08 .
  5. ^ «УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ: Проблемы управления электронными записями, заявление Валери С. Мелвин, директора по управлению информацией и вопросам человеческого капитала» (PDF) . gao.gov . 2010-06-17 . Получено 2016-09-08 .
  6. ^ «УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ: необходимы дополнительные действия для выполнения требований Директивы об управлении государственными записями». gao.gov . 2015-05-14 . Получено 2016-09-08 .
  7. ^ "GPRAMA SEC. 10. ФОРМАТ ПЛАНОВ И ОТЧЕТОВ ПО ЭФФЕКТИВНОСТИ". congress.gov . 2011-01-04. Архивировано из оригинала 2016-04-13 . Получено 2016-09-08 .
  8. ^ «Исполнительный указ 13642 в открытом, стандартном, машиночитаемом формате Strategy Markup Language». whitehouse.gov . 2013-05-09. Архивировано из оригинала 2016-03-03 . Получено 2016-09-08 .
  9. ^ «Циркуляр стратегического плана № A-130, Управление информацией как стратегическим ресурсом, Цель d.5.a: Взаимодействие, API и машиночитаемость».
  10. ^ «Циркуляр стратегического плана № A-130, Управление информацией как стратегическим ресурсом, Цель e.2.a: Публикация».
  11. ^ Райан, Пол Д. (14 января 2019 г.). «Текст — HR4174 — 115-й Конгресс (2017–2018 гг.): Закон 2018 года об основах разработки политики на основе фактических данных». www.congress.gov .
  12. ^ «ПОДГОТОВКА, ПРЕДСТАВЛЕНИЕ И ИСПОЛНЕНИЕ БЮДЖЕТА» (PDF) . whitehouse.gov . 2019-06-28 . Получено 2019-07-25 .
  13. ^ «Циркуляр стратегического плана № A-130, Управление информацией как стратегическим ресурсом, Объективная машиночитаемость».

Внешние ссылки