Машиночитаемый документ — это документ , содержимое которого может быть легко обработано компьютерами . Такие документы отличаются от более общих машиночитаемых данных тем, что имеют дополнительную структуру, обеспечивающую необходимый контекст для поддержки бизнес-процессов, для которых они созданы.
Данные без контекста бессмысленны и не обладают четырьмя основными характеристиками надежных деловых записей , указанными в стандарте ISO 15489 «Информация и документация. Управление записями» : [1]
Подавляющее большинство информации представляет собой неструктурированные данные , и с точки зрения бизнеса это означает, что они «незрелые», т. е. Уровень 1 (хаотичный) Модели зрелости возможностей . Такая незрелость способствует неэффективности, снижает качество и ограничивает эффективность. Неструктурированная информация также плохо подходит для функций управления записями , обеспечивает неадекватные доказательства для юридических целей, увеличивает стоимость раскрытия информации в судебных разбирательствах и делает доступ и использование неоправданно обременительными в рутинных текущих бизнес-процессах .
Существует по крайней мере четыре аспекта машиночитаемости:
Еще в 1983 году Счетная палата США (GAO) начала подчеркивать преимущества машиночитаемой информации. [2] Еще раньше, в 1981 году, GAO начала сообщать о проблеме неадекватной практики ведения записей в федеральном правительстве США . [3] Такие недостатки свойственны не только правительству, и достижения в области информационных технологий означают, что большая часть информации теперь «рождается цифровой» и, таким образом, потенциально гораздо легче управляется автоматизированными средствами. [4] Однако в своих показаниях Конгрессу в 2010 году GAO подчеркнула проблемы с управлением электронными записями, и совсем недавно, в 2015 году, GAO продолжала сообщать о недостатках в работе агентств исполнительной власти по выполнению требований к управлению записями. [5] [6] Более того, спустя более чем два десятилетия после того, как крупная и ранее весьма уважаемая аудиторская фирма Arthur Andersen потерпела крах из-за скандала с уничтожением записей, практика ведения записей стала центральным вопросом на президентских выборах 2016 года.
4 января 2011 года президент Обама подписал HR 2142, Закон о модернизации Закона о результатах и эффективности работы правительства (GPRA) 2010 года (GPRAMA), в качестве закона PL 111-352. Раздел 10 GPRAMA требует, чтобы федеральные агентства США публиковали свои стратегические и производственные планы и отчеты в формате, доступном для поиска и машинного считывания. [7] Кроме того, в 2013 году он издал Указ 13642, Делающий открытость и машинное считывание новым стандартом для правительственной информации в целом. [8] 28 июля 2016 года Управление по управлению и бюджету (OMB) продолжило, включив в пересмотренный выпуск циркуляра A-130 указание агентствам использовать открытые, машиночитаемые форматы, [9] и публиковать «публичную информацию в Интернете таким образом, чтобы способствовать анализу и повторному использованию для максимально широкого круга целей», [10] что означает, что информация является как общедоступной, так и машиночитаемой. 14 января 2019 года президент Трамп подписал закон HR 4174 [11] об открытых правительственных данных (OGDA), который законодательно закрепляет требование к агентствам предоставлять свои публичные данные в машиночитаемом формате. 28 июня 2019 года в циркуляре A-11 [12] OMB выразило намерение начать соблюдать раздел 10 GPRAMA. [13]
В поддержку такого направления политики технологический прогресс позволяет более эффективно и действенно управлять и использовать машиночитаемые электронные записи. Документоориентированные базы данных были разработаны для хранения, извлечения и управления документоориентированной информацией, также известной как полуструктурированные данные. Расширяемый язык разметки ( XML ) — это Рекомендация Консорциума Всемирной паутины ( W3C ) , устанавливающая правила кодирования документов в формате, который является как понятным человеку, так и машиночитаемым. Было разработано много инструментов для редактирования XML , и большинство, если не все основные приложения информационных технологий поддерживают XML в большей или меньшей степени. Тот факт, что сам XML является открытым, стандартным, машиночитаемым форматом, делает это относительно простым для разработчиков приложений.
Сопутствующая рекомендация W3C XML Schema ( XSD ) определяет, как формально описывать элементы в XML-документе. Что касается спецификации XML-схем, то ведущей организацией по разработке стандартов является Организация по развитию стандартов структурированной информации (OASIS) . Однако многие технические разработчики предпочитают работать с JSON , и для определения структуры данных JSON для проверки, документирования и управления взаимодействием была разработана JSON Schema [ сломанный якорь ] Инженерной группой Интернета (IETF).
Формат переносимого документа (PDF) — это формат файла, используемый для представления документов способом, независимым от прикладного программного обеспечения, оборудования и операционных систем. Каждый файл PDF инкапсулирует полное описание представления документа, включая текст, шрифты, графику и другую информацию, необходимую для его отображения. PDF/A — это стандартизированная по ISO версия PDF, специализированная для использования при архивировании и долгосрочном сохранении электронных документов. PDF/A-3 позволяет встраивать другие форматы файлов, включая XML , в документы, соответствующие формату PDF/A , таким образом потенциально обеспечивая наилучшее качество как для чтения человеком, так и для чтения машиной. Язык разметки W3C XSL-FO (XSL Formatting Objects) обычно используется для создания файлов PDF
Метаданные , данные о данных, могут использоваться для организации электронных ресурсов, обеспечения цифровой идентификации и поддержки архивирования и сохранения ресурсов. В хорошо структурированных, машиночитаемых электронных записях содержимое может быть повторно использовано как данные и метаданные. В контексте систем электронного ведения записей термины «управление» и «метаданные» фактически являются синонимами. При наличии надлежащих метаданных функции управления записями могут быть автоматизированы, тем самым снижая риск порчи доказательств и других мошеннических манипуляций с записями. Более того, такие записи могут использоваться для автоматизации процесса аудита данных, хранящихся в базах данных , тем самым снижая риск возникновения отдельных точек отказа, связанных с макиавеллистской концепцией единого источника истины .
Блокчейны позволяют создавать и поддерживать постоянно растущие списки записей, защищенных от подделки и пересмотра. Ключевой особенностью является то, что каждый узел в децентрализованной системе имеет копию блокчейна, поэтому нет единой точки отказа, подверженной манипуляциям и мошенничеству .