stringtranslate.com

Машиночитаемые носители и данные

ISBN представлен в виде штрих-кода EAN-13, содержащего как штрихи, считываемые машиной, так и цифры, считываемые человеком.

В области коммуникаций и вычислительной техники машиночитаемый носитель (или компьютерно-читаемый носитель ) — это носитель , способный хранить данные в формате, легко считываемом цифровым компьютером или датчиком . Он контрастирует с человекочитаемым носителем и данными .

Результат называется машиночитаемыми данными или данными, считываемыми компьютером , а сами данные можно описать как имеющие машиночитаемость .

Данные

Машиночитаемые данные должны быть структурированными . [1]

Попытки создать машиночитаемые данные предпринимались еще в 1960-х годах. В то же время, когда появлялись основополагающие разработки в области машинного чтения и обработки естественного языка (например, ELIZA Вайценбаума ), люди предвкушали успех машиночитаемой функциональности и пытались создавать машиночитаемые документы. Одним из таких примеров было создание музыковедом Нэнси Б. Райх машиночитаемого каталога произведений композитора Уильяма Джея Сидемана в 1966 году.

В Соединенных Штатах Закон об открытых правительственных данных от 14 января 2019 года определяет машиночитаемые данные как «данные в формате, который может быть легко обработан компьютером без вмешательства человека, гарантируя при этом отсутствие потери семантического значения». Закон предписывает федеральным агентствам США публиковать публичные данные таким образом, [2] гарантируя, что «любой публичный информационный актив агентства является машиночитаемым». [3]

Машиночитаемые данные можно разделить на две группы: данные, читаемые человеком, которые размечены так, чтобы их могли читать и машины (например, микроформаты , RDFa , HTML ), и форматы файлов данных , предназначенные в основном для обработки машинами ( CSV , RDF , XML , JSON ). Эти форматы являются машиночитаемыми только в том случае, если содержащиеся в них данные формально структурированы; экспорт CSV-файла из плохо структурированной электронной таблицы не соответствует определению.

Машиночитаемый не является синонимом доступного в цифровом виде . Доступный в цифровом виде документ может быть онлайн, что упрощает доступ к нему людей через компьютеры, но его содержимое гораздо сложнее извлекать, преобразовывать и обрабатывать с помощью логики компьютерного программирования, если он не является машиночитаемым. [4]

Расширяемый язык разметки (XML) разработан для того, чтобы быть как читаемым человеком, так и машиной, а преобразование расширяемого языка таблиц стилей (XSLT) используется для улучшения представления данных для удобства чтения человеком. Например, XSLT может использоваться для автоматического отображения XML в формате Portable Document Format ( PDF ). Машиночитаемые данные могут быть автоматически преобразованы для удобства чтения человеком, но, как правило, обратное неверно.

В целях реализации Закона о модернизации эффективности и результатов деятельности правительства (GPRA) Управление по управлению и бюджету (OMB) определяет «машиночитаемый формат» следующим образом: «Формат на стандартном компьютерном языке (не английский текст), который может быть автоматически прочитан веб-браузером или компьютерной системой. (например, xml). Традиционные текстовые документы и файлы формата переносимых документов (PDF) легко читаются людьми, но обычно их трудно интерпретировать машинам. Другие форматы, такие как расширяемый язык разметки ( XML ), ( JSON ) или электронные таблицы со столбцами заголовков, которые можно экспортировать как значения, разделенные запятыми (CSV), являются машиночитаемыми форматами. Поскольку HTML является структурным языком разметки, осторожно маркирующим части документа, компьютеры могут собирать компоненты документа для составления оглавлений, планов, библиографий поиска литературы и т. д. Можно сделать традиционные текстовые документы и другие форматы машиночитаемыми, но документы должны включать улучшенные структурные элементы». [5]

СМИ

Примерами машиночитаемых носителей являются магнитные носители, такие как магнитные диски , карты, ленты и барабаны , перфокарты и бумажные ленты , оптические диски , штрих-коды и символы магнитных чернил .

Распространенные машиночитаемые технологии включают магнитную запись, обработку волновых форм и штрихкодов . Оптическое распознавание символов (OCR) может использоваться для того, чтобы машины могли считывать информацию, доступную людям. Любая информация, извлекаемая любой формой энергии, может быть машиночитаемой.

Вот несколько примеров:

Приложения

Документы

Машиночитаемый документ — это документ , содержимое которого может быть легко обработано компьютерами . Такие документы отличаются от более общих машиночитаемых данных тем, что имеют дополнительную структуру, обеспечивающую необходимый контекст для поддержки бизнес-процессов, для которых они созданы.

Каталоги

MARC (машиночитаемая каталогизация) — это стандартный набор цифровых форматов для машиночитаемого описания каталогизированных библиотеками объектов, таких как книги, DVD и цифровые ресурсы. Компьютеризированные библиотечные каталоги и программное обеспечение для управления библиотеками должны структурировать свои каталожные записи в соответствии с общеотраслевым стандартом, которым является MARC, чтобы библиографическая информация могла свободно передаваться между компьютерами. Структура библиографических записей почти повсеместно соответствует стандарту MARC. Другие стандарты работают совместно с MARC, например, Anglo-American Cataloguing Rules (AACR)/ Resource Description and Access (RDA) предоставляют рекомендации по формулированию библиографических данных в структуре записи MARC, в то время как International Standard Bibliographic Description (ISBD) предоставляет рекомендации по отображению записей MARC в стандартной, удобной для чтения человеком форме.

Словари

Машиночитаемый словарь (MRD) — это словарь, хранящийся в виде машиночитаемых данных, а не напечатанный на бумаге. Это электронный словарь и лексическая база данных .

Машиночитаемый словарь — это словарь в электронной форме, который можно загрузить в базу данных и запросить через прикладное программное обеспечение. Это может быть одноязычный толковый словарь или многоязычный словарь для поддержки переводов между двумя или более языками или их комбинацией. Программное обеспечение для перевода между несколькими языками обычно использует двунаправленные словари. MRD может быть словарем с фирменной структурой, запрос к которому осуществляется специализированным программным обеспечением (например, онлайн через Интернет), или это может быть словарь с открытой структурой, доступный для загрузки в компьютерные базы данных и, таким образом, может использоваться через различные программные приложения. Обычные словари содержат лемму с различными описаниями. Машиночитаемый словарь может иметь дополнительные возможности и поэтому иногда называется интеллектуальным словарем. Примером интеллектуального словаря является словарь английского языка с открытым исходным кодом Gellish .
Термин «словарь» также используется для обозначения электронного словаря или лексикона , например, в программах проверки орфографии . Если словари организованы в иерархию подтип-супертип концепций (или терминов), то это называется таксономией . Если она также содержит другие отношения между концепциями, то это называется онтологией . Поисковые системы могут использовать либо словарь, таксономию, либо онтологию для оптимизации результатов поиска. Специализированные электронные словари — это морфологические словари или синтаксические словари.

Термин MRD часто противопоставляется словарю NLP в том смысле, что MRD — это электронная форма словаря, который был напечатан ранее на бумаге. Хотя оба используются программами, термин словарь NLP предпочтительнее, когда словарь был создан с нуля с учетом NLP. Стандарт ISO для MRD и NLP может представлять обе структуры и называется Lexical Markup Framework . [6]

Паспорта

Машиносчитываемый паспорт (MRP) — это машиносчитываемый проездной документ (MRTD), данные на странице которого закодированы в формате оптического распознавания символов . Многие страны начали выдавать машиносчитываемые проездные документы в 1980-х годах. Большинство паспортов по всему миру являются MRP. Международная организация гражданской авиации (ИКАО) требует, чтобы все государства-члены ИКАО выдавали MRP только с 1 апреля 2010 года, а все паспорта, не являющиеся MRP, должны истекать к 24 ноября 2015 года. [7]

Машиносчитываемые паспорта стандартизированы документом ИКАО 9303 (одобренным Международной организацией по стандартизации и Международной электротехнической комиссией как ISO/IEC 7501-1) и имеют специальную машиносчитываемую зону ( MRZ ), которая обычно находится в нижней части страницы удостоверения личности в начале паспорта. В документе ИКАО 9303 описываются три типа документов, соответствующих размерам ISO/IEC 7810 :

  • «Тип 3» типичен для паспортных книжек. MRZ состоит из 2 строк × 44 знака.
  • «Тип 2» встречается сравнительно редко и состоит из 2 строк по 36 символов.
  • «Тип 1» — это символ размером с кредитную карту, состоящий из 3 строк по 30 символов.

Фиксированный формат позволяет указать тип документа, имя, номер документа, гражданство, дату рождения, пол и дату истечения срока действия документа. Все эти поля обязательны для заполнения в паспорте. Есть место для необязательной, часто зависящей от страны, дополнительной информации. Также есть два размера машиночитаемых виз, которые определяются аналогичным образом.

Компьютеры с камерой и соответствующим программным обеспечением могут напрямую считывать информацию с машиночитаемых паспортов. Это обеспечивает более быструю обработку прибывающих пассажиров иммиграционными служащими и большую точность, чем паспорта, считываемые вручную, а также более быстрый ввод данных, больше данных для считывания и лучшее сопоставление данных с иммиграционными базами данных и списками наблюдения.

Помимо оптически считываемой информации, многие паспорта содержат чип RFID , который позволяет компьютерам считывать больше информации, например, фотографию владельца. Такие паспорта называются биометрическими паспортами и также описываются в ICAO 9303.

Смотрите также

Ссылки

  1. ^ "Машиночитаемый". opendatahandbook.org . Получено 2019-07-22 .
  2. ^ "HR4174" .stratml.us .
  3. ^ "HR4174" .stratml.us .
  4. ^ Хендлер, Джим; Пардо, Тереза ​​А. (2012-09-24). «Учебник по машиночитаемости онлайн-документов и данных». Data.gov . Получено 2015-02-27 .
  5. ^ Циркуляр OMB A-11, часть 6 Архивировано 22.04.2020 на Wayback Machine , Подготовка, представление и исполнение бюджета
  6. ^ Джил Франкопуло (редактор) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9
  7. ^ «Последняя неделя для государств, чтобы обеспечить истечение срока действия немашиносчитываемых паспортов». ИКАО . Монреаль. 17 ноября 2015 г. Получено 11 марта 2024 г.

Общественное достояние В этой статье использованы материалы из общедоступного федерального стандарта 1037C. Администрация общих служб . Архивировано из оригинала 2022-01-22.