stringtranslate.com

Машиночитаемый носитель и данные

ISBN представлен в виде штрих-кода EAN-13 , отображающего как машиночитаемые полосы, так и человекочитаемые цифры.

В сфере связи и вычислений машиночитаемый носитель ( или машиночитаемый носитель ) — это носитель , способный хранить данные в формате, легко читаемом цифровым компьютером или датчиком . Он контрастирует с удобочитаемым носителем и данными .

Результат называется машиночитаемыми данными или машиночитаемыми данными , а сами данные можно описать как машиночитаемые .

Данные

Машиночитаемые данные должны быть структурированными . [1]

Попытки создания машиночитаемых данных предпринимались еще в 1960-х годах. В то время, когда появлялись плодотворные разработки в области машинного чтения и обработки естественного языка (например, ELIZA Вайценбаума ), люди ожидали успеха машиночитаемых функций и пытались создавать машиночитаемые документы. Одним из таких примеров было создание музыковедом Нэнси Б. Райх машиночитаемого каталога произведений композитора Уильяма Джея Сайдмана в 1966 году.

В Соединенных Штатах Закон об открытых правительственных данных от 14 января 2019 года определяет машиночитаемые данные как «данные в формате, который может быть легко обработан компьютером без вмешательства человека, при этом гарантируя, что не будет потеряно семантическое значение». Закон предписывает федеральным агентствам США публиковать общедоступные данные таким образом, [2] гарантируя, что «любые общедоступные данные агентства являются машиночитаемыми». [3]

Машиночитаемые данные можно разделить на две группы: читаемые человеком данные, размеченные так , чтобы их также могли читать машины (например, микроформаты , RDFa , HTML ), и форматы файлов данных , предназначенные главным образом для обработки машинами ( CSV , RDF , XML , JSON ). Эти форматы являются машиночитаемыми только в том случае, если содержащиеся в них данные формально структурированы; экспорт файла CSV из плохо структурированной электронной таблицы не соответствует этому определению.

Машиночитаемость не является синонимом доступности в цифровом формате . Документ, доступный в цифровом формате, может находиться в Интернете, что облегчает доступ людей через компьютеры, но его содержимое гораздо сложнее извлечь, преобразовать и обработать с помощью логики компьютерного программирования, если он не является машиночитаемым. [4]

Расширяемый язык разметки (XML) предназначен для чтения как человеком, так и машиной, а преобразование расширяемого языка таблиц стилей (XSLT) используется для улучшения представления данных для удобства чтения человеком. Например, XSLT можно использовать для автоматического отображения XML в формате переносимого документа ( PDF ). Машиночитаемые данные могут быть автоматически преобразованы для удобочитаемости человеком, но, вообще говоря, обратное неверно.

В целях реализации Закона о модернизации Закона о деятельности и результатах государственного управления (GPRA) Управление управления и бюджета (OMB) определяет «машиночитаемый формат» следующим образом: «Формат на стандартном компьютерном языке (не английском тексте), который может быть автоматически читаются веб-браузером или компьютерной системой (например, xml). Традиционные текстовые документы и файлы переносимого формата документов (PDF) легко читаются людьми, но обычно их трудно интерпретировать машинам. Другие форматы, такие как расширяемый язык разметки ( XML ), ( JSON ) или электронные таблицы со столбцами заголовков, которые можно экспортировать в виде значений, разделенных запятыми (CSV), являются машиночитаемыми форматами. Поскольку HTML является структурным языком разметки, незаметно маркирующим части документа, компьютеры могут собирать компоненты документа. для составления оглавлений, схем, библиографии для поиска литературы и т. д. Можно сделать традиционные текстовые документы и другие форматы машиночитаемыми, но документы должны включать расширенные структурные элементы». [5]

СМИ

Примеры машиночитаемых носителей включают магнитные носители, такие как магнитные диски , карты, ленты и барабаны , перфокарты и бумажные ленты , оптические диски , штрих-коды и символы магнитных чернил .

Распространенные машиночитаемые технологии включают магнитную запись, обработку сигналов и штрих-кодов . Оптическое распознавание символов (OCR) можно использовать, чтобы машины могли читать информацию, доступную людям. Любая информация, которую можно получить с помощью любой формы энергии, может быть машиночитаемой.

Примеры включают в себя:

Приложения

Документы

Машиночитаемый документ — это документ , содержимое которого может быть легко обработано компьютерами . Такие документы отличаются от более общих машиночитаемых данных наличием дополнительной структуры, обеспечивающей необходимый контекст для поддержки бизнес-процессов, для которых они созданы.

Каталоги

MARC (машиночитаемая каталогизация) — это стандартный набор цифровых форматов для машиночитаемого описания элементов, каталогизируемых библиотеками, таких как книги, DVD-диски и цифровые ресурсы. Компьютеризированные библиотечные каталоги и программное обеспечение для управления библиотеками должны структурировать свои каталожные записи в соответствии с общеотраслевым стандартом MARC, чтобы библиографическая информация могла свободно обмениваться между компьютерами. Структура библиографических записей почти всегда соответствует стандарту MARC. Другие стандарты работают совместно с MARC, например, Англо-американские правила каталогизации (AACR)/ Описание и доступ к ресурсам (RDA) содержат рекомендации по формулированию библиографических данных в структуре записей MARC, а Международный стандарт библиографического описания (ISBD) содержит рекомендации. для отображения записей MARC в стандартной, удобочитаемой форме.

Словари

Машиночитаемый словарь (MRD) — это словарь , который хранится в виде машиночитаемых данных, а не печатается на бумаге. Это электронный словарь и лексическая база данных .

Машиночитаемый словарь — это словарь в электронной форме, который можно загрузить в базу данных и запрашивать с помощью прикладного программного обеспечения. Это может быть толковый словарь для одного языка или многоязычный словарь для поддержки переводов между двумя или более языками или их комбинацией. Программное обеспечение для перевода между несколькими языками обычно использует двунаправленные словари. MRD может представлять собой словарь с собственной структурой, который запрашивается специальным программным обеспечением (например, онлайн через Интернет), или это может быть словарь с открытой структурой, доступный для загрузки в компьютерные базы данных и, таким образом, его можно использовать с помощью различного программного обеспечения. Приложения. Обычные словари содержат леммы с различными описаниями. Машиночитаемый словарь может иметь дополнительные возможности, поэтому его иногда называют интеллектуальным словарем. Примером умного словаря является словарь английского языка Gellish с открытым исходным кодом .
Термин словарь также используется для обозначения электронного словаря или словаря , который используется, например, в средствах проверки орфографии . Если словари организованы в иерархию понятий (или терминов) подтипов-супертипов, то это называется таксономией . Если она содержит и другие отношения между понятиями, то она называется онтологией . Поисковые системы могут использовать словарь, таксономию или онтологию для оптимизации результатов поиска. Специализированные электронные словари – это морфологические словари или синтаксические словари.

Термин MRD часто противопоставляется словарю НЛП в том смысле, что MRD — это электронная форма словаря, который раньше печатался на бумаге. Напротив, хотя оба термина используются программами, термин «словарь НЛП» предпочтительнее, когда словарь был создан с нуля с учетом НЛП. Стандарт ISO для MRD и NLP способен представлять обе структуры и называется Lexical Markup Framework . [6]

Паспорта

Машиносчитываемый паспорт ( MRP) — это машиносчитываемый проездной документ (МСПД), данные на странице удостоверения личности которого закодированы в формате оптического распознавания символов . Многие страны начали выдавать машиносчитываемые проездные документы в 1980-х годах. Большинство загранпаспортов по всему миру являются MRP. Международная организация гражданской авиации (ИКАО) требует, чтобы все государства-члены ИКАО выдавали MRP только с 1 апреля 2010 г., а срок действия всех паспортов, не относящихся к MRP, должен истекать до 24 ноября 2015 г. [7]

Машиночитаемые паспорта стандартизированы Документом ИКАО 9303 (одобренным Международной организацией по стандартизации и Международной электротехнической комиссией как ISO/IEC 7501-1) и имеют специальную машиночитаемую зону ( MRZ ), которая обычно находится внизу. страницы удостоверения личности в начале паспорта. ICAO 9303 описывает три типа документов, соответствующих размерам ISO/IEC 7810 :

  • «Тип 3» характерен для паспортных буклетов. МСЗ состоит из 2 строк по 44 символа.
  • «Тип 2» встречается относительно редко: 2 строки по 36 символов.
  • «Тип 1» имеет размер кредитной карты и состоит из 3 строк по 30 символов.

Фиксированный формат позволяет указать тип документа, имя, номер документа, гражданство, дату рождения, пол и дату истечения срока действия документа. Все эти поля обязательны для заполнения в паспорте. Существует место для дополнительной информации, часто зависящей от страны. Существуют также два размера машиносчитываемых виз, которые определяются аналогичным образом.

Компьютеры с камерой и подходящим программным обеспечением могут напрямую считывать информацию в машиночитаемых паспортах. Это обеспечивает более быструю обработку прибывающих пассажиров сотрудниками иммиграционной службы и большую точность, чем паспорта, считываемые вручную, а также более быстрый ввод данных, больше данных для считывания и лучшее сопоставление данных с иммиграционными базами данных и списками наблюдения.

Помимо оптически считываемой информации, многие паспорта содержат чип RFID , который позволяет компьютерам считывать больший объем информации, например фотографию предъявителя. Эти паспорта называются биометрическими паспортами и также описаны в стандарте ICAO 9303.

Смотрите также

Рекомендации

  1. ^ «Машиночитаемый». opendatahandbook.org . Проверено 22 июля 2019 г.
  2. ^ "HR4174". stratml.us .
  3. ^ "HR4174". stratml.us .
  4. ^ Хендлер, Джим; Пардо, Тереза ​​А. (24 сентября 2012 г.). «Букварь по машиночитаемости онлайн-документов и данных». Data.gov.ru. ​Проверено 27 февраля 2015 г.
  5. ^ Циркуляр OMB A-11, Часть 6. Архивировано 22 апреля 2020 г. в Wayback Machine , Подготовка, представление и исполнение бюджета.
  6. ^ Гил Франкопуло (под редакцией) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9
  7. ^ «На прошлой неделе штаты обеспечили истечение срока действия немашиносчитываемых паспортов» . ИКАО . Монреаль. 17 ноября 2015 года . Проверено 11 марта 2024 г.

Всеобщее достояние Эта статья включает общедоступные материалы из Федерального стандарта 1037C. Управление общего обслуживания . Архивировано из оригинала 22 января 2022 г.