Неструктурированные данные

Неструктурированные данные (или неструктурированная информация ) — это информация, которая либо не имеет заранее определенной модели данных , либо не организована заранее определенным образом. Неструктурированная информация обычно содержит много текста , но может также содержать такие данные, как даты, числа и факты. Это приводит к неточностям и двусмысленностям , которые затрудняют понимание использования традиционных программ по сравнению с данными, хранящимися в виде полей в базах данных или аннотированными ( семантически помеченными ) в документах.

В 1998 году компания Merrill Lynch заявила, что «неструктурированные данные составляют подавляющее большинство данных, имеющихся в организации; по некоторым оценкам, их доля достигает 80%». ^[1] Неясно, каков источник этой цифры, но, тем не менее, некоторые ее принимают. ^[2] Другие источники сообщают об аналогичном или более высоком проценте неструктурированных данных. ^[3]^[4]^[5]

По данным IDC и Dell EMC^{[обновлять]} на 2012 год , объем данных вырастет до 40 зеттабайт к 2020 году, что приведет к 50-кратному росту с начала 2010 года. ^[6] Совсем недавно IDC и Seagate прогнозируют, что глобальная сфера данных вырастет до 163. зеттабайт к 2025 году ^[7] , и большая часть из них будет неструктурированной. Журнал Computer World утверждает, что неструктурированная информация может составлять более 70–80% всех данных в организациях. ^[1]

Фон

Самые ранние исследования бизнес-аналитики были сосредоточены на неструктурированных текстовых данных, а не на числовых данных. ^[8] Еще в 1958 году исследователи информатики , такие как HP Luhn , были особенно озабочены извлечением и классификацией неструктурированного текста. ^[8] Однако только на рубеже веков технология привлекла исследовательский интерес. В 2004 году Институт SAS разработал программу SAS Text Miner, которая использует разложение по сингулярным значениям (SVD) для уменьшения гипермерного текстового пространства до меньших размеров для значительно более эффективного машинного анализа. ^[9] Математические и технологические достижения, вызванные машинным анализом текста, побудили ряд предприятий к исследованию приложений, что привело к развитию таких областей, как анализ настроений , анализ голоса клиента и оптимизация колл-центра. ^[10] Появление больших данных в конце 2000-х годов привело к повышенному интересу к приложениям анализа неструктурированных данных в современных областях, таких как прогнозная аналитика и анализ первопричин . ^[11]

Проблемы с терминологией

Этот термин неточен по нескольким причинам:

Структура , хотя и не определена формально, все же может подразумеваться.
Данные с той или иной структурой все же могут быть охарактеризованы как неструктурированные, если их структура не подходит для текущей задачи обработки.
Неструктурированная информация может иметь некоторую структуру ( полуструктурированную ) или даже быть высокоструктурированной, но непредвиденным или необъявленным образом.

Работа с неструктурированными данными

Такие методы, как интеллектуальный анализ данных , обработка естественного языка (НЛП) и текстовый анализ , предоставляют различные методы для поиска закономерностей или иной интерпретации этой информации. Распространенные методы структурирования текста обычно включают в себя ручную разметку метаданных или разметку частей речи для дальнейшего структурирования текста на основе интеллектуального анализа. Стандарт неструктурированной архитектуры управления информацией (UIMA) предоставил общую структуру для обработки этой информации для извлечения смысла и создания структурированных данных об информации.

Программное обеспечение, создающее машинно-обрабатываемую структуру, может использовать лингвистическую, слуховую и визуальную структуру, которая существует во всех формах человеческого общения. ^[12] Алгоритмы могут вывести эту внутреннюю структуру из текста, например, путем изучения морфологии слов , синтаксиса предложений и других мелких и крупных закономерностей. Неструктурированную информацию затем можно обогатить и пометить для устранения двусмысленностей, а затем использовать методы, основанные на релевантности, для облегчения поиска и обнаружения. Примеры «неструктурированных данных» могут включать книги, журналы, документы, метаданные , медицинские записи , аудио , видео , аналоговые данные , изображения, файлы и неструктурированный текст, такой как тело сообщения электронной почты , веб-страница или текстовый файл. документ процессора . Хотя основной передаваемый контент не имеет определенной структуры, он обычно упакован в объекты (например, в файлы или документы...), которые сами по себе имеют структуру и, таким образом, представляют собой смесь структурированных и неструктурированных данных, но в совокупности это все равно называемые «неструктурированные данные». ^[13] Например, веб-страница HTML имеет теги, но разметка HTML обычно служит исключительно для рендеринга. Он не отражает значение или функцию помеченных элементов способами, поддерживающими автоматическую обработку информационного содержимого страницы. Теги XHTML позволяют машинную обработку элементов, хотя обычно они не фиксируют и не передают семантическое значение тегированных терминов.

Поскольку в электронных документах обычно встречаются неструктурированные данные , использование системы управления контентом или документами , которая может категоризировать целые документы, часто предпочтительнее, чем передача данных и манипулирование ими изнутри документов. Управление документами, таким образом, предоставляет средства для передачи структуры коллекциям документов .

Поисковые системы стали популярными инструментами для индексирования и поиска таких данных, особенно текста.

Подходы к обработке естественного языка

Были разработаны специальные вычислительные рабочие процессы, позволяющие структурировать неструктурированные данные, содержащиеся в текстовых документах. Эти рабочие процессы обычно предназначены для обработки наборов из тысяч или даже миллионов документов, или гораздо большего, чем могут позволить ручные подходы к аннотированию. Некоторые из этих подходов основаны на концепции онлайн-аналитической обработки (OLAP ) и могут поддерживаться такими моделями данных, как текстовые кубы. ^[14] Как только метаданные документа становятся доступными через модель данных, генерация сводных данных подмножеств документов (т. е. ячеек в текстовом кубе) может выполняться с использованием подходов, основанных на фразах. ^[15]

Подходы в медицине и биомедицинских исследованиях

Биомедицинские исследования являются одним из основных источников неструктурированных данных, поскольку исследователи часто публикуют свои результаты в научных журналах. Хотя из языка этих документов сложно извлечь структурные элементы (например, из-за сложного технического словаря, содержащегося в них, и знаний предметной области , необходимых для полной контекстуализации наблюдений), результаты этой деятельности могут привести к связям между техническими и медицинскими исследованиями ^{[16]. ]} и подсказки относительно новых методов лечения заболеваний. ^[17] Недавние усилия по обеспечению структуры биомедицинских документов включают подходы самоорганизующихся карт для определения тем среди документов, ^[18]неконтролируемые алгоритмы общего назначения , ^[19] и применение рабочего процесса CaseOLAP ^[15] для определения ассоциаций между белками. названия и темы сердечно-сосудистых заболеваний в литературе. ^[20] CaseOLAP определяет отношения фраза-категория точным (определяет отношения), последовательным (высоко воспроизводимым) и эффективным способом. Эта платформа обеспечивает расширенную доступность и расширяет возможности биомедицинского сообщества с помощью инструментов анализа фраз для широко распространенных приложений биомедицинских исследований. ^[20]

Использование слова «неструктурированный» в правилах конфиденциальности данных

В Швеции (ЕС) до 2018 года некоторые правила конфиденциальности данных не применялись, если рассматриваемые данные были подтверждены как «неструктурированные». ^[21] Термин «неструктурированные данные» редко используется в ЕС после вступления в силу GDPR в 2018 году. GDPR не упоминает и не определяет «неструктурированные данные». Слово «структурированный» используется следующим образом (без его определения);

Части GDPR Recital 15: «Защита физических лиц должна применяться к обработке персональных данных... если... они содержатся в файловой системе».
Статья 4 GDPR: «Файловая система означает любой структурированный набор персональных данных, доступ к которым осуществляется в соответствии с определенными критериями…»

Прецедентное право GDPR по определению «системы подачи документов»; «Конкретный критерий и конкретная форма, в которой фактически структурирован набор личных данных, собранных каждым из членов, занимающихся проповедью, не имеют значения, пока этот набор данных позволяет получить данные, относящиеся к конкретному человеку, который с которым связались, чтобы его можно было легко найти , что, однако, должен выяснить передающий суд с учетом всех обстоятельств дела в рамках основного разбирательства». ( СЕС , Тодистажат против Тиетосуоявалтуутетту, Иегован, параграф 61).

Если персональные данные легко получить, то это файловая система, и тогда они подпадают под действие GDPR, независимо от того, являются ли они «структурированными» или «неструктурированными». Большинство электронных систем сегодня ^{[ по состоянию на? ]} при наличии доступа и прикладного программного обеспечения может обеспечить легкий поиск данных.

Смотрите также

Примечания

^ Сегодняшняя проблема в правительстве: что делать с неструктурированной информацией и почему ничего не делать — это не вариант, Ноэль Юханна, главный аналитик, Forrester Research , ноябрь 2010 г.

Внешние ссылки

Сопоставление неструктурированных и структурированных данных
краткое описание структурированных данных
Определение неструктурированных данных, примеры, преимущества и проблемы