Неструктурированные данные (или неструктурированная информация ) — это информация, которая либо не имеет заранее определенной модели данных , либо не организована заранее определенным образом. Неструктурированная информация обычно содержит много текста , но может также содержать такие данные, как даты, числа и факты. Это приводит к неточностям и двусмысленностям , которые затрудняют понимание использования традиционных программ по сравнению с данными, хранящимися в виде полей в базах данных или аннотированными ( семантически помеченными ) в документах.
В 1998 году компания Merrill Lynch заявила, что «неструктурированные данные составляют подавляющее большинство данных, имеющихся в организации; по некоторым оценкам, их доля достигает 80%». [1] Неясно, каков источник этой цифры, но, тем не менее, некоторые ее принимают. [2] Другие источники сообщают об аналогичном или более высоком проценте неструктурированных данных. [3] [4] [5]
По данным IDC и Dell EMC[обновлять] на 2012 год , объем данных вырастет до 40 зеттабайт к 2020 году, что приведет к 50-кратному росту с начала 2010 года. [6] Совсем недавно IDC и Seagate прогнозируют, что глобальная сфера данных вырастет до 163. зеттабайт к 2025 году [7] , и большая часть из них будет неструктурированной. Журнал Computer World утверждает, что неструктурированная информация может составлять более 70–80% всех данных в организациях. [1]
Самые ранние исследования бизнес-аналитики были сосредоточены на неструктурированных текстовых данных, а не на числовых данных. [8] Еще в 1958 году исследователи информатики , такие как HP Luhn , были особенно озабочены извлечением и классификацией неструктурированного текста. [8] Однако только на рубеже веков технология привлекла исследовательский интерес. В 2004 году Институт SAS разработал программу SAS Text Miner, которая использует разложение по сингулярным значениям (SVD) для уменьшения гипермерного текстового пространства до меньших размеров для значительно более эффективного машинного анализа. [9] Математические и технологические достижения, вызванные машинным анализом текста, побудили ряд предприятий к исследованию приложений, что привело к развитию таких областей, как анализ настроений , анализ голоса клиента и оптимизация колл-центра. [10] Появление больших данных в конце 2000-х годов привело к повышенному интересу к приложениям анализа неструктурированных данных в современных областях, таких как прогнозная аналитика и анализ первопричин . [11]
Этот термин неточен по нескольким причинам:
Такие методы, как интеллектуальный анализ данных , обработка естественного языка (НЛП) и текстовый анализ , предоставляют различные методы для поиска закономерностей или иной интерпретации этой информации. Распространенные методы структурирования текста обычно включают в себя ручную разметку метаданных или разметку частей речи для дальнейшего структурирования текста на основе интеллектуального анализа. Стандарт неструктурированной архитектуры управления информацией (UIMA) предоставил общую структуру для обработки этой информации для извлечения смысла и создания структурированных данных об информации.
Программное обеспечение, создающее машинно-обрабатываемую структуру, может использовать лингвистическую, слуховую и визуальную структуру, которая существует во всех формах человеческого общения. [12] Алгоритмы могут вывести эту внутреннюю структуру из текста, например, путем изучения морфологии слов , синтаксиса предложений и других мелких и крупных закономерностей. Неструктурированную информацию затем можно обогатить и пометить для устранения двусмысленностей, а затем использовать методы, основанные на релевантности, для облегчения поиска и обнаружения. Примеры «неструктурированных данных» могут включать книги, журналы, документы, метаданные , медицинские записи , аудио , видео , аналоговые данные , изображения, файлы и неструктурированный текст, такой как тело сообщения электронной почты , веб-страница или текстовый файл. документ процессора . Хотя основной передаваемый контент не имеет определенной структуры, он обычно упакован в объекты (например, в файлы или документы...), которые сами по себе имеют структуру и, таким образом, представляют собой смесь структурированных и неструктурированных данных, но в совокупности это все равно называемые «неструктурированные данные». [13] Например, веб-страница HTML имеет теги, но разметка HTML обычно служит исключительно для рендеринга. Он не отражает значение или функцию помеченных элементов способами, поддерживающими автоматическую обработку информационного содержимого страницы. Теги XHTML позволяют машинную обработку элементов, хотя обычно они не фиксируют и не передают семантическое значение тегированных терминов.
Поскольку в электронных документах обычно встречаются неструктурированные данные , использование системы управления контентом или документами , которая может категоризировать целые документы, часто предпочтительнее, чем передача данных и манипулирование ими изнутри документов. Управление документами, таким образом, предоставляет средства для передачи структуры коллекциям документов .
Поисковые системы стали популярными инструментами для индексирования и поиска таких данных, особенно текста.
Были разработаны специальные вычислительные рабочие процессы, позволяющие структурировать неструктурированные данные, содержащиеся в текстовых документах. Эти рабочие процессы обычно предназначены для обработки наборов из тысяч или даже миллионов документов, или гораздо большего, чем могут позволить ручные подходы к аннотированию. Некоторые из этих подходов основаны на концепции онлайн-аналитической обработки (OLAP ) и могут поддерживаться такими моделями данных, как текстовые кубы. [14] Как только метаданные документа становятся доступными через модель данных, генерация сводных данных подмножеств документов (т. е. ячеек в текстовом кубе) может выполняться с использованием подходов, основанных на фразах. [15]
Биомедицинские исследования являются одним из основных источников неструктурированных данных, поскольку исследователи часто публикуют свои результаты в научных журналах. Хотя из языка этих документов сложно извлечь структурные элементы (например, из-за сложного технического словаря, содержащегося в них, и знаний предметной области , необходимых для полной контекстуализации наблюдений), результаты этой деятельности могут привести к связям между техническими и медицинскими исследованиями [16]. ] и подсказки относительно новых методов лечения заболеваний. [17] Недавние усилия по обеспечению структуры биомедицинских документов включают подходы самоорганизующихся карт для определения тем среди документов, [18] неконтролируемые алгоритмы общего назначения , [19] и применение рабочего процесса CaseOLAP [15] для определения ассоциаций между белками. названия и темы сердечно-сосудистых заболеваний в литературе. [20] CaseOLAP определяет отношения фраза-категория точным (определяет отношения), последовательным (высоко воспроизводимым) и эффективным способом. Эта платформа обеспечивает расширенную доступность и расширяет возможности биомедицинского сообщества с помощью инструментов анализа фраз для широко распространенных приложений биомедицинских исследований. [20]
В Швеции (ЕС) до 2018 года некоторые правила конфиденциальности данных не применялись, если рассматриваемые данные были подтверждены как «неструктурированные». [21] Термин «неструктурированные данные» редко используется в ЕС после вступления в силу GDPR в 2018 году. GDPR не упоминает и не определяет «неструктурированные данные». Слово «структурированный» используется следующим образом (без его определения);
Прецедентное право GDPR по определению «системы подачи документов»; «Конкретный критерий и конкретная форма, в которой фактически структурирован набор личных данных, собранных каждым из членов, занимающихся проповедью, не имеют значения, пока этот набор данных позволяет получить данные, относящиеся к конкретному человеку, который с которым связались, чтобы его можно было легко найти , что, однако, должен выяснить передающий суд с учетом всех обстоятельств дела в рамках основного разбирательства». ( СЕС , Тодистажат против Тиетосуоявалтуутетту, Иегован, параграф 61).
Если персональные данные легко получить, то это файловая система, и тогда они подпадают под действие GDPR, независимо от того, являются ли они «структурированными» или «неструктурированными». Большинство электронных систем сегодня [ по состоянию на? ] при наличии доступа и прикладного программного обеспечения может обеспечить легкий поиск данных.