Неструктурированные данные (или неструктурированная информация ) — это информация, которая либо не имеет предопределенной модели данных , либо не организована предопределенным образом. Неструктурированная информация обычно перегружена текстом , но может содержать такие данные, как даты, числа и факты. Это приводит к нерегулярностям и двусмысленностям , которые затрудняют понимание с помощью традиционных программ по сравнению с данными, хранящимися в полевой форме в базах данных или аннотированными ( семантически помеченными ) в документах.
В 1998 году Merrill Lynch заявила, что «неструктурированные данные составляют подавляющее большинство данных, обнаруженных в организации, по некоторым оценкам, до 80%». [1] Неясно, каков источник этой цифры, но, тем не менее, некоторые ее принимают. [2] Другие источники сообщают о схожем или более высоком проценте неструктурированных данных. [3] [4] [5]
По прогнозам IDC и Dell EMC на 2012 год [обновлять], объем данных к 2020 году вырастет до 40 зеттабайт , что приведет к 50-кратному росту с начала 2010 года. [6] Совсем недавно IDC и Seagate предсказали, что глобальная сфера данных вырастет до 163 зеттабайт к 2025 году [7] , и большая ее часть будет неструктурированной. Журнал Computer World утверждает, что неструктурированная информация может составлять более 70–80% всех данных в организациях. [1]
Самые ранние исследования в области бизнес-аналитики были сосредоточены на неструктурированных текстовых данных, а не на числовых данных. [8] Еще в 1958 году исследователи в области компьютерных наук, такие как HP Luhn, были особенно озабочены извлечением и классификацией неструктурированного текста. [8] Однако только с начала века технология догнала исследовательский интерес. В 2004 году Институт SAS разработал SAS Text Miner, который использует разложение сингулярных значений (SVD) для сокращения гипермерного текстового пространства до меньших измерений для значительно более эффективного машинного анализа. [9] Математические и технологические достижения, вызванные машинным текстовым анализом, побудили ряд предприятий исследовать приложения, что привело к развитию таких областей, как анализ настроений , интеллектуальный анализ голоса клиента и оптимизация колл-центров. [10] Появление больших данных в конце 2000-х годов привело к повышенному интересу к приложениям аналитики неструктурированных данных в современных областях, таких как предиктивная аналитика и анализ первопричин . [11]
Этот термин неточен по нескольким причинам:
Такие методы, как интеллектуальный анализ данных , обработка естественного языка (NLP) и анализ текста , предоставляют различные методы для поиска закономерностей в этой информации или иной ее интерпретации. Обычные методы структурирования текста обычно включают ручную маркировку метаданными или маркировку частей речи для дальнейшей структуризации на основе интеллектуального анализа текста . Стандарт архитектуры управления неструктурированной информацией (UIMA) предоставил общую структуру для обработки этой информации с целью извлечения смысла и создания структурированных данных об информации.
Программное обеспечение, создающее обрабатываемую машиной структуру, может использовать лингвистическую, слуховую и визуальную структуру, которая существует во всех формах человеческого общения. [12] Алгоритмы могут выводить эту присущую структуру из текста, например, путем изучения морфологии слов , синтаксиса предложений и других мелко- и крупномасштабных шаблонов. Затем неструктурированная информация может быть обогащена и помечена для устранения неоднозначностей и методов, основанных на релевантности, которые затем используются для облегчения поиска и обнаружения. Примерами «неструктурированных данных» могут быть книги, журналы, документы, метаданные , медицинские записи , аудио , видео , аналоговые данные , изображения, файлы и неструктурированный текст, такой как текст сообщения электронной почты , веб-страница или документ текстового процессора . Хотя основной передаваемый контент не имеет определенной структуры, он обычно поставляется упакованным в объекты (например, в файлы или документы, ...), которые сами по себе имеют структуру и, таким образом, представляют собой смесь структурированных и неструктурированных данных, но в совокупности это все еще называется «неструктурированными данными». [13] Например, HTML- страница веб-сайта помечена, но HTML-разметка обычно служит исключительно для рендеринга. Она не фиксирует значение или функцию помеченных элементов способами, которые поддерживают автоматическую обработку информационного содержимого страницы. XHTML- тегирование позволяет машинную обработку элементов, хотя обычно не фиксирует и не передает семантическое значение помеченных терминов.
Поскольку неструктурированные данные обычно встречаются в электронных документах , использование системы управления контентом или документами , которая может классифицировать целые документы, часто предпочтительнее, чем передача данных и манипуляции внутри документов. Таким образом, управление документами предоставляет средства для передачи структуры в коллекции документов .
Поисковые системы стали популярными инструментами для индексации и поиска таких данных, особенно текстовых.
Были разработаны специальные вычислительные рабочие процессы для наложения структуры на неструктурированные данные, содержащиеся в текстовых документах. Эти рабочие процессы, как правило, предназначены для обработки наборов из тысяч или даже миллионов документов, или гораздо большего количества, чем могут позволить ручные подходы к аннотированию. Некоторые из этих подходов основаны на концепции онлайн-аналитической обработки, или OLAP , и могут поддерживаться моделями данных, такими как текстовые кубы. [14] После того, как метаданные документа становятся доступными через модель данных, генерация резюме подмножеств документов (т. е. ячеек внутри текстового куба) может выполняться с помощью подходов, основанных на фразах. [15]
Биомедицинские исследования генерируют один из основных источников неструктурированных данных, поскольку исследователи часто публикуют свои выводы в научных журналах. Хотя язык в этих документах сложен для извлечения структурных элементов (например, из-за сложной технической терминологии, содержащейся в них, и знаний предметной области , необходимых для полной контекстуализации наблюдений), результаты этой деятельности могут дать связи между техническими и медицинскими исследованиями [16] и подсказки относительно новых методов лечения заболеваний. [17] Недавние усилия по обеспечению структуры биомедицинских документов включают подходы самоорганизующихся карт для определения тем среди документов, [18] неконтролируемые алгоритмы общего назначения [19] и применение рабочего процесса CaseOLAP [15] для определения связей между названиями белков и темами сердечно-сосудистых заболеваний в литературе. [20] CaseOLAP определяет отношения фраза-категория точным (определяет отношения), последовательным (высоковоспроизводимым) и эффективным образом. Эта платформа обеспечивает улучшенную доступность и предоставляет биомедицинскому сообществу инструменты для извлечения фраз для широко распространенных приложений биомедицинских исследований. [20]
В Швеции (ЕС) до 2018 года некоторые правила конфиденциальности данных не применялись, если данные были подтверждены как «неструктурированные». [21] Этот термин, неструктурированные данные, редко используется в ЕС после вступления в силу GDPR в 2018 году. GDPR не упоминает и не определяет «неструктурированные данные». Он использует слово «структурированный» следующим образом (без определения);
Судебная практика GDPR относительно того, что определяет «систему хранения данных»: «конкретный критерий и конкретная форма, в которой фактически структурирован набор персональных данных, собранных каждым из членов, занимающихся проповедованием, не имеют значения, пока этот набор данных позволяет легко извлекать данные, относящиеся к конкретному лицу, с которым связались , что, однако, должен установить обращающийся суд в свете всех обстоятельств дела в основном разбирательстве» ( CJEU , Todistajat v. Tietosuojavaltuutettu, Jehovan, пункт 61).
Если персональные данные легко извлекаются - то это система хранения и - то она попадает под действие GDPR независимо от того, является ли она "структурированной" или "неструктурированной". Большинство электронных систем сегодня, [ по состоянию на? ] в зависимости от доступа и прикладного программного обеспечения, могут обеспечить легкий извлечение данных.