Неструктурированные данные

Неструктурированные данные (или неструктурированная информация ) — это информация, которая либо не имеет предопределенной модели данных , либо не организована предопределенным образом. Неструктурированная информация обычно перегружена текстом , но может содержать такие данные, как даты, числа и факты. Это приводит к нерегулярностям и двусмысленностям , которые затрудняют понимание с помощью традиционных программ по сравнению с данными, хранящимися в полевой форме в базах данных или аннотированными ( семантически помеченными ) в документах.

В 1998 году Merrill Lynch заявила, что «неструктурированные данные составляют подавляющее большинство данных, обнаруженных в организации, по некоторым оценкам, до 80%». ^[1] Неясно, каков источник этой цифры, но, тем не менее, некоторые ее принимают. ^[2] Другие источники сообщают о схожем или более высоком проценте неструктурированных данных. ^[3]^[4]^[5]

По прогнозам IDC и Dell EMC на 2012 год ^{[обновлять]}, объем данных к 2020 году вырастет до 40 зеттабайт , что приведет к 50-кратному росту с начала 2010 года. ^[6] Совсем недавно IDC и Seagate предсказали, что глобальная сфера данных вырастет до 163 зеттабайт к 2025 году ^[7] , и большая ее часть будет неструктурированной. Журнал Computer World утверждает, что неструктурированная информация может составлять более 70–80% всех данных в организациях. ^[1]

Фон

Самые ранние исследования в области бизнес-аналитики были сосредоточены на неструктурированных текстовых данных, а не на числовых данных. ^[8] Еще в 1958 году исследователи в области компьютерных наук, такие как HP Luhn, были особенно озабочены извлечением и классификацией неструктурированного текста. ^[8] Однако только с начала века технология догнала исследовательский интерес. В 2004 году Институт SAS разработал SAS Text Miner, который использует разложение сингулярных значений (SVD) для сокращения гипермерного текстового пространства до меньших измерений для значительно более эффективного машинного анализа. ^[9] Математические и технологические достижения, вызванные машинным текстовым анализом, побудили ряд предприятий исследовать приложения, что привело к развитию таких областей, как анализ настроений , интеллектуальный анализ голоса клиента и оптимизация колл-центров. ^[10] Появление больших данных в конце 2000-х годов привело к повышенному интересу к приложениям аналитики неструктурированных данных в современных областях, таких как предиктивная аналитика и анализ первопричин . ^[11]

Проблемы с терминологией

Этот термин неточен по нескольким причинам:

Структура , хотя формально и не определена, все же может подразумеваться.
Данные с некоторой формой структуры все равно могут быть охарактеризованы как неструктурированные, если их структура не полезна для решаемой задачи обработки.
Неструктурированная информация может иметь некоторую структуру ( полуструктурированная ) или даже быть высокоструктурированной, но таким образом, который не ожидается или не анонсируется.

Работа с неструктурированными данными

Такие методы, как интеллектуальный анализ данных , обработка естественного языка (NLP) и анализ текста , предоставляют различные методы для поиска закономерностей в этой информации или иной ее интерпретации. Обычные методы структурирования текста обычно включают ручную маркировку метаданными или маркировку частей речи для дальнейшей структуризации на основе интеллектуального анализа текста . Стандарт архитектуры управления неструктурированной информацией (UIMA) предоставил общую структуру для обработки этой информации с целью извлечения смысла и создания структурированных данных об информации.

Программное обеспечение, создающее обрабатываемую машиной структуру, может использовать лингвистическую, слуховую и визуальную структуру, которая существует во всех формах человеческого общения. ^[12] Алгоритмы могут выводить эту присущую структуру из текста, например, путем изучения морфологии слов , синтаксиса предложений и других мелко- и крупномасштабных шаблонов. Затем неструктурированная информация может быть обогащена и помечена для устранения неоднозначностей и методов, основанных на релевантности, которые затем используются для облегчения поиска и обнаружения. Примерами «неструктурированных данных» могут быть книги, журналы, документы, метаданные , медицинские записи , аудио , видео , аналоговые данные , изображения, файлы и неструктурированный текст, такой как текст сообщения электронной почты , веб-страница или документ текстового процессора . Хотя основной передаваемый контент не имеет определенной структуры, он обычно поставляется упакованным в объекты (например, в файлы или документы, ...), которые сами по себе имеют структуру и, таким образом, представляют собой смесь структурированных и неструктурированных данных, но в совокупности это все еще называется «неструктурированными данными». ^[13] Например, HTML- страница веб-сайта помечена, но HTML-разметка обычно служит исключительно для рендеринга. Она не фиксирует значение или функцию помеченных элементов способами, которые поддерживают автоматическую обработку информационного содержимого страницы. XHTML- тегирование позволяет машинную обработку элементов, хотя обычно не фиксирует и не передает семантическое значение помеченных терминов.

Поскольку неструктурированные данные обычно встречаются в электронных документах , использование системы управления контентом или документами , которая может классифицировать целые документы, часто предпочтительнее, чем передача данных и манипуляции внутри документов. Таким образом, управление документами предоставляет средства для передачи структуры в коллекции документов .

Поисковые системы стали популярными инструментами для индексации и поиска таких данных, особенно текстовых.

Подходы к обработке естественного языка

Были разработаны специальные вычислительные рабочие процессы для наложения структуры на неструктурированные данные, содержащиеся в текстовых документах. Эти рабочие процессы, как правило, предназначены для обработки наборов из тысяч или даже миллионов документов, или гораздо большего количества, чем могут позволить ручные подходы к аннотированию. Некоторые из этих подходов основаны на концепции онлайн-аналитической обработки, или OLAP , и могут поддерживаться моделями данных, такими как текстовые кубы. ^[14] После того, как метаданные документа становятся доступными через модель данных, генерация резюме подмножеств документов (т. е. ячеек внутри текстового куба) может выполняться с помощью подходов, основанных на фразах. ^[15]

Подходы в медицине и биомедицинских исследованиях

Биомедицинские исследования генерируют один из основных источников неструктурированных данных, поскольку исследователи часто публикуют свои результаты в научных журналах. Хотя язык в этих документах сложен для извлечения структурных элементов (например, из-за сложной технической терминологии, содержащейся в них, и знаний предметной области , необходимых для полной контекстуализации наблюдений), результаты этой деятельности могут дать связи между техническими и медицинскими исследованиями ^[16] и подсказки относительно новых методов лечения заболеваний. ^[17] Недавние усилия по обеспечению структуры биомедицинских документов включают подходы самоорганизующихся карт для определения тем среди документов, ^[18]неконтролируемые алгоритмы общего назначения ^[19] и применение рабочего процесса CaseOLAP ^[15] для определения связей между названиями белков и темами сердечно-сосудистых заболеваний в литературе. ^[20] CaseOLAP определяет отношения фраза-категория точным (определяет отношения), последовательным (высоковоспроизводимым) и эффективным образом. Эта платформа обеспечивает улучшенную доступность и предоставляет биомедицинскому сообществу инструменты для извлечения фраз для широко распространенных приложений биомедицинских исследований. ^[20]

Использование термина «неструктурированный» в правилах конфиденциальности данных

В Швеции (ЕС) до 2018 года некоторые правила конфиденциальности данных не применялись, если данные были подтверждены как «неструктурированные». ^[21] Этот термин, неструктурированные данные, редко используется в ЕС после вступления в силу GDPR в 2018 году. GDPR не упоминает и не определяет «неструктурированные данные». Он использует слово «структурированный» следующим образом (без определения);

Раздел 15 GDPR: «Защита физических лиц должна применяться к обработке персональных данных... если... они содержатся в системе хранения данных».
Статья 4 GDPR: «система хранения данных» означает любой структурированный набор персональных данных, доступ к которым осуществляется в соответствии с определенными критериями...»

Судебная практика GDPR относительно того, что определяет «систему хранения данных»: «конкретный критерий и конкретная форма, в которой фактически структурирован набор персональных данных, собранных каждым из членов, занимающихся проповедованием, не имеют значения, пока этот набор данных позволяет легко извлекать данные, относящиеся к конкретному лицу, с которым связались , что, однако, должен установить обращающийся суд в свете всех обстоятельств дела в основном разбирательстве» ( CJEU , Todistajat v. Tietosuojavaltuutettu, Jehovan, пункт 61).

Если персональные данные легко извлекаются - то это система хранения и - то она попадает под действие GDPR независимо от того, является ли она "структурированной" или "неструктурированной". Большинство электронных систем сегодня, ^{[ по состоянию на? ]} в зависимости от доступа и прикладного программного обеспечения, могут обеспечить легкий извлечение данных.

Смотрите также

Примечания

^ Сегодняшние проблемы в правительстве: что делать с неструктурированной информацией и почему бездействие — не вариант, Ноэль Юханна, главный аналитик Forrester Research , ноябрь 2010 г.

Ссылки

^ Шилакес, Кристофер С.; Тилман, Джули (16 ноября 1998 г.). "Корпоративные информационные порталы" (PDF) . Merrill Lynch . Архивировано из оригинала (PDF) 24 июля 2011 г.
^ Граймс, Сет (1 августа 2008 г.). «Неструктурированные данные и правило 80 процентов». Breakthrough Analysis — Bridgepoints . Clarabridge.
^ Гандоми, Амир; Хайдер, Муртаза (апрель 2015 г.). «За пределами шумихи: концепции, методы и аналитика больших данных». Международный журнал по управлению информацией . 35 (2): 137–144. doi : 10.1016/j.ijinfomgt.2014.10.007 . ISSN 0268-4012.
^ "Самые большие проблемы с данными, о которых вы, возможно, даже не подозреваете - Watson". Watson . 2016-05-25 . Получено 2018-10-02 .
^ "Структурированные и неструктурированные данные". www.datamation.com . Получено 2018-10-02 .
^ "Пресс-релиз новостей EMC: Новое исследование цифровой вселенной выявило пробел в больших данных: анализируется менее 1% мировых данных; защищено менее 20%". www.emc.com . Корпорация EMC. Декабрь 2012 г.
^ "Тенденции | Seagate US". Seagate.com . Получено 2018-10-01 .
^ ab Граймс, Сет. "Краткая история текстовой аналитики". B Eye Network . Получено 24 июня 2016 г.
^ Олбрайт, Расс. "Taming Text with the SVD" (PDF) . SAS . Архивировано из оригинала (PDF) 2016-09-30 . Получено 24 июня 2016 .
^ Десаи, Маниш (2009-08-09). "Применение текстовой аналитики". My Business Analytics @ Blogspot . Получено 24 июня 2016 г.
^ Чакраборти, Гаутам. «Анализ неструктурированных данных: применение текстовой аналитики и анализа настроений» (PDF) . SAS . Получено 24 июня 2016 г. .
^ «Структура, модели и значение: являются ли «неструктурированные» данные просто немоделированными?». InformationWeek . 1 марта 2005 г.
↑ Мэлоун, Роберт (5 апреля 2007 г.). «Структурирование неструктурированных данных». Forbes .
^ Лин, Синди Сидэ; Дин, Болин; Хан, Цзявэй; Чжу, Фейда; Чжао, Бо (декабрь 2008 г.). «Текстовый куб: вычисление мер IR для анализа многомерной текстовой базы данных». Восьмая международная конференция IEEE по интеллектуальному анализу данных 2008 г. IEEE. стр. 905–910. CiteSeerX 10.1.1.215.3177 . doi :10.1109/icdm.2008.135. ISBN 9780769535029. S2CID 1522480.
^ Аб Тао, Фангбо; Чжуан, Хунлей; Ю, Чи Ван; Ван, Ци; Кэссиди, Тейлор; Каплан, Лэнс; Восс, Клэр; Хан, Цзявэй (2016). «Многомерное фразовое суммирование в текстовых кубах» (PDF) .
^ Коллиер, Найджел; Назаренко, Аделин; Бод, Роберт; Рач, Патрик (июнь 2006 г.). «Последние достижения в обработке естественного языка для биомедицинских приложений». Международный журнал медицинской информатики . 75 (6): 413–417. doi :10.1016/j.ijmedinf.2005.06.008. ISSN 1386-5056. PMID 16139564. S2CID 31449783.
^ Гонсалес, Грасиела Х.; Тахсин, Тасния; Гудейл, Бриттон К.; Грин, Анна К.; Грин, Кейси С. (январь 2016 г.). «Последние достижения и новые приложения в области интеллектуального анализа текста и данных для биомедицинских открытий». Briefings in Bioinformatics . 17 (1): 33–42. doi :10.1093/bib/bbv087. ISSN 1477-4054. PMC 4719073. PMID 26420781 .
^ Скупин, Андре; Биберстайн, Джозеф Р.; Бёрнер, Кэти (2013). «Визуализация тематической структуры медицинских наук: подход самоорганизующейся карты». PLOS ONE . 8 (3): e58779. Bibcode : 2013PLoSO...858779S. doi : 10.1371/journal.pone.0058779 . ISSN 1932-6203. PMC 3595294. PMID 23554924 .
^ Киела, Доуве; Го, Юфан; Стениус, Улла; Корхонен, Анна (2015-04-01). «Неконтролируемое обнаружение информационной структуры в биомедицинских документах». Биоинформатика . 31 (7): 1084–1092. doi : 10.1093/bioinformatics/btu758 . ISSN 1367-4811. PMID 25411329.
^ ab Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (1 октября 2018 г.). «Изучение фраз текстовых данных для анализа паттернов белков внеклеточного матрикса при сердечно-сосудистых заболеваниях». American Journal of Physiology. Heart and Circulatory Physiology . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912 . PMID 29775406.
^ «Шведские правила конфиденциальности данных прекращают разделение на «неструктурированные» и «структурированные»».

Внешние ссылки

Сопоставление неструктурированных и структурированных данных
краткое описание структурированных данных
Определение неструктурированных данных, примеры, преимущества и проблемы