stringtranslate.com

Неструктурированные данные

Неструктурированные данные (или неструктурированная информация ) — это информация, которая либо не имеет заранее определенной модели данных , либо не организована заранее определенным образом. Неструктурированная информация обычно содержит много текста , но может также содержать такие данные, как даты, числа и факты. Это приводит к неточностям и двусмысленностям , которые затрудняют понимание использования традиционных программ по сравнению с данными, хранящимися в виде полей в базах данных или аннотированными ( семантически помеченными ) в документах.

В 1998 году компания Merrill Lynch заявила, что «неструктурированные данные составляют подавляющее большинство данных, имеющихся в организации; по некоторым оценкам, их доля достигает 80%». [1] Неясно, каков источник этой цифры, но, тем не менее, некоторые ее принимают. [2] Другие источники сообщают об аналогичном или более высоком проценте неструктурированных данных. [3] [4] [5]

По данным IDC и Dell EMC на 2012 год , объем данных вырастет до 40 зеттабайт к 2020 году, что приведет к 50-кратному росту с начала 2010 года. [6] Совсем недавно IDC и Seagate прогнозируют, что глобальная сфера данных вырастет до 163. зеттабайт к 2025 году [7] , и большая часть из них будет неструктурированной. Журнал Computer World утверждает, что неструктурированная информация может составлять более 70–80% всех данных в организациях. [1]

Фон

Самые ранние исследования бизнес-аналитики были сосредоточены на неструктурированных текстовых данных, а не на числовых данных. [8] Еще в 1958 году исследователи информатики , такие как HP Luhn , были особенно озабочены извлечением и классификацией неструктурированного текста. [8] Однако только на рубеже веков технология привлекла исследовательский интерес. В 2004 году Институт SAS разработал программу SAS Text Miner, которая использует разложение по сингулярным значениям (SVD) для уменьшения гипермерного текстового пространства до меньших размеров для значительно более эффективного машинного анализа. [9] Математические и технологические достижения, вызванные машинным анализом текста, побудили ряд предприятий к исследованию приложений, что привело к развитию таких областей, как анализ настроений , анализ голоса клиента и оптимизация колл-центра. [10] Появление больших данных в конце 2000-х годов привело к повышенному интересу к приложениям анализа неструктурированных данных в современных областях, таких как прогнозная аналитика и анализ первопричин . [11]

Проблемы с терминологией

Этот термин неточен по нескольким причинам:

  1. Структура , хотя и не определена формально, все же может подразумеваться.
  2. Данные с той или иной структурой все же могут быть охарактеризованы как неструктурированные, если их структура не подходит для текущей задачи обработки.
  3. Неструктурированная информация может иметь некоторую структуру ( полуструктурированную ) или даже быть высокоструктурированной, но непредвиденным или необъявленным образом.

Работа с неструктурированными данными

Такие методы, как интеллектуальный анализ данных , обработка естественного языка (НЛП) и текстовый анализ , предоставляют различные методы для поиска закономерностей или иной интерпретации этой информации. Распространенные методы структурирования текста обычно включают в себя ручную разметку метаданных или разметку частей речи для дальнейшего структурирования текста на основе интеллектуального анализа. Стандарт неструктурированной архитектуры управления информацией (UIMA) предоставил общую структуру для обработки этой информации для извлечения смысла и создания структурированных данных об информации.

Программное обеспечение, создающее машинно-обрабатываемую структуру, может использовать лингвистическую, слуховую и визуальную структуру, которая существует во всех формах человеческого общения. [12] Алгоритмы могут вывести эту внутреннюю структуру из текста, например, путем изучения морфологии слов , синтаксиса предложений и других мелких и крупных закономерностей. Неструктурированную информацию затем можно обогатить и пометить для устранения двусмысленностей, а затем использовать методы, основанные на релевантности, для облегчения поиска и обнаружения. Примеры «неструктурированных данных» могут включать книги, журналы, документы, метаданные , медицинские записи , аудио , видео , аналоговые данные , изображения, файлы и неструктурированный текст, такой как тело сообщения электронной почты , веб-страница или текстовый файл. документ процессора . Хотя основной передаваемый контент не имеет определенной структуры, он обычно упакован в объекты (например, в файлы или документы...), которые сами по себе имеют структуру и, таким образом, представляют собой смесь структурированных и неструктурированных данных, но в совокупности это все равно называемые «неструктурированные данные». [13] Например, веб-страница HTML имеет теги, но разметка HTML обычно служит исключительно для рендеринга. Он не отражает значение или функцию помеченных элементов способами, поддерживающими автоматическую обработку информационного содержимого страницы. Теги XHTML позволяют машинную обработку элементов, хотя обычно они не фиксируют и не передают семантическое значение тегированных терминов.

Поскольку в электронных документах обычно встречаются неструктурированные данные , использование системы управления контентом или документами , которая может категоризировать целые документы, часто предпочтительнее, чем передача данных и манипулирование ими изнутри документов. Управление документами, таким образом, предоставляет средства для передачи структуры коллекциям документов .

Поисковые системы стали популярными инструментами для индексирования и поиска таких данных, особенно текста.

Подходы к обработке естественного языка

Были разработаны специальные вычислительные рабочие процессы, позволяющие структурировать неструктурированные данные, содержащиеся в текстовых документах. Эти рабочие процессы обычно предназначены для обработки наборов из тысяч или даже миллионов документов, или гораздо большего, чем могут позволить ручные подходы к аннотированию. Некоторые из этих подходов основаны на концепции онлайн-аналитической обработки (OLAP ) и могут поддерживаться такими моделями данных, как текстовые кубы. [14] Как только метаданные документа становятся доступными через модель данных, генерация сводных данных подмножеств документов (т. е. ячеек в текстовом кубе) может выполняться с использованием подходов, основанных на фразах. [15]

Подходы в медицине и биомедицинских исследованиях

Биомедицинские исследования являются одним из основных источников неструктурированных данных, поскольку исследователи часто публикуют свои результаты в научных журналах. Хотя из языка этих документов сложно извлечь структурные элементы (например, из-за сложного технического словаря, содержащегося в них, и знаний предметной области , необходимых для полной контекстуализации наблюдений), результаты этой деятельности могут привести к связям между техническими и медицинскими исследованиями [16]. ] и подсказки относительно новых методов лечения заболеваний. [17] Недавние усилия по обеспечению структуры биомедицинских документов включают подходы самоорганизующихся карт для определения тем среди документов, [18] неконтролируемые алгоритмы общего назначения , [19] и применение рабочего процесса CaseOLAP [15] для определения ассоциаций между белками. названия и темы сердечно-сосудистых заболеваний в литературе. [20] CaseOLAP определяет отношения фраза-категория точным (определяет отношения), последовательным (высоко воспроизводимым) и эффективным способом. Эта платформа обеспечивает расширенную доступность и расширяет возможности биомедицинского сообщества с помощью инструментов анализа фраз для широко распространенных приложений биомедицинских исследований. [20]

Использование слова «неструктурированный» в правилах конфиденциальности данных

В Швеции (ЕС) до 2018 года некоторые правила конфиденциальности данных не применялись, если рассматриваемые данные были подтверждены как «неструктурированные». [21] Термин «неструктурированные данные» редко используется в ЕС после вступления в силу GDPR в 2018 году. GDPR не упоминает и не определяет «неструктурированные данные». Слово «структурированный» используется следующим образом (без его определения);

Прецедентное право GDPR по определению «системы подачи документов»; «Конкретный критерий и конкретная форма, в которой фактически структурирован набор личных данных, собранных каждым из членов, занимающихся проповедью, не имеют значения, пока этот набор данных позволяет получить данные, относящиеся к конкретному человеку, который с которым связались, чтобы его можно было легко найти , что, однако, должен выяснить передающий суд с учетом всех обстоятельств дела в рамках основного разбирательства». ( СЕС , Тодистажат против Тиетосуоявалтуутетту, Иегован, параграф 61).

Если персональные данные легко получить, то это файловая система, и тогда они подпадают под действие GDPR, независимо от того, являются ли они «структурированными» или «неструктурированными». Большинство электронных систем сегодня [ по состоянию на? ] при наличии доступа и прикладного программного обеспечения может обеспечить легкий поиск данных.

Смотрите также

Примечания

  1. ^ Сегодняшняя проблема в правительстве: что делать с неструктурированной информацией и почему ничего не делать — это не вариант, Ноэль Юханна, главный аналитик, Forrester Research , ноябрь 2010 г.

Рекомендации

  1. ^ Шилакс, Кристофер С.; Тилман, Джули (16 ноября 1998 г.). «Корпоративные информационные порталы» (PDF) . Меррилл Линч . Архивировано из оригинала (PDF) 24 июля 2011 года.
  2. Граймс, Сет (1 августа 2008 г.). «Неструктурированные данные и правило 80 процентов». Анализ прорыва — Точки моста . Кларабридж.
  3. ^ Гандоми, Амир; Хайдер, Муртаза (апрель 2015 г.). «За пределами шумихи: концепции, методы и аналитика больших данных». Международный журнал информационного менеджмента . 35 (2): 137–144. дои : 10.1016/j.ijinfomgt.2014.10.007 . ISSN  0268-4012.
  4. ^ «Самые большие проблемы с данными, о которых вы, возможно, даже не подозреваете - Уотсон» . Ватсон . 25 мая 2016 г. Проверено 02 октября 2018 г.
  5. ^ «Структурированные и неструктурированные данные» . www.datamation.com . Проверено 02 октября 2018 г.
  6. ^ «Пресс-релиз EMC News: Новое исследование цифровой вселенной выявило большой пробел в данных: анализируется менее 1% мировых данных; защищено менее 20%» . www.emc.com . Корпорация ЕМС. Декабрь 2012.
  7. ^ «Тенденции | Seagate США». Seagate.com . Проверено 1 октября 2018 г.
  8. ^ аб Граймс, Сет. «Краткая история текстовой аналитики». Сеть глаз Б. Проверено 24 июня 2016 г.
  9. ^ Олбрайт, Расс. «Укрощение текста с помощью СВД» (PDF) . САС . Архивировано из оригинала (PDF) 30 сентября 2016 г. Проверено 24 июня 2016 г.
  10. ^ Десаи, Маниш (9 августа 2009 г.). «Приложения текстовой аналитики». Моя бизнес-аналитика @ Blogspot . Проверено 24 июня 2016 г.
  11. ^ Чакраборти, Гаутам. «Анализ неструктурированных данных: применение текстовой аналитики и анализа тональности» (PDF) . САС . Проверено 24 июня 2016 г.
  12. ^ «Структура, модели и значение: являются ли «неструктурированные» данные просто немоделированными?». Информационная неделя . 1 марта 2005 г.
  13. Мэлоун, Роберт (5 апреля 2007 г.). «Структурирование неструктурированных данных». Форбс .
  14. ^ Лин, Синди Сиде; Дин, Болин; Хан, Цзявэй; Чжу, Фейда; Чжао, Бо (декабрь 2008 г.). «Текстовый куб: вычисление IR-мер для анализа многомерной текстовой базы данных». 2008 г. Восьмая международная конференция IEEE по интеллектуальному анализу данных . IEEE. стр. 905–910. CiteSeerX 10.1.1.215.3177 . дои : 10.1109/icdm.2008.135. ISBN  9780769535029. S2CID  1522480.
  15. ^ Аб Тао, Фангбо; Чжуан, Хунлей; Ю, Чи Ван; Ван, Ци; Кэссиди, Тейлор; Каплан, Лэнс; Восс, Клэр; Хан, Цзявэй (2016). «Многомерное фразовое суммирование в текстовых кубах» (PDF) .
  16. ^ Коллиер, Найджел; Назаренко, Аделина; Бод, Роберт; Рух, Патрик (июнь 2006 г.). «Последние достижения в области обработки естественного языка для биомедицинских приложений». Международный журнал медицинской информатики . 75 (6): 413–417. doi :10.1016/j.ijmedinf.2005.06.008. ISSN  1386-5056. PMID  16139564. S2CID  31449783.
  17. ^ Гонсалес, Грасиела Х.; Тахсин, Тасния; Гудейл, Бриттон К.; Грин, Анна С.; Грин, Кейси С. (январь 2016 г.). «Последние достижения и новые приложения в области анализа текста и данных для биомедицинских открытий». Брифинги по биоинформатике . 17 (1): 33–42. дои : 10.1093/нагрудник/bbv087. ISSN  1477-4054. ПМЦ 4719073 . ПМИД  26420781. 
  18. ^ Скупин, Андре; Биберстайн, Джозеф Р.; Бёрнер, Кэти (2013). «Визуализация тематической структуры медицинских наук: подход к самоорганизующейся карте». ПЛОС ОДИН . 8 (3): e58779. Бибкод : 2013PLoSO...858779S. дои : 10.1371/journal.pone.0058779 . ISSN  1932-6203. ПМЦ 3595294 . ПМИД  23554924. 
  19. ^ Киела, Доуве; Го, Юфань; Стениус, Улла; Корхонен, Анна (01 апреля 2015 г.). «Неконтролируемое обнаружение информационной структуры в биомедицинских документах». Биоинформатика . 31 (7): 1084–1092. doi : 10.1093/биоинформатика/btu758 . ISSN  1367-4811. ПМИД  25411329.
  20. ^ Аб Лием, Дэвид А.; Мурали, Санджана; Сигдель, Дибакар; Ши, Ю; Ван, Сюань; Шен, Цзямин; Чой, Ховард; Кофилд, Джон Х.; Ван, Вэй; Пинг, Пейбэй; Хан, Цзявэй (1 октября 2018 г.). «Фразовый анализ текстовых данных для анализа белков внеклеточного матрикса при сердечно-сосудистых заболеваниях». Американский журнал физиологии. Физиология сердца и кровообращения . 315 (4): H910–H924. дои : 10.1152/ajpheart.00175.2018. ISSN  1522-1539. ПМК 6230912 . ПМИД  29775406. 
  21. ^ «Шведские правила конфиденциальности данных прекращают разделение на «неструктурированные» и «структурированные»» .

Внешние ссылки