stringtranslate.com

Большие данные

Нелинейный рост емкости цифрового глобального хранения информации и уменьшение аналогового хранения [1] [ требуется обновление ]

Большие данные в первую очередь относятся к наборам данных , которые слишком велики или сложны для обработки традиционными программными приложениями для обработки данных . Данные с большим количеством записей (строк) предлагают большую статистическую мощность , в то время как данные с более высокой сложностью (больше атрибутов или столбцов) могут привести к более высокому уровню ложных обнаружений . [2] Хотя иногда они используются вольно, отчасти из-за отсутствия формального определения, лучшая интерпретация заключается в том, что это большой объем информации, который невозможно понять, если использовать его только в небольших количествах. [3]

Проблемы анализа больших данных включают сбор данных , хранение данных , анализ данных , поиск, совместное использование , передачу , визуализацию , запросы , обновление, конфиденциальность информации и источник данных. Большие данные изначально ассоциировались с тремя ключевыми концепциями: объем , разнообразие и скорость . [4] Анализ больших данных представляет проблемы при выборке, и, таким образом, ранее допускал только наблюдения и выборку. Таким образом, четвертая концепция, достоверность, относится к качеству или проницательности данных. [5] Без достаточных инвестиций в экспертизу для достоверности больших данных объем и разнообразие данных могут привести к издержкам и рискам, которые превышают способность организации создавать и извлекать ценность из больших данных . [6]

Текущее использование термина « большие данные » имеет тенденцию относиться к использованию предиктивной аналитики , аналитики поведения пользователей или некоторых других передовых методов анализа данных, которые извлекают ценность из больших данных, и редко к определенному размеру набора данных. «Нет никаких сомнений в том, что объемы данных, доступных сейчас, действительно велики, но это не самая важная характеристика этой новой экосистемы данных». [7] Анализ наборов данных может найти новые корреляции для «выявления бизнес-тенденций, предотвращения заболеваний, борьбы с преступностью и т. д.». [8] Ученые, руководители предприятий, врачи, рекламодатели и правительства регулярно сталкиваются с трудностями с большими наборами данных в таких областях, как поиск в Интернете , финтех , аналитика здравоохранения, географические информационные системы, городская информатика и бизнес-информатика . Ученые сталкиваются с ограничениями в работе в области электронной науки , включая метеорологию , геномику , [9] коннектомику , сложное физическое моделирование, биологию и исследования окружающей среды. [10]

Размер и количество доступных наборов данных быстро растут, поскольку данные собираются такими устройствами, как мобильные устройства , дешевые и многочисленные устройства для измерения информации в Интернете вещей , воздушное ( дистанционное ) оборудование, программные журналы, камеры , микрофоны, считыватели радиочастотной идентификации (RFID) и беспроводные сенсорные сети . [11] [12] Технологическая емкость на душу населения в мире для хранения информации примерно удваивается каждые 40 месяцев с 1980-х годов; [13] по состоянию на 2012 год каждый день генерируется 2,5 эксабайта (2,17×2 60 байт) данных. [14] Согласно прогнозу отчета IDC , глобальный объем данных, как ожидается, будет расти экспоненциально с 4,4 зеттабайт до 44 зеттабайт в период с 2013 по 2020 год. К 2025 году IDC прогнозирует, что будет 163 зеттабайта данных. [15] По данным IDC, глобальные расходы на решения для больших данных и бизнес-аналитики (BDA) оцениваются в 215,7 млрд долларов в 2021 году. [16] [17] В то время как Statista сообщает, что, по прогнозам, глобальный рынок больших данных вырастет до 103 млрд долларов к 2027 году. [18] В 2011 году McKinsey & Company сообщила, что если бы здравоохранение США использовало большие данные творчески и эффективно для повышения эффективности и качества, сектор мог бы создавать более 300 млрд долларов стоимости каждый год. [19] В развитых экономиках Европы государственные администраторы могли бы сэкономить более 100 млрд евро (149 млрд долларов) только на повышении операционной эффективности за счет использования больших данных. [19] А пользователи услуг, поддерживаемых данными о личном местоположении, могли бы получить 600 млрд долларов потребительского излишка. [19] Один из вопросов для крупных предприятий заключается в определении того, кто должен владеть инициативами в области больших данных, которые влияют на всю организацию. [20]

Системы управления реляционными базами данных и пакеты настольного статистического программного обеспечения, используемые для визуализации данных, часто испытывают трудности с обработкой и анализом больших данных. Обработка и анализ больших данных могут потребовать «массово параллельного программного обеспечения, работающего на десятках, сотнях или даже тысячах серверов». [21] То, что квалифицируется как «большие данные», зависит от возможностей тех, кто их анализирует, и их инструментов. Более того, расширение возможностей делает большие данные движущейся целью. «Для некоторых организаций столкновение с сотнями гигабайт данных в первый раз может вызвать необходимость пересмотреть варианты управления данными. Для других могут потребоваться десятки или сотни терабайт, прежде чем размер данных станет существенным соображением». [22]

Определение

Термин «большие данные» используется с 1990-х годов, и некоторые отдают должное Джону Маши за популяризацию этого термина. [23] [24] Большие данные обычно включают наборы данных, размеры которых выходят за рамки возможностей широко используемых программных инструментов для сбора , курирования , управления и обработки данных в течение допустимого времени. [25] [ нужна страница ] Философия больших данных охватывает неструктурированные, полуструктурированные и структурированные данные; однако основное внимание уделяется неструктурированным данным. [26] «Размер» больших данных — это постоянно движущаяся цель; по состоянию на 2012 год он варьировался от нескольких десятков терабайт до многих зеттабайт данных. [27] Большие данные требуют набора методов и технологий с новыми формами интеграции для выявления информации из наборов данных , которые являются разнообразными, сложными и имеют огромный масштаб. [28]

«Объем», «разнообразие», «скорость» и различные другие «V» добавляются некоторыми организациями для описания, что оспаривается некоторыми отраслевыми авторитетами. [29] V больших данных часто упоминались как «три V», «четыре V» и «пять V». Они представляли качества больших данных по объему, разнообразию, скорости, достоверности и ценности. [5] Изменчивость часто включается как дополнительное качество больших данных.

В определении 2018 года говорится: «Большие данные — это те области, где для обработки данных необходимы инструменты параллельных вычислений », и отмечается: «Это представляет собой отчетливое и четко определенное изменение в используемой компьютерной науке посредством теорий параллельного программирования и потери некоторых гарантий и возможностей, предоставляемых реляционной моделью Кодда ». [30]

В сравнительном исследовании больших наборов данных Китчин и МакАрдл обнаружили, что ни одна из обычно рассматриваемых характеристик больших данных не проявляется последовательно во всех проанализированных случаях. [31] По этой причине другие исследования определили переопределение динамики власти в обнаружении знаний как определяющую черту. [32] Вместо того чтобы сосредоточиться на внутренних характеристиках больших данных, эта альтернативная точка зрения продвигает реляционное понимание объекта, утверждая, что важен способ, которым данные собираются, хранятся, предоставляются и анализируются.

Большие данные против бизнес-аналитики

Растущая зрелость концепции все более четко определяет разницу между «большими данными» и « бизнес-аналитикой »: [33]

Характеристики

На этом изображении показан рост основных характеристик больших данных: объема, скорости и разнообразия.

Большие данные можно описать следующими характеристиками:

Объем
Количество сгенерированных и сохраненных данных. Размер данных определяет ценность и потенциальную проницательность, а также то, можно ли их считать большими данными или нет. Размер больших данных обычно больше терабайтов и петабайтов. [37]
Разнообразие
Тип и характер данных. Более ранние технологии, такие как СУРБД, были способны эффективно и результативно обрабатывать структурированные данные. Однако изменение типа и характера от структурированных к полуструктурированным или неструктурированным бросило вызов существующим инструментам и технологиям. Технологии больших данных развивались с главной целью сбора, хранения и обработки полуструктурированных и неструктурированных (разнообразных) данных, генерируемых с высокой скоростью (скоростью) и огромных по размеру (объему). Позже эти инструменты и технологии были исследованы и использованы также для обработки структурированных данных, но предпочтительнее для хранения. В конечном итоге обработка структурированных данных по-прежнему оставалась необязательной, либо с использованием больших данных, либо традиционных СУРБД. Это помогает анализировать данные для эффективного использования скрытых идей, полученных из данных, собранных через социальные сети, файлы журналов, датчики и т. д. Большие данные черпаются из текста, изображений, аудио, видео; плюс они дополняют недостающие части посредством слияния данных .
Скорость
Скорость, с которой данные генерируются и обрабатываются для удовлетворения потребностей и задач, которые лежат на пути роста и развития. Большие данные часто доступны в режиме реального времени. По сравнению с малыми данными , большие данные производятся более непрерывно. Два вида скорости, связанных с большими данными, — это частота генерации и частота обработки, записи и публикации. [38]
Правдивость
Правдивость или надежность данных, которая относится к качеству данных и ценности данных. [39] Большие данные должны быть не только большими по размеру, но и надежными, чтобы достичь ценности при их анализе. Качество полученных данных может сильно различаться, что влияет на точность анализа. [40]
Ценить
Ценность информации, которая может быть получена путем обработки и анализа больших наборов данных. Ценность также может быть измерена путем оценки других качеств больших данных. [41] Ценность также может представлять собой прибыльность информации, которая извлекается из анализа больших данных.
Изменчивость
Характеристика изменения форматов, структуры или источников больших данных. Большие данные могут включать структурированные, неструктурированные или комбинации структурированных и неструктурированных данных. Анализ больших данных может интегрировать необработанные данные из нескольких источников. Обработка необработанных данных может также включать преобразования неструктурированных данных в структурированные данные.

Другие возможные характеристики больших данных: [42]

Исчерпывающий
Будет ли вся система (т.е. =все) захвачена или записана или нет. Большие данные могут включать или не включать все доступные данные из источников.
Тонкозернистый и уникальный лексический
Соответственно, доля конкретных данных по каждому элементу на собранный элемент и правильность индексации или идентификации элемента и его характеристик.
Относительный
Если собранные данные содержат общие поля, это позволит провести объединение или метаанализ различных наборов данных.
Экстенсиональный
Если новые поля в каждом элементе собранных данных могут быть легко добавлены или изменены.
Масштабируемость
Если размер системы хранения больших данных может быстро расширяться.

Архитектура

Большие хранилища данных существуют во многих формах, часто созданные корпорациями с особыми потребностями. Коммерческие поставщики исторически предлагали параллельные системы управления базами данных для больших данных, начиная с 1990-х годов. В течение многих лет WinterCorp публиковала самый большой отчет о базе данных. [43] [ рекламный источник? ]

В 1984 году корпорация Teradata выпустила на рынок систему параллельной обработки DBC 1012. Системы Teradata были первыми, кто хранил и анализировал 1 терабайт данных в 1992 году. Жесткие диски были объемом 2,5 ГБ в 1991 году, поэтому определение больших данных постоянно развивается. Teradata установила первую систему на основе СУРБД петабайтного класса в 2007 году. По состоянию на 2017 год установлено несколько десятков реляционных баз данных Teradata петабайтного класса, самая большая из которых превышает 50 ПБ. Системы до 2008 года были на 100% структурированными реляционными данными. С тех пор Teradata добавила неструктурированные типы данных, включая XML , JSON и Avro.

В 2000 году компания Seisint Inc. (теперь LexisNexis Risk Solutions ) разработала распределенную платформу на основе C++ для обработки данных и запросов, известную как платформа HPCC Systems . Эта система автоматически разделяет, распределяет, хранит и доставляет структурированные, полуструктурированные и неструктурированные данные по нескольким серверам. Пользователи могут писать конвейеры обработки данных и запросы на языке программирования декларативных потоков данных, называемом ECL. Аналитикам данных, работающим в ECL, не требуется заранее определять схемы данных, и они могут сосредоточиться на конкретной проблеме, изменяя данные наилучшим образом по мере разработки решения. В 2004 году компания LexisNexis приобрела Seisint Inc. [44] и их высокоскоростную платформу параллельной обработки и успешно использовала эту платформу для интеграции систем данных Choicepoint Inc., когда они приобрели эту компанию в 2008 году. [45] В 2011 году платформа HPCC Systems была открыта под лицензией Apache v2.0.

ЦЕРН и другие физические эксперименты собирали большие наборы данных в течение многих десятилетий, обычно анализируя их с помощью высокопроизводительных вычислений, а не архитектур map-reduce, которые обычно подразумеваются в рамках современного движения «больших данных».

В 2004 году Google опубликовала статью о процессе под названием MapReduce , который использует похожую архитектуру. Концепция MapReduce обеспечивает модель параллельной обработки, и была выпущена соответствующая реализация для обработки огромных объемов данных. С MapReduce запросы разделяются и распределяются по параллельным узлам и обрабатываются параллельно (шаг «map»). Затем результаты собираются и доставляются (шаг «reduce»). Фреймворк оказался очень успешным, [46] поэтому другие захотели повторить алгоритм. Поэтому реализация фреймворка MapReduce была принята проектом Apache с открытым исходным кодом под названием « Hadoop ». [47] Apache Spark был разработан в 2012 году в ответ на ограничения в парадигме MapReduce, поскольку он добавляет обработку в памяти и возможность настраивать множество операций (не только map с последующим reduce).

MIKE2.0 — это открытый подход к управлению информацией, который признает необходимость пересмотров из-за последствий больших данных, определенных в статье под названием «Предложение решений для больших данных». [48] Методология рассматривает обработку больших данных с точки зрения полезных перестановок источников данных, сложности взаимосвязей и трудности удаления (или изменения) отдельных записей. [49]

Исследования 2012 года показали, что многослойная архитектура является одним из вариантов решения проблем, которые представляют большие данные. Распределенная параллельная архитектура распределяет данные по нескольким серверам; эти параллельные среды выполнения могут значительно повысить скорость обработки данных. Этот тип архитектуры вставляет данные в параллельную СУБД, которая реализует использование фреймворков MapReduce и Hadoop. Этот тип фреймворка стремится сделать вычислительную мощность прозрачной для конечного пользователя, используя сервер приложений front-end. [50]

Озеро данных позволяет организации переключить свое внимание с централизованного управления на общую модель, чтобы реагировать на меняющуюся динамику управления информацией. Это позволяет быстро сегрегировать данные в озере данных, тем самым сокращая накладные расходы. [51] [52]

Технологии

В отчете Глобального института McKinsey за 2011 год основные компоненты и экосистема больших данных характеризуются следующим образом: [53]

Многомерные большие данные также могут быть представлены в виде кубов данных OLAP или, математически, тензоров . Системы баз данных массивов предназначены для обеспечения поддержки хранения и высокоуровневых запросов для этого типа данных. Дополнительные технологии, применяемые к большим данным, включают эффективные вычисления на основе тензоров, [54] такие как многолинейное подпространственное обучение , [55] базы данных с массовой параллельной обработкой ( MPP ), приложения на основе поиска , интеллектуальный анализ данных , [56] распределенные файловые системы , распределенный кэш (например, буфер пакетов и Memcached ), распределенные базы данных , облачная и HPC- инфраструктура (приложения, хранилища и вычислительные ресурсы), [57] и Интернет. [ необходима ссылка ] Хотя было разработано много подходов и технологий, по-прежнему остается сложным выполнять машинное обучение с большими данными. [58]

Некоторые реляционные базы данных MPP способны хранить и управлять петабайтами данных. Подразумевается возможность загрузки, мониторинга, резервного копирования и оптимизации использования больших таблиц данных в СУРБД . [59] [ рекламный источник? ]

Программа топологического анализа данных DARPA направлена ​​на поиск фундаментальной структуры массивных наборов данных, и в 2008 году технология стала публичной с запуском компании под названием «Ayasdi». [60] [ необходим сторонний источник ]

Практикующие процессы аналитики больших данных, как правило, враждебно относятся к более медленному общему хранилищу, [61] предпочитая хранилище с прямым подключением ( DAS ) в его различных формах от твердотельного накопителя ( SSD ) до диска SATA большой емкости , спрятанного внутри параллельных узлов обработки. Восприятие архитектур общего хранения — сетей хранения данных (SAN) и сетевых хранилищ (NAS) — заключается в том, что они относительно медленные, сложные и дорогие. Эти качества не соответствуют системам аналитики больших данных, которые процветают за счет производительности системы, товарной инфраструктуры и низкой стоимости.

Реальная или почти реальная доставка информации является одной из определяющих характеристик аналитики больших данных. Поэтому задержки избегаются всегда и везде, где это возможно. Данные в памяти или на диске с прямым подключением хороши — данные в памяти или на диске на другом конце соединения FC SAN — нет. Стоимость SAN в масштабе, необходимом для аналитических приложений, намного выше, чем другие методы хранения.

Приложения

Автобус, упакованный в большие данные SAP , припаркован возле IDF13

Большие данные настолько увеличили спрос на специалистов по управлению информацией, что Software AG , Oracle Corporation , IBM , Microsoft , SAP , EMC , HP и Dell потратили более 15 миллиардов долларов на компании по разработке программного обеспечения, специализирующиеся на управлении данными и аналитике. В 2010 году эта отрасль стоила более 100 миллиардов долларов и росла почти на 10 процентов в год, примерно в два раза быстрее, чем весь программный бизнес. [8]

Развитые экономики все больше используют технологии, требующие больших объемов данных. В мире насчитывается 4,6 млрд абонентов мобильной связи, а от 1 до 2 млрд человек имеют доступ к Интернету. [8] В период с 1990 по 2005 год более 1 млрд человек во всем мире вошли в средний класс, что означает, что больше людей стали более грамотными, что, в свою очередь, привело к росту информации. Эффективная емкость мира для обмена информацией через телекоммуникационные сети составляла 281 петабайт в 1986 году, 471 петабайт в 1993 году, 2,2 эксабайта в 2000 году, 65 эксабайт в 2007 году [13], а прогнозы говорят о том, что объем интернет-трафика к 2014 году составит 667 эксабайт в год. [8] Согласно одной из оценок, треть хранимой в мире информации находится в форме буквенно-цифрового текста и данных неподвижных изображений, [62] что является форматом, наиболее полезным для большинства приложений больших данных. Это также показывает потенциал еще неиспользованных данных (например, в форме видео- и аудиоконтента).

В то время как многие поставщики предлагают готовые продукты для больших данных, эксперты продвигают разработку собственных индивидуальных систем, если у компании есть достаточные технические возможности. [63]

Правительство

Использование и внедрение больших данных в правительственных процессах позволяет повысить эффективность с точки зрения затрат, производительности и инноваций, [64], но имеет недостатки. Анализ данных часто требует, чтобы несколько частей правительства (центрального и местного) работали в сотрудничестве и создавали новые и инновационные процессы для достижения желаемого результата. Распространенной правительственной организацией, которая использует большие данные, является Управление национальной безопасности ( АНБ ), которое постоянно отслеживает активность в Интернете в поисках потенциальных схем подозрительной или незаконной деятельности, которые может обнаружить их система.

Гражданская регистрация и статистика естественного движения населения (CRVS) собирает все сертификаты о состоянии от рождения до смерти. CRVS является источником больших данных для правительств.

Международное развитие

Исследования эффективного использования информационно-коммуникационных технологий для развития (также известных как «ICT4D») показывают, что технология больших данных может внести важный вклад, но также представляет уникальные проблемы для международного развития . [65] [66] Достижения в анализе больших данных предлагают экономически эффективные возможности для улучшения принятия решений в таких критически важных областях развития, как здравоохранение, занятость, экономическая производительность , преступность, безопасность, стихийные бедствия и управление ресурсами. [67] [ нужна страница ] [68] [69] Кроме того, данные, генерируемые пользователями, предлагают новые возможности дать голос тем, кого не слышат. [70] Однако давние проблемы развивающихся регионов, такие как неадекватная технологическая инфраструктура и нехватка экономических и человеческих ресурсов, усугубляют существующие проблемы с большими данными, такие как конфиденциальность, несовершенная методология и проблемы с совместимостью. [67] [ нужна страница ] Проблема «больших данных для развития» [67] [ нужна страница ] в настоящее время развивается в сторону применения этих данных с помощью машинного обучения, известного как «искусственный интеллект для развития (AI4D)». [71]

Преимущества

Основным практическим применением больших данных для развития стала «борьба с бедностью с помощью данных». [72] В 2015 году Блюменсток и его коллеги оценили прогнозируемую бедность и богатство на основе метаданных мобильных телефонов [73] , а в 2016 году Джин и его коллеги объединили спутниковые снимки и машинное обучение для прогнозирования бедности. [74] Используя данные цифрового следа для изучения рынка труда и цифровой экономики в Латинской Америке, Хильберт и его коллеги [75] [76] утверждают, что данные цифрового следа имеют ряд преимуществ, таких как:

Вызовы

В то же время работа с цифровыми данными трассировки вместо традиционных данных обследования не устраняет традиционных проблем, возникающих при работе в области международного количественного анализа. Приоритеты меняются, но основные дискуссии остаются прежними. Среди основных проблем:

Финансы

Большие данные быстро внедряются в финансах для 1) ускорения обработки и 2) предоставления более качественных и обоснованных выводов как внутри компании, так и для клиентов финансовых учреждений. [78] Финансовые приложения больших данных варьируются от инвестиционных решений и торговли (обработка объемов доступных ценовых данных, книг лимитных ордеров, экономических данных и многого другого, все одновременно), управления портфелем (оптимизация по все большему массиву финансовых инструментов, потенциально выбранных из разных классов активов), управления рисками (кредитный рейтинг на основе расширенной информации) и любого другого аспекта, где входные данные велики. [79] Большие данные также стали типичной концепцией в области альтернативных финансовых услуг . Некоторые из основных областей включают платформы краудфандинга и криптовалютные биржи. [80]

Здравоохранение

Аналитика больших данных использовалась в здравоохранении для предоставления персонализированной медицины и предписывающей аналитики , вмешательства в клинические риски и предиктивной аналитики, сокращения отходов и вариабельности ухода, автоматизированной внешней и внутренней отчетности по данным пациентов, стандартизированных медицинских терминов и реестров пациентов. [81] [82] [83] [84] Некоторые области улучшения более амбициозны, чем фактически реализованы. Уровень данных, генерируемых в системах здравоохранения, не является тривиальным. С дополнительным внедрением mHealth, eHealth и носимых технологий объем данных будет продолжать расти. Это включает в себя данные электронных медицинских карт , данные изображений, данные, генерируемые пациентами, данные датчиков и другие формы труднообрабатываемых данных. Сейчас существует еще большая потребность в таких средах уделять больше внимания качеству данных и информации. [85] «Большие данные очень часто означают « грязные данные », и доля неточностей в данных увеличивается с ростом объема данных». Человеческий контроль в масштабе больших данных невозможен, и существует отчаянная потребность в службах здравоохранения в интеллектуальных инструментах для контроля точности и достоверности и обработки пропущенной информации. [86] Хотя обширная информация в здравоохранении теперь находится в электронном виде, она попадает под зонтик больших данных, поскольку большая ее часть неструктурирована и сложна в использовании. [87] Использование больших данных в здравоохранении подняло значительные этические проблемы, начиная от рисков для индивидуальных прав, конфиденциальности и автономии до прозрачности и доверия. [88]

Большие данные в исследованиях в области здравоохранения особенно перспективны с точки зрения поисковых биомедицинских исследований, поскольку анализ на основе данных может продвигаться вперед быстрее, чем исследования на основе гипотез. [89] Затем тенденции, наблюдаемые в анализе данных, можно проверить в традиционных биологических исследованиях на основе гипотез и, в конечном итоге, в клинических исследованиях.

Связанная с этим область применения, которая в значительной степени опирается на большие данные, в области здравоохранения — это компьютерная диагностика в медицине. [90] [ нужна страница ] Например, для мониторинга эпилепсии обычно ежедневно создается от 5 до 10 ГБ данных. [91] Аналогично, одно несжатое изображение томосинтеза молочной железы в среднем содержит 450 МБ данных. [92] Это лишь некоторые из многочисленных примеров, когда компьютерная диагностика использует большие данные. По этой причине большие данные были признаны одной из семи ключевых проблем, которые необходимо преодолеть системам компьютерной диагностики, чтобы достичь следующего уровня производительности. [93]

Образование

Исследование McKinsey Global Institute выявило нехватку 1,5 миллиона высококвалифицированных специалистов и менеджеров по работе с данными [53] , и ряд университетов [94] [ нужен лучший источник ], включая Университет Теннесси и Калифорнийский университет в Беркли , создали магистерские программы для удовлетворения этого спроса. Частные учебные лагеря также разработали программы для удовлетворения этого спроса, включая платные программы, такие как The Data Incubator или General Assembly . [95] В конкретной области маркетинга одна из проблем, подчеркнутая Веделем и Каннаном [96], заключается в том, что маркетинг имеет несколько поддоменов (например, реклама, продвижение, разработка продукта, брендинг), которые все используют разные типы данных.

СМИ

Чтобы понять, как медиа используют большие данные, сначала необходимо предоставить некоторый контекст в механизм, используемый для медиапроцесса. Ник Коулдри и Джозеф Туроу предположили, что специалисты в области медиа и рекламы рассматривают большие данные как множество действенных точек информации о миллионах людей. Похоже, что отрасль отходит от традиционного подхода использования определенных медиасред, таких как газеты, журналы или телевизионные шоу, и вместо этого подключается к потребителям с помощью технологий, которые достигают целевых людей в оптимальное время в оптимальных местах. Конечная цель состоит в том, чтобы обслуживать или передавать сообщение или контент, которые (статистически говоря) соответствуют мышлению потребителя. Например, издательские среды все чаще адаптируют сообщения (рекламу) и контент (статьи) для привлечения потребителей, которые были исключительно собраны с помощью различных мероприятий по добыче данных . [97]

Channel 4 , британский общественный телеканал, является лидером в области больших данных и анализа данных . [99]

Страхование

Поставщики медицинского страхования собирают данные о социальных «детерминантах здоровья», таких как потребление пищи и телевидения , семейное положение, размер одежды и покупательские привычки, на основе которых они делают прогнозы расходов на здравоохранение, чтобы выявлять проблемы со здоровьем у своих клиентов. Спорным является вопрос о том, используются ли эти прогнозы в настоящее время для ценообразования. [100]

Интернет вещей (IoT)

Большие данные и IoT работают совместно. Данные, извлеченные из устройств IoT, обеспечивают отображение взаимосвязи устройств. Такие отображения использовались медиаиндустрией, компаниями и правительствами для более точного определения целевой аудитории и повышения эффективности медиа. IoT также все чаще используется как средство сбора сенсорных данных, и эти сенсорные данные используются в медицинских, [101] производственных [102] и транспортных [103] контекстах.

Кевин Эштон , эксперт по цифровым инновациям, которому приписывают создание этого термина, [104] определяет Интернет вещей в следующей цитате: «Если бы у нас были компьютеры, которые знали бы все, что только можно знать о вещах, — используя данные, которые они собирали без какой-либо помощи с нашей стороны, — мы бы могли отслеживать и подсчитывать все и значительно сокращать отходы, потери и затраты. Мы бы знали, когда вещи нуждаются в замене, ремонте или отзыве, и являются ли они новыми или уже не в лучшем состоянии».

Информационные технологии

Особенно с 2015 года большие данные стали играть видную роль в бизнес-операциях как инструмент, помогающий сотрудникам работать более эффективно и упрощающий сбор и распространение информационных технологий (ИТ). Использование больших данных для решения проблем ИТ и сбора данных на предприятии называется аналитикой ИТ-операций (ITOA). [105] Применяя принципы больших данных к концепциям машинного интеллекта и глубоких вычислений, ИТ-отделы могут прогнозировать потенциальные проблемы и предотвращать их. [105] Компании ITOA предлагают платформы для управления системами , которые объединяют хранилища данных и генерируют информацию из всей системы, а не из изолированных карманов данных.

Наука о наблюдении

По сравнению со сбором данных на основе опросов , большие данные имеют низкую стоимость за точку данных, применяют методы анализа с помощью машинного обучения и интеллектуального анализа данных и включают разнообразные и новые источники данных, например, регистры, социальные сети, приложения и другие формы цифровых данных. С 2018 года ученые, занимающиеся опросами, начали изучать, как большие данные и наука об опросах могут дополнять друг друга, чтобы позволить исследователям и практикам улучшить производство статистики и ее качество. Было проведено три конференции Big Data Meets Survey Science (BigSurv) в 2018, 2020 (виртуально), 2023 и по состоянию на 2023 год одна конференция, предстоящая в 2025 году, [106] специальный выпуск в Social Science Computer Review , [107] специальный выпуск в Journal of the Royal Statistical Society , [108] и специальный выпуск в EP J Data Science , [109] и книга под названием Big Data Meets Social Sciences [110] под редакцией Крейга Хилла и пяти других членов Американской статистической ассоциации . В 2021 году основатели BigSurv получили премию Warren J. Mitofsky Innovators Award от Американской ассоциации исследований общественного мнения . [111]

Маркетинг

Большие данные примечательны в маркетинге из-за постоянной «датафикации» [112] повседневных потребителей интернета, в которой отслеживаются все формы данных. Датафикация потребителей может быть определена как количественная оценка многих или всех видов человеческого поведения в целях маркетинга. [112] Все более цифровой мир быстрой датафикации делает эту идею актуальной для маркетинга, поскольку объем данных постоянно растет экспоненциально. Прогнозируется, что он увеличится с 44 до 163 зеттабайт в течение пяти лет. [113] Размер больших данных часто может быть сложным для ориентации для маркетологов. [114] В результате, последователи больших данных могут оказаться в невыгодном положении. Алгоритмические выводы может быть трудно достичь с такими большими наборами данных. [115] Большие данные в маркетинге являются весьма прибыльным инструментом, который может использоваться крупными корпорациями, его ценность заключается в возможности прогнозирования значительных тенденций, интересов или статистических результатов на основе потребителя. [116]

Существует три существенных фактора использования больших данных в маркетинге:

  1. Большие данные предоставляют маркетологам возможность отслеживать модели поведения клиентов, поскольку все действия человека количественно преобразуются в читаемые числа, которые маркетологи могут анализировать и использовать для своих исследований. [117] Кроме того, большие данные можно также рассматривать как инструмент для индивидуальной рекомендации продуктов. В частности, поскольку большие данные эффективны при анализе покупательского поведения клиентов и моделей просмотра, эта технология может помочь компаниям в продвижении определенных персонализированных продуктов для определенных клиентов. [118]
  2. Реагирование на рынок в режиме реального времени важно для маркетологов из-за возможности перенаправлять маркетинговые усилия и корректировать текущие тенденции, что полезно для поддержания релевантности для потребителей. Это может предоставить корпорациям информацию, необходимую для прогнозирования желаний и потребностей потребителей заранее. [117]
  3. Рыночная амбидекстрия, основанная на данных, в значительной степени подпитывается большими данными. [117] Разрабатываются новые модели и алгоритмы, позволяющие делать существенные прогнозы относительно определенных экономических и социальных ситуаций. [119]

Примеры исследований

Правительство

Китай

Индия

Израиль

Великобритания

Примеры использования больших данных в государственных услугах:

Соединенные Штаты

Розничная торговля

Наука

Спорт

Большие данные могут быть использованы для улучшения подготовки и понимания конкурентов, используя спортивные датчики. Также возможно предсказать победителей в матче, используя аналитику больших данных. [160] Будущие результаты игроков также могут быть предсказаны. [161] Таким образом, стоимость и зарплата игроков определяются данными, собранными в течение сезона. [162]

В гонках Формулы-1 гоночные автомобили с сотнями датчиков генерируют терабайты данных. Эти датчики собирают данные от давления в шинах до эффективности сжигания топлива. [163] На основе этих данных инженеры и аналитики данных решают, следует ли вносить коррективы, чтобы выиграть гонку. Кроме того, используя большие данные, гоночные команды пытаются заранее предсказать время, когда они закончат гонку, на основе моделирования с использованием данных, собранных за сезон. [164]

Технологии

COVID-19

Во время пандемии COVID-19 большие данные были подняты как способ минимизировать воздействие болезни. Значительные приложения больших данных включали минимизацию распространения вируса, идентификацию случаев и разработку медицинского лечения. [170]

Правительства использовали большие данные для отслеживания инфицированных людей, чтобы минимизировать распространение. Среди первых последователей были Китай, Тайвань, Южная Корея и Израиль. [171] [172] [173]

Научно-исследовательская деятельность

Зашифрованный поиск и формирование кластеров в больших данных были продемонстрированы в марте 2014 года в Американском обществе инженерного образования. Гаутам Сивах, работающий в лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института , и Амир Эсмаилпур из исследовательской группы UNH исследовали ключевые особенности больших данных, такие как формирование кластеров и их взаимосвязи. Они сосредоточились на безопасности больших данных и ориентации термина на наличие различных типов данных в зашифрованной форме в облачном интерфейсе, предоставив необработанные определения и примеры в реальном времени в рамках технологии. Более того, они предложили подход к определению метода кодирования для продвижения к ускоренному поиску по зашифрованному тексту, что приведет к повышению безопасности больших данных. [174]

В марте 2012 года Белый дом объявил о национальной «Инициативе по большим данным», в рамках которой шесть федеральных департаментов и агентств выделили более 200 миллионов долларов на исследовательские проекты в области больших данных. [175]

Инициатива включала грант Национального научного фонда «Экспедиции в вычислительную технику» в размере 10 миллионов долларов на пять лет для AMPLab [176] в Калифорнийском университете в Беркли. [177] AMPLab также получила финансирование от DARPA и более десятка промышленных спонсоров и использует большие данные для решения широкого спектра проблем: от прогнозирования заторов на дорогах [178] до борьбы с раком. [179]

Инициатива Белого дома по большим данным также включала обязательство Министерства энергетики предоставить 25 миллионов долларов в течение пяти лет на создание Института масштабируемого управления данными, анализа и визуализации (SDAV) [180] под руководством Национальной лаборатории Лоуренса в Беркли Министерства энергетики . Институт SDAV стремится объединить опыт шести национальных лабораторий и семи университетов для разработки новых инструментов, которые помогут ученым управлять данными и визуализировать их на суперкомпьютерах Министерства.

В мае 2012 года американский штат Массачусетс объявил о Массачусетской инициативе больших данных, которая обеспечивает финансирование со стороны правительства штата и частных компаний различным научно-исследовательским институтам. [181] Массачусетский технологический институт размещает Научно-технический центр больших данных Intel в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института , объединяя государственное, корпоративное и институциональное финансирование и исследовательские усилия. [182]

Европейская комиссия финансирует двухгодичный Форум государственных и частных данных Big Data через свою Седьмую рамочную программу, чтобы привлечь компании, ученых и других заинтересованных лиц к обсуждению вопросов больших данных. Целью проекта является определение стратегии с точки зрения исследований и инноваций для руководства поддерживающими действиями Европейской комиссии в успешном внедрении экономики больших данных. Результаты этого проекта будут использованы в качестве вклада для Horizon 2020 , их следующей рамочной программы . [183]

В марте 2014 года британское правительство объявило об основании Института Алана Тьюринга , названного в честь пионера компьютерной техники и дешифровщика, который будет заниматься новыми способами сбора и анализа больших наборов данных. [184]

В рамках Дня вдохновения на мероприятии Canadian Open Data Experience (CODE) в кампусе Университета Ватерлоо в Стратфорде участники продемонстрировали, как использование визуализации данных может повысить понимание и привлекательность больших наборов данных, а также донести их историю до всего мира. [185]

Вычислительные социальные науки  – Любой может использовать интерфейсы прикладного программирования (API), предоставляемые держателями больших данных, такими как Google и Twitter, для проведения исследований в социальных и поведенческих науках. [186] Часто эти API предоставляются бесплатно. [186] Тобиас Прейс и др. использовали данные Google Trends , чтобы продемонстрировать, что интернет-пользователи из стран с более высоким валовым внутренним продуктом (ВВП) на душу населения с большей вероятностью ищут информацию о будущем, чем информацию о прошлом. Результаты показывают, что может существовать связь между поведением в Интернете и реальными экономическими показателями. [187] [188] [189] Авторы исследования изучили журналы запросов Google, составленные по соотношению объема поисковых запросов на следующий год (2011) к объему поисковых запросов на предыдущий год (2009), который они называют « индексом ориентации на будущее ». [190] Они сравнили индекс ориентации на будущее с ВВП на душу населения каждой страны и обнаружили выраженную тенденцию к более высокому ВВП в странах, где пользователи Google больше интересуются будущим.

Тобиас Прейс и его коллеги Хелен Сусанна Моут и Х. Юджин Стэнли представили метод определения онлайн-предвестников движений фондового рынка, используя торговые стратегии, основанные на данных об объеме поиска, предоставленных Google Trends. [191] Их анализ объема поиска Google для 98 терминов различной финансовой значимости, опубликованный в Scientific Reports , [192] предполагает, что увеличение объема поиска для финансово релевантных поисковых терминов, как правило, предшествует крупным потерям на финансовых рынках. [193] [194] [195] [196] [197] [198] [199]

Большие наборы данных сопровождаются алгоритмическими вызовами, которых раньше не было. Поэтому некоторые считают необходимым кардинально изменить способы обработки. [200]

Выборка больших данных

Исследовательский вопрос, который задают о больших наборах данных, заключается в том, необходимо ли просматривать полные данные, чтобы сделать определенные выводы о свойствах данных, или достаточно выборки. Само название «большие данные» содержит термин, связанный с размером, и это важная характеристика больших данных. Но выборка позволяет выбирать правильные точки данных из большего набора данных для оценки характеристик всей популяции. При производстве различные типы сенсорных данных, такие как акустика, вибрация, давление, ток, напряжение и данные контроллера, доступны в короткие промежутки времени. Для прогнозирования простоя может не быть необходимости просматривать все данные, но выборки может быть достаточно. Большие данные можно разбить по различным категориям точек данных, таким как демографические, психографические, поведенческие и транзакционные данные. С большими наборами точек данных маркетологи могут создавать и использовать более индивидуальные сегменты потребителей для более стратегического таргетинга.

Критика

Критика парадигмы больших данных бывает двух видов: те, которые подвергают сомнению последствия самого подхода, и те, которые подвергают сомнению то, как он осуществляется в настоящее время. [201] Одним из подходов к этой критике является область критических исследований данных .

Критика парадигмы больших данных

«Важнейшей проблемой является то, что мы мало знаем о базовых эмпирических микропроцессах, которые приводят к появлению [этих] типичных сетевых характеристик Больших данных». [25] [ нужна страница ] В своей критике Снайдерс, Мацат и Рейпс отмечают, что часто делаются очень сильные предположения о математических свойствах, которые могут вообще не отражать того, что на самом деле происходит на уровне микропроцессов. Марк Грэм подверг широкой критике утверждение Криса Андерсона о том, что большие данные положат конец теории: [202] сосредоточившись, в частности, на идее о том, что большие данные всегда должны быть контекстуализированы в их социальном, экономическом и политическом контекстах. [203] Даже когда компании инвестируют восьми- и девятизначные суммы, чтобы извлечь понимание из информации, поступающей от поставщиков и клиентов, менее 40% сотрудников имеют достаточно зрелые процессы и навыки, чтобы сделать это. Чтобы преодолеть этот дефицит понимания, большие данные, независимо от того, насколько они полны или хорошо проанализированы, должны быть дополнены «большим суждением», согласно статье в Harvard Business Review . [204]

В том же духе было отмечено, что решения, основанные на анализе больших данных, неизбежно «информируются о мире, каким он был в прошлом, или, в лучшем случае, каким он является в настоящее время». [67] [ нужна страница ] Подпитываемые большим количеством данных о прошлом опыте, алгоритмы могут предсказывать будущее развитие, если будущее похоже на прошлое. [205] Если динамика системы будущего изменится (если это не стационарный процесс ), прошлое мало что может сказать о будущем. Чтобы делать прогнозы в изменяющихся условиях, необходимо иметь полное понимание динамики системы, что требует теории. [205] В ответ на эту критику Алемани Оливер и Вейр предлагают использовать «абдуктивное рассуждение в качестве первого шага в процессе исследования, чтобы привнести контекст в цифровые следы потребителей и заставить появиться новые теории». [206] Кроме того, было предложено объединить подходы больших данных с компьютерным моделированием, таким как основанные на агентах модели [67] [ нужна страница ] и сложные системы . Основанные на агентах модели становятся все более совершенными в прогнозировании результатов социальных сложностей даже неизвестных будущих сценариев с помощью компьютерного моделирования, которое основано на наборе взаимозависимых алгоритмов. [207] [208] Наконец, использование многомерных методов, которые исследуют скрытую структуру данных, таких как факторный анализ и кластерный анализ , доказали свою полезность в качестве аналитических подходов, которые выходят далеко за рамки двумерных подходов (например, таблиц сопряженности ), обычно используемых с меньшими наборами данных.

В здравоохранении и биологии традиционные научные подходы основаны на экспериментировании. Для этих подходов ограничивающим фактором являются соответствующие данные, которые могут подтвердить или опровергнуть первоначальную гипотезу. [209] В настоящее время в биологических науках принят новый постулат: информация, предоставляемая данными в огромных объемах ( омики ) без предшествующих гипотез, является дополнительной и иногда необходимой для традиционных подходов, основанных на экспериментировании. [210] [211] В массовых подходах ограничивающим фактором является формулирование соответствующей гипотезы для объяснения данных. [212] Логика поиска перевернута, и следует учитывать пределы индукции («Слава науки и философский скандал», CD Broad , 1926). [ необходима цитата ]

Сторонники конфиденциальности обеспокоены угрозой конфиденциальности, которую представляет собой увеличение объема хранения и интеграции персонально идентифицируемой информации ; экспертные группы выпустили различные рекомендации по политике, направленные на то, чтобы привести практику в соответствие с ожиданиями в отношении конфиденциальности. [213] Неправомерное использование больших данных в ряде случаев средствами массовой информации, компаниями и даже правительством привело к подрыву доверия практически ко всем основным институтам, поддерживающим общество. [214]

Барокас и Ниссенбаум утверждают, что одним из способов защиты отдельных пользователей является информирование о типах собираемой информации, с кем она передается, при каких ограничениях и для каких целей. [215]

Критика модели «V»

Модель больших данных "V" вызывает беспокойство, поскольку она сосредоточена на вычислительной масштабируемости и не имеет потерь в отношении воспринимаемости и понятности информации. Это привело к созданию структуры когнитивных больших данных, которая характеризует приложения больших данных в соответствии с: [216]

Критика новизны

Большие наборы данных анализировались вычислительными машинами более века, включая аналитику переписи населения США, выполненную перфокарточными машинами IBM, которые вычисляли статистику, включая средние значения и дисперсии популяций по всему континенту. В последние десятилетия научные эксперименты, такие как CERN , производили данные в масштабах, схожих с нынешними коммерческими «большими данными». Однако научные эксперименты имели тенденцию анализировать свои данные с использованием специализированных высокопроизводительных вычислительных кластеров и сеток, созданных на заказ (суперкомпьютеров), а не облаков дешевых обычных компьютеров, как в нынешней коммерческой волне, что подразумевает разницу как в культуре, так и в технологическом стеке.

Критика обработки больших данных

Ульф-Дитрих Рейпс и Уве Мацат в 2014 году писали, что большие данные стали «модой» в научных исследованиях. [186] Исследователь Дана Бойд выразила обеспокоенность по поводу использования больших данных в науке, пренебрегая такими принципами, как выбор репрезентативной выборки , из-за чрезмерной озабоченности обработкой огромных объемов данных. [217] Такой подход может привести к результатам, которые в той или иной степени имеют предвзятость . [218] Интеграция разнородных ресурсов данных — некоторые из которых можно считать большими данными, а другие нет — представляет собой серьезные логистические и аналитические проблемы, но многие исследователи утверждают, что такая интеграция, вероятно, будет представлять собой самые многообещающие новые рубежи в науке. [219] В провокационной статье «Критические вопросы для больших данных» [220] авторы называют большие данные частью мифологии : «большие наборы данных предлагают более высокую форму интеллекта и знаний [...], с аурой истины, объективности и точности». Пользователи больших данных часто «теряются в огромном объеме чисел», а «работа с большими данными по-прежнему субъективна, и то, что они количественно определяют, не обязательно имеет более близкое отношение к объективной истине». [220] Недавние разработки в области BI, такие как проактивная отчетность, особенно нацелены на улучшение удобства использования больших данных посредством автоматической фильтрации бесполезных данных и корреляций . [221] Большие структуры полны ложных корреляций [222] либо из-за некаузальных совпадений ( закон действительно больших чисел ), исключительно из-за природы большой случайности [223] ( теория Рэмси ), либо из-за существования невключенных факторов , поэтому надежда ранних экспериментаторов заставить большие базы данных чисел «говорить сами за себя» и произвести революцию в научном методе ставится под сомнение. [224] Кэтрин Такер указала на «шумиху» вокруг больших данных, написав: «Сами по себе большие данные вряд ли будут ценными». В статье поясняется: «Многие контексты, в которых данные обходятся дешевле по сравнению со стоимостью удержания специалистов для их обработки, свидетельствуют о том, что навыки обработки важнее, чем сами данные, для создания ценности для фирмы». [225]

Анализ больших данных часто оказывается поверхностным по сравнению с анализом меньших наборов данных. [226] Во многих проектах с большими данными не проводится анализ больших данных, но проблема заключается в извлечении, преобразовании и загрузке части предварительной обработки данных. [226]

Большие данные — это модное слово и «неопределенный термин» [227] [228], но в то же время «одержимость» [228] предпринимателей, консультантов, ученых и СМИ. Такие примеры больших данных, как Google Flu Trends, не смогли предоставить хороших прогнозов в последние годы, преувеличив вспышки гриппа в два раза. Аналогично, награды Академии и прогнозы выборов, основанные исключительно на Twitter, чаще оказывались неточными, чем точными. Большие данные часто создают те же проблемы, что и малые данные; добавление дополнительных данных не решает проблемы предвзятости, но может подчеркнуть другие проблемы. В частности, такие источники данных, как Twitter, не являются репрезентативными для всего населения, и результаты, полученные из таких источников, могут затем привести к неправильным выводам. Google Translate , который основан на статистическом анализе больших данных текста, хорошо справляется с переводом веб-страниц. Однако результаты из специализированных доменов могут быть существенно искажены. С другой стороны, большие данные могут также привнести новые проблемы, такие как проблема множественных сравнений : одновременная проверка большого набора гипотез, вероятно, даст много ложных результатов, которые ошибочно кажутся значимыми. Иоаннидис утверждал, что «большинство опубликованных результатов исследований ложны» [229] из-за по сути того же эффекта: когда много научных групп и исследователей каждый проводит много экспериментов (т. е. обрабатывают большой объем научных данных; хотя и не с помощью технологии больших данных), вероятность того, что «значимый» результат окажется ложным, быстро растет — тем более, когда публикуются только положительные результаты. Более того, результаты аналитики больших данных настолько хороши, насколько хороша модель, на которой они основаны. Например, большие данные участвовали в попытке предсказать результаты президентских выборов в США 2016 года [230] с разной степенью успеха.

Критика полицейской деятельности и наблюдения за большими данными

Большие данные использовались в полицейской деятельности и наблюдении такими институтами, как правоохранительные органы и корпорации . [231] Из-за менее заметной природы наблюдения на основе данных по сравнению с традиционными методами полицейской деятельности возражения против полицейской деятельности на основе больших данных возникают реже. Согласно книге Сары Брейн « Наблюдение за большими данными: случай полицейской деятельности» , [232] полицейская деятельность на основе больших данных может воспроизводить существующее социальное неравенство тремя способами:

Если эти потенциальные проблемы не будут исправлены или отрегулированы, последствия полицейской деятельности на основе больших данных могут продолжать формировать общественные иерархии. Осознанное использование полицейской деятельности на основе больших данных может предотвратить превращение предубеждений на индивидуальном уровне в институциональные предубеждения, также отмечает Брейн.

Смотрите также

Ссылки

  1. ^ Hilbert, Martin; López, Priscila (2011). «Технологические возможности мира по хранению, передаче и вычислению информации». Science . 332 (6025): 60–65. Bibcode :2011Sci...332...60H. doi : 10.1126/science.1200970 . PMID  21310967. S2CID  206531385. Архивировано из оригинала 14 апреля 2016 г. Получено 13 апреля 2016 г.
  2. ^ Брейр, Том (июль 2016 г.). «Статистический анализ мощности и современный «кризис» в социальных науках». Журнал маркетинговой аналитики . 4 (2–3). Лондон, Англия: Palgrave Macmillan : 61–65. doi : 10.1057/s41270-016-0001-3 . ISSN  2050-3318.
  3. ^ Махдави-Дамгани, Бабак (2019). Модели, управляемые данными, и математические финансы: противопоставление или оппозиция? (диссертация доктора философии). Оксфорд, Англия: Оксфордский университет . стр. 21. SSRN  3521933.
  4. ^ Макафи, Эндрю; Бриньолфссон, Эрик (1 октября 2012 г.). «Большие данные: революция в управлении». Harvard Business Review . 90 (10): 60–66, 68, 128. ISSN  0017-8012. PMID  23074865.
  5. ^ ab "The 5 V's of big data". Watson Health Perspectives . 17 сентября 2016 г. Архивировано из оригинала 18 января 2021 г. Получено 20 января 2021 г.
  6. ^ Каппа, Франческо; Ориани, Раффаэле; Перуффо, Энцо; Маккарти, Ян (2021). «Большие данные для создания и получения ценности в цифровой среде: раскрытие влияния объема, разнообразия и достоверности на эффективность фирмы». Журнал управления инновациями в области продуктов . 38 (1): 49–67. doi : 10.1111/jpim.12545. ISSN  0737-6782. S2CID  225209179.
  7. ^ boyd, dana; Crawford, Kate (21 сентября 2011 г.). «Шесть провокаций для больших данных». Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society . doi : 10.2139/ssrn.1926431. S2CID  148610111. Архивировано из оригинала 28 февраля 2020 г. . Получено 12 июля 2019 г. .
  8. ^ abcdefg "Данные, данные повсюду". The Economist . 25 февраля 2010 г. Архивировано из оригинала 27 мая 2018 г. Получено 9 декабря 2012 г.
  9. ^ "Требуется ум сообщества". Nature . 455 (7209): 1. Сентябрь 2008. Bibcode :2008Natur.455....1.. doi : 10.1038/455001a . PMID  18769385.
  10. ^ Райхман О.Дж., Джонс М.Б., член парламента Шильдхауэра (февраль 2011 г.). «Вызовы и возможности открытых данных в экологии». Наука . 331 (6018): 703–5. Бибкод : 2011Sci...331..703R. дои : 10.1126/science.1197962. PMID  21311007. S2CID  22686503. Архивировано из оригинала 19 октября 2020 года . Проверено 12 июля 2019 г.
  11. ^ Хеллерстайн, Джо (9 ноября 2008 г.). «Параллельное программирование в эпоху больших данных». Блог Gigaom . Архивировано из оригинала 7 октября 2012 г. Получено 21 апреля 2010 г.
  12. ^ Сегаран, Тоби; Хаммербахер, Джефф (2009). Красивые данные: истории, стоящие за элегантными решениями в области данных. O'Reilly Media. стр. 257. ISBN 978-0-596-15711-1. Архивировано из оригинала 12 мая 2016 . Получено 31 декабря 2015 .
  13. ^ ab Hilbert M, López P (апрель 2011 г.). «Технологические возможности мира по хранению, передаче и вычислению информации» (PDF) . Science . 332 (6025): 60–5. Bibcode :2011Sci...332...60H. doi :10.1126/science.1200970. PMID  21310967. S2CID  206531385. Архивировано (PDF) из оригинала 19 августа 2019 г. . Получено 11 мая 2019 г. .
  14. ^ "IBM What is big data? – Bringing big data to the enterprise". ibm.com. Архивировано из оригинала 24 августа 2013 г. Получено 26 августа 2013 г.
  15. ^ Рейнсел, Дэвид; Ганц, Джон; Райднинг, Джон (13 апреля 2017 г.). «Век данных 2025: Эволюция данных в критически важные для жизни» (PDF) . seagate.com . Фрамингем, Массачусетс, США: International Data Corporation . Архивировано (PDF) из оригинала 8 декабря 2017 г. . Получено 2 ноября 2017 г. .
  16. ^ "Глобальные расходы на решения для больших данных и аналитики достигнут 215,7 млрд долларов в 2021 году, согласно новому руководству IDC по расходам". Архивировано из оригинала 23 июля 2022 года . Получено 31 июля 2022 года .
  17. ^ «Доходы от больших данных и бизнес-аналитики в 2022 году».
  18. ^ «Объем мирового рынка больших данных в 2011–2027 гг.».
  19. ^ abc Большие данные: новый рубеж инноваций, конкуренции и производительности McKinsey Global Institute май 2011 г.
  20. Oracle и FSN, «Освоение больших данных: стратегии финансовых директоров по преобразованию информации в возможности». Архивировано 4 августа 2013 г. в Wayback Machine , декабрь 2012 г.
  21. ^ Jacobs, A. (6 июля 2009 г.). «Патологии больших данных». ACMQueue . Архивировано из оригинала 8 декабря 2015 г. Получено 21 апреля 2010 г.
  22. ^ Magoulas, Roger; Lorica, Ben (февраль 2009 г.). «Введение в большие данные». Выпуск 2.0 (11). Севастополь, Калифорния: O'Reilly Media. Архивировано из оригинала 2 ноября 2021 г. Получено 26 февраля 2021 г.
  23. ^ Джон Р. Маши (25 апреля 1998 г.). «Большие данные… и следующая волна инфраструктурного стресса» (PDF) . Слайды из приглашенного доклада . Usenix. Архивировано (PDF) из оригинала 12 октября 2016 г. Получено 28 сентября 2016 г.
  24. ^ Стив Лор (1 февраля 2013 г.). «Истоки «больших данных»: этимологическая детективная история». The New York Times . Архивировано из оригинала 6 марта 2016 г. Получено 28 сентября 2016 г.
  25. ^ аб Снейдерс, Мацат и Рейпс 2012.
  26. ^ Дедич, Н.; Станиер, К. (2017). «На пути к дифференциации бизнес-аналитики, больших данных, аналитики данных и обнаружения знаний». Инновации в управлении и проектировании корпоративных информационных систем . Конспект лекций по обработке деловой информации. Том 285. Берлин; Гейдельберг: Springer International Publishing. С. 114–22. doi :10.1007/978-3-319-58801-8_10. ISBN 978-3-319-58800-1. ISSN  1865-1356. OCLC  909580101. Архивировано из оригинала 27 ноября 2020 г. . Получено 7 сентября 2019 г. .
  27. ^ Эвертс, Сара (2016). «Информационная перегрузка». Дистилляции . Том 2, № 2. стр. 26–33. Архивировано из оригинала 3 апреля 2019 г. Получено 22 марта 2018 г.
  28. ^ Ибрагим; Таргио Хашем, Абакер; Якуб, Ибрар; Бадрул Ануар, Нор; Мохтар, Салима; Гани, Абдулла; Улла Хан, Сами (2015). «Большие данные» об облачных вычислениях: обзор и открытые вопросы исследования». Информационные системы . 47 : 98–115. doi : 10.1016/j.is.2014.07.006. S2CID  205488005.
  29. ^ Граймс, Сет. «Большие данные: избегайте путаницы с «Wanna V». InformationWeek . Архивировано из оригинала 23 декабря 2015 г. Получено 5 января 2016 г.
  30. ^ Фокс, Чарльз (25 марта 2018 г.). Наука о данных для транспорта. Учебники Springer по наукам о Земле, географии и окружающей среде. Springer. ISBN 9783319729527. Архивировано из оригинала 1 апреля 2018 г. . Получено 31 марта 2018 г. .
  31. ^ Китчин, Роб; МакАрдл, Гэвин (2016). «Что делает Большие Данные Большими Данными? Изучение онтологических характеристик 26 наборов данных». Большие Данные и Общество . 3 : 1–10. doi : 10.1177/2053951716631130 . S2CID  55539845.
  32. ^ Балазка, Доминик; Родигьеро, Дарио (2020). «Большие данные и маленький большой взрыв: эпистемологическая (р)эволюция». Frontiers in Big Data . 3 : 31. doi : 10.3389/fdata.2020.00031 . hdl : 1721.1 /128865 . PMC 7931920. PMID  33693404. 
  33. ^ "avec focalisation sur Big Data & Analytique" (PDF) . Bigdataparis.com . Архивировано из оригинала (PDF) 25 февраля 2021 г. . Получено 8 октября 2017 г. .
  34. ^ ab Billings SA "Нелинейная системная идентификация: методы NARMAX во временной, частотной и пространственно-временной областях". Wiley, 2013
  35. ^ "le Blog ANDSI » DSI Big Data". Andsi.fr . Архивировано из оригинала 10 октября 2017 г. . Получено 8 октября 2017 г. .
  36. ^ Les Echos (3 апреля 2013 г.). «Les Echos - Автомобиль больших данных с низкой плотностью данных? Неверная плотность информации как дискриминант - Архивы». Lesechos.fr . Архивировано из оригинала 30 апреля 2014 года . Проверено 8 октября 2017 г.
  37. ^ Sagiroglu, Seref (2013). «Большие данные: обзор». Международная конференция по технологиям и системам совместной работы (CTS) 2013 г. стр. 42–47. doi :10.1109/CTS.2013.6567202. ISBN 978-1-4673-6404-1. S2CID  5724608.
  38. ^ Китчин, Роб; МакАрдл, Гэвин (17 февраля 2016 г.). «Что делает Большие Данные Большими Данными? Изучение онтологических характеристик 26 наборов данных». Большие Данные и Общество . 3 (1): 205395171663113. doi : 10.1177/2053951716631130 .
  39. ^ Онай, Джейлан; Озтюрк, Элиф (2018). «Обзор исследований кредитного скоринга в эпоху больших данных». Журнал финансового регулирования и соответствия . 26 (3): 382–405. doi :10.1108/JFRC-06-2017-0054. S2CID  158895306.
  40. ^ Четвертый V больших данных
  41. ^ "Измерение ценности больших данных для бизнеса | IBM Big Data & Analytics Hub". www.ibmbigdatahub.com . Архивировано из оригинала 28 января 2021 г. . Получено 20 января 2021 г. .
  42. ^ Китчин, Роб; МакАрдл, Гэвин (5 января 2016 г.). «Что делает Большие Данные Большими Данными? Изучение онтологических характеристик 26 наборов данных». Большие Данные и Общество . 3 (1): 205395171663113. doi : 10.1177/2053951716631130 . ISSN  2053-9517.
  43. ^ "Survey: Крупнейшие базы данных приближаются к 30 терабайтам". Eweek.com . 8 ноября 2003 г. Получено 8 октября 2017 г.
  44. ^ "LexisNexis купит Seisint за 775 миллионов долларов". The Washington Post . Архивировано из оригинала 24 июля 2008 года . Получено 15 июля 2004 года .
  45. ^ "The Washington Post". The Washington Post . Архивировано из оригинала 19 октября 2016 года . Получено 24 августа 2017 года .
  46. Бертолуччи, Джефф «Hadoop: от эксперимента к ведущей платформе больших данных». Архивировано 23 ноября 2020 г. в Wayback Machine , «Information Week», 2013. Получено 14 ноября 2013 г.
  47. ^ Вебстер, Джон. «MapReduce: упрощенная обработка данных на больших кластерах». Архивировано 14 декабря 2009 г. на Wayback Machine , «Search Storage», 2004. Получено 25 марта 2013 г.
  48. ^ "Big Data Solution Offering". MIKE2.0. Архивировано из оригинала 16 марта 2013 г. Получено 8 декабря 2013 г.
  49. ^ "Big Data Definition". MIKE2.0. Архивировано из оригинала 25 сентября 2018 года . Получено 9 марта 2013 года .
  50. ^ Боя, С; Поковнику, А; Бэтаган, Л. (2012). «Распределенная параллельная архитектура для больших данных». Информатика Экономика . 16 (2): 116–127.
  51. ^ «Решение ключевых бизнес-задач с помощью большого озера данных» (PDF) . Hcltech.com . Август 2014 г. Архивировано (PDF) из оригинала 3 июля 2017 г. . Получено 8 октября 2017 г. .
  52. ^ "Метод тестирования отказоустойчивости фреймворков MapReduce" (PDF) . Компьютерные сети. 2015. Архивировано (PDF) из оригинала 22 июля 2016 г. Получено 13 апреля 2016 г.
  53. ^ ab Manyika, James; Chui, Michael; Bughin, Jaques; Brown, Brad; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (май 2011 г.). «Большие данные: следующий рубеж инноваций, конкуренции и производительности» (PDF) . McKinsey Global Institute. Архивировано (PDF) из оригинала 25 июля 2021 г. . Получено 22 мая 2021 г. .
  54. ^ "Будущие направления в тензорных вычислениях и моделировании" (PDF) . Май 2009 г. Архивировано (PDF) из оригинала 17 апреля 2018 г. Получено 4 января 2013 г.
  55. ^ Lu, Haiping; Plataniotis, KN; Venetsanopoulos, AN (2011). "Обзор многолинейного обучения подпространства для тензорных данных" (PDF) . Распознавание образов . 44 (7): 1540–1551. Bibcode :2011PatRe..44.1540L. doi :10.1016/j.patcog.2011.01.004. Архивировано (PDF) из оригинала 10 июля 2019 г. . Получено 21 января 2013 г. .
  56. ^ Pllana, Sabri; Janciak, Ivan; Brezany, Peter; Wöhrer, Alexander (2016). «Обзор современного состояния языков интеллектуального анализа данных и интеграции запросов». 2011 14-я Международная конференция по сетевым информационным системам . IEEE Computer Society. стр. 341–348. arXiv : 1603.01113 . Bibcode :2016arXiv160301113P. doi :10.1109/NBiS.2011.58. ISBN 978-1-4577-0789-6. S2CID  9285984.
  57. ^ Ван, Яньдун; Голдстоун, Робин; Ю, Вэйкуань; Ван, Тенг (октябрь 2014 г.). «Характеристика и оптимизация MapReduce с резидентной памятью в системах HPC». 28-й Международный симпозиум IEEE по параллельной и распределенной обработке данных 2014 г. IEEE. стр. 799–808. doi :10.1109/IPDPS.2014.87. ISBN 978-1-4799-3800-1. S2CID  11157612.
  58. ^ L'Heureux, A.; Grolinger, K.; Elyamany, HF; Capretz, MAM (2017). «Машинное обучение с большими данными: проблемы и подходы». IEEE Access . 5 : 7776–7797. Bibcode : 2017IEEEA...5.7776L. doi : 10.1109/ACCESS.2017.2696365 . ISSN  2169-3536.
  59. ^ Монаш, Курт (30 апреля 2009 г.). «Два огромных хранилища данных eBay». Архивировано из оригинала 31 марта 2019 г. Получено 11 ноября 2010 г.
    Monash, Curt (6 октября 2010 г.). "eBay followup – Greenplum out, Teradata > 10 петабайт, Hadoop имеет некоторую ценность и многое другое". Архивировано из оригинала 31 марта 2019 г. Получено 11 ноября 2010 г.
  60. ^ "Ресурсы о том, как топологический анализ данных используется для анализа больших данных". Ayasdi. Архивировано из оригинала 3 марта 2013 г. Получено 5 марта 2013 г.
  61. ^ CNET News (1 апреля 2011 г.). «Сети хранения данных не должны применяться». Архивировано из оригинала 18 октября 2013 г. Получено 17 апреля 2013 г.
  62. ^ Хильберт, Мартин (2014). «Каково содержание технологически опосредованной информации и коммуникационной емкости мира: сколько текста, изображений, аудио и видео?». Информационное общество . 30 (2): 127–143. doi :10.1080/01972243.2013.873748. S2CID  45759014. Архивировано из оригинала 24 июня 2020 г. Получено 12 июля 2019 г.
  63. ^ Rajpurohit, Anmol (11 июля 2014 г.). «Интервью: Эми Гершкофф, директор по аналитике и анализу клиентов eBay, о том, как разрабатывать индивидуальные внутренние инструменты бизнес-аналитики». KDnuggets . Архивировано из оригинала 14 июля 2014 г. . Получено 14 июля 2014 г. . Как правило, я считаю, что готовые инструменты бизнес-аналитики не отвечают потребностям клиентов, которые хотят получать индивидуальные идеи из своих данных. Поэтому для средних и крупных организаций, имеющих доступ к сильным техническим талантам, я обычно рекомендую создавать индивидуальные внутренние решения.
  64. ^ "Правительство и большие данные: использование, проблемы и потенциал". Computerworld . 21 марта 2012 г. Архивировано из оригинала 15 сентября 2016 г. Получено 12 сентября 2016 г.
  65. ^ «Белая книга: Большие данные для развития: возможности и вызовы». Global Pulse . Организация Объединенных Наций. 2012. Архивировано из оригинала 1 июня 2020 года . Получено 13 апреля 2016 года .
  66. ^ «Большие данные, большое влияние: новые возможности для международного развития». Всемирный экономический форум и Vital Wave Consulting. Архивировано из оригинала 1 июня 2020 года . Получено 24 августа 2012 года .
  67. ^ abcde Гильберт 2016.
  68. ^ "Елена Квочко, Четыре способа говорить о больших данных (серия «Информационно-коммуникационные технологии для развития»)". worldbank.org. 4 декабря 2012 г. Архивировано из оригинала 15 декабря 2012 г. Получено 30 мая 2012 г.
  69. ^ "Daniele Medri: Big Data & Business: An on-going revolution". Статистика Просмотров. 21 октября 2013. Архивировано из оригинала 17 июня 2015. Получено 21 июня 2015 .
  70. ^ Тобиас Кноблох и Джулия Манске (11 января 2016 г.). «Ответственное использование данных». D+C, Развитие и сотрудничество . Архивировано из оригинала 13 января 2017 г. Получено 11 января 2017 г.
  71. ^ Mann, S., & Hilbert, M. (2020). AI4D: Искусственный интеллект для развития. International Journal of Communication, 14(0), 21. https://www.martinhilbert.net/ai4d-artificial-intelligence-for-development/ Архивировано 22 апреля 2021 г. в Wayback Machine
  72. ^ Blumenstock, JE (2016). Борьба с бедностью с помощью данных. Science, 353(6301), 753–754. https://doi.org/10.1126/science.aah5217 Архивировано 1 июня 2022 г. в Wayback Machine
  73. ^ Blumenstock, J., Cadamuro, G., & On, R. (2015). Прогнозирование бедности и богатства по метаданным мобильных телефонов. Science, 350(6264), 1073–1076. https://doi.org/10.1126/science.aac4420 Архивировано 1 июня 2022 г. в Wayback Machine
  74. ^ Джин, Н., Берк, М., Кси, М., Дэвис, В. М., Лобелл, Д. Б. и Эрмон, С. (2016). Объединение спутниковых снимков и машинного обучения для прогнозирования бедности. Science, 353(6301), 790–794. https://doi.org/10.1126/science.aaf7894 Архивировано 1 июня 2022 г. в Wayback Machine
  75. ^ ab Hilbert, M., & Lu, K. (2020). Онлайн-отслеживание рынка труда в Латинской Америке и Карибском бассейне (UN ECLAC LC/TS.2020/83; стр. 79). Экономическая комиссия Организации Объединенных Наций для Латинской Америки и Карибского бассейна. https://www.cepal.org/en/publications/45892-online-job-market-trace-latin-america-and-caribbean Архивировано 22 сентября 2020 г. на Wayback Machine
  76. ^ ЭКЛАК ООН (Экономическая комиссия ООН для Латинской Америки и Карибского бассейна). (2020). Отслеживание цифрового следа в Латинской Америке и Карибском бассейне: уроки, извлеченные из использования больших данных для оценки цифровой экономики (Производственное развитие, Гендерные вопросы LC/TS.2020/12; Documentos de Proyecto). ЭКЛАК ООН. https://repositorio.cepal.org/handle/11362/45484 Архивировано 18 сентября 2020 г. на Wayback Machine
  77. ^ Банерджи, Амитав; Чаудхури, Супракаш (2010). «Статистика без слез: популяции и выборки». Журнал промышленной психиатрии . 19 (1): 60–65. doi : 10.4103/0972-6748.77642 . ISSN  0972-6748. PMC 3105563. PMID 21694795  . 
  78. ^ Олдридж, Ирен (2016). Риск в реальном времени: что инвесторы должны знать о финтехе, высокочастотной торговле и внезапных сбоях. Стивен Кравчив. Сомерсет: John Wiley & Sons, Incorporated. ISBN 978-1-119-31906-1. OCLC  972292212.
  79. ^ Олдридж, Ирен (2021). Наука о больших данных в финансах. Марко Авельянеда. Хобокен, Нью-Джерси: Wiley. ISBN 978-1-119-60297-2. OCLC  1184122216.
  80. ^ Хасан, Мд. Моршадул; Попп, Йожеф; Олах, Юдит (12 марта 2020 г.). «Текущий ландшафт и влияние больших данных на финансы». Журнал больших данных . 7 (1): 21. doi : 10.1186/s40537-020-00291-z . ISSN  2196-1115.
  81. ^ Huser V, Cimino JJ (июль 2016 г.). «Надвигающиеся проблемы использования больших данных». Международный журнал радиационной онкологии, биологии, физики . 95 (3): 890–894. doi :10.1016/j.ijrobp.2015.10.060. PMC 4860172. PMID  26797535 . 
  82. ^ Sejdić, Ervin; Falk, Tiago H. (4 июля 2018 г.). Обработка сигналов и машинное обучение для больших биомедицинских данных . Sejdić, Ervin, Falk, Tiago H. [Место публикации не указано]. ISBN 9781351061216. OCLC  1044733829.{{cite book}}: CS1 maint: location missing publisher (link)
  83. ^ Рагхупати В., Рагхупати В. (декабрь 2014 г.). «Аналитика больших данных в здравоохранении: перспективы и потенциал». Health Information Science and Systems . 2 (1): 3. doi : 10.1186/2047-2501-2-3 . PMC 4341817. PMID  25825667 . 
  84. ^ Viceconti M, Hunter P, Hose R (июль 2015 г.). «Большие данные, большие знания: большие данные для персонализированного здравоохранения» (PDF) . IEEE Journal of Biomedical and Health Informatics . 19 (4): 1209–15. doi : 10.1109/JBHI.2015.2406883 . PMID  26218867. S2CID  14710821. Архивировано (PDF) из оригинала 23 июля 2018 г. . Получено 21 сентября 2019 г. .
  85. ^ О'Донохью, Джон; Герберт, Джон (1 октября 2012 г.). «Управление данными в средах мобильного здравоохранения: датчики пациентов, мобильные устройства и базы данных». Журнал качества данных и информации . 4 (1): 5:1–5:20. doi :10.1145/2378016.2378021. S2CID  2318649.
  86. ^ Mirkes EM, Coats TJ, Levesley J, Gorban AN (август 2016 г.). «Обработка отсутствующих данных в большом наборе данных здравоохранения: исследование случая неизвестных результатов травм». Компьютеры в биологии и медицине . 75 : 203–16. arXiv : 1604.00627 . Bibcode : 2016arXiv160400627M. doi : 10.1016/j.compbiomed.2016.06.004. PMID  27318570. S2CID  5874067.
  87. ^ Murdoch TB, Detsky AS (апрель 2013 г.). «Неизбежное применение больших данных в здравоохранении». JAMA . 309 (13): 1351–2. doi :10.1001/jama.2013.393. PMID  23549579. S2CID  20462354.
  88. ^ Vayena E, Salathé M, Madoff LC, Brownstein JS (февраль 2015 г.). «Этические проблемы больших данных в здравоохранении». PLOS Computational Biology . 11 (2): e1003904. Bibcode : 2015PLSCB..11E3904V. doi : 10.1371/journal.pcbi.1003904 . PMC 4321985. PMID  25664461 . 
  89. ^ Copeland, CS (июль–август 2017 г.). «Data Driving Discovery» (PDF) . Healthcare Journal of New Orleans : 22–27. Архивировано (PDF) из оригинала 5 декабря 2019 г. . Получено 5 декабря 2019 г. .
  90. ^ Янасэ и Триантафиллу 2019.
  91. ^ Dong X, Bahroos N, Sadhu E, Jackson T, Chukhman M, Johnson R, Boyd A, Hynes D (2013). «Использование фреймворка Hadoop для крупномасштабных клинических информационных приложений». Труды совместных саммитов AMIA по трансляционной науке . 2013 : 53. PMID  24303235.
  92. ^ Клуни, Д. (2013). «Томосинтез молочной железы бросает вызов инфраструктуре цифровой визуализации». Science and Medicine Group. Архивировано из оригинала 24 февраля 2021 г. Получено 28 ноября 2023 г.
  93. ^ Yanase J, Triantaphyllou E (2019b). «Семь ключевых проблем будущего компьютерной диагностики в медицине». Международный журнал медицинской информатики . 129 : 413–22. doi : 10.1016/j.ijmedinf.2019.06.017. PMID  31445285. S2CID  198287435.
  94. ^ "Степень в области больших данных: мода или быстрый путь к карьерному успеху". Forbes . Архивировано из оригинала 3 марта 2016 года . Получено 21 февраля 2016 года .
  95. ^ "Нью-Йорк получает новый учебный лагерь для специалистов по данным: он бесплатный, но попасть туда сложнее, чем в Гарвард". Venture Beat . Архивировано из оригинала 15 февраля 2016 года . Получено 21 февраля 2016 года .
  96. ^ Ведель, Мишель; Каннан, П.К. (2016). «Маркетинговая аналитика для сред с большим объемом данных». Журнал маркетинга . 80 (6): 97–121. doi :10.1509/jm.15.0413. S2CID  168410284.
  97. ^ Коулдри, Ник; Туроу, Джозеф (2014). «Реклама, большие данные и очистка публичной сферы: новые подходы маркетологов к субсидированию контента». Международный журнал коммуникаций . 8 : 1710–1726.
  98. ^ «Почему цифровые рекламные агентства терпят неудачу в привлечении клиентов и остро нуждаются в обновлении с помощью ИИ». Ishti.org . 15 апреля 2018 г. Архивировано из оригинала 12 февраля 2019 г. Получено 15 апреля 2018 г.
  99. ^ "Большие данные и аналитика: C4 и Genius Digital". Ibc.org . Архивировано из оригинала 8 октября 2017 г. Получено 8 октября 2017 г.
  100. ^ Маршалл Аллен (17 июля 2018 г.). «Медицинские страховщики собирают всю информацию о вас — и это может повысить ваши ставки». www.propublica.org . Архивировано из оригинала 21 июля 2018 г. . Получено 21 июля 2018 г. .
  101. ^ "QuiO назван чемпионом инноваций Accenture HealthTech Innovation Challenge". Businesswire.com . 10 января 2017 г. Архивировано из оригинала 22 марта 2017 г. Получено 8 октября 2017 г.
  102. ^ "Программная платформа для инноваций в операционных технологиях" (PDF) . Predix.com . Архивировано из оригинала (PDF) 22 марта 2017 г. . Получено 8 октября 2017 г. .
  103. ^ Z. Jenipher Wang (март 2017 г.). «Умный транспорт, управляемый большими данными: основная история преобразованной мобильности Интернета вещей». Архивировано из оригинала 4 июля 2018 г. Получено 4 июля 2018 г.
  104. ^ "That Internet Of Things Thing". 22 июня 2009 г. Архивировано из оригинала 2 мая 2013 г. Получено 29 декабря 2017 г.
  105. ^ ab Solnik, Ray. «The Time Has Come: Analytics Delivers for IT Operations». Data Center Journal . Архивировано из оригинала 4 августа 2016 года . Получено 21 июня 2016 года .
  106. ^ "BigSurv: Большие данные встречаются с наукой опросов" . Получено 15 октября 2023 г.
  107. ^ Эк, Адам; Казар, Ана Лусия Кордова; Каллегаро, Марио; Бимер, Пол (2021). «Большие данные встречаются с исследовательской наукой»». Компьютерный обзор социальных наук . 39 (4): 484–488. дои : 10.1177/0894439319883393 .
  108. ^ «Специальный выпуск: Большие данные встречаются с наукой опросов». Журнал Королевского статистического общества, Серия A. 185 ( S2): S165–S166.
  109. ^ «Интеграция данных опросов и других данных для измерения поведения и общественного мнения». www.springeropen.com . Получено 19 октября 2023 г. .
  110. ^ Хилл, Крейг А.; Бимер, Пол П.; Баскирк, Трент Д.; Япек, Лилли; Киршнер, Антье; Колеников, Стас; Либерг, Ларс Э., ред. (13 октября 2020 г.). Большие данные встречаются с наукой об обследованиях: коллекция инновационных методов (1-е изд.). Wiley. doi : 10.1002/9781118976357. ISBN 978-1-118-97632-6. S2CID  240797608.
  111. ^ "Прошлые победители премии Warren J. Mitofsky Innovators Award - AAPOR". 7 июня 2023 г. Получено 19 октября 2023 г.
  112. ^ Стронг, Колин (2015). Очеловечивание больших данных: маркетинг на стыке данных, социальных наук и понимания потребителей . Лондон: Kogan Page. ISBN 978-0-7494-7211-5.
  113. ^ Бериша, Б., Мезю, Э. и Шабани, И. (2022). Аналитика больших данных в облачных вычислениях: обзор. Журнал облачных вычислений , 11 (1), 1-10. doi :10.1186/s13677-022-00301-w
  114. ^ Bosch, Volker (2016-11-01). «Большие данные в маркетинговых исследованиях: почему больше данных не означает автоматически лучшую информацию». Обзор маркетинговой разведки NIM . 8 (2): 56–63. doi :10.1515/gfkmir-2016-0017.
  115. ^ Макфарланд, Дэниел А.; Макфарланд, Х. Ричард (2015-12-01). «Большие данные и опасность быть совершенно неточными». Большие данные и общество . 2 (2): 205395171560249. doi :10.1177/2053951715602495. ISSN  2053-9517.
  116. ^ Шивараджа, Утайасанкар; Камаль, Мухаммад Мустафа; Ирани, Захир; Вираккоди, Вишант (01 января 2017 г.). «Критический анализ проблем больших данных и аналитических методов». Журнал бизнес-исследований . 70 : 263–286. doi :10.1016/j.jbusres.2016.08.001. ISSN  0148-2963.
  117. ^ abc Де Лука, Луиджи М.; Херхаузен, Деннис; Троило, Габриэле; Росси, Андреа (2021-07-01). «Как и когда окупаются инвестиции в большие данные? Роль маркетинговых возможностей и инноваций в сфере услуг». Журнал Академии маркетинговых наук . 49 (4): 790–810.
  118. ^ Ghasemaghaei, Maryam; Calic, Goran (январь 2020 г.). «Оценка влияния больших данных на эффективность инноваций в фирмах: большие данные не всегда являются лучшими данными». Journal of Business Research . 108 : 147–162. doi : 10.1016/j.jbusres.2019.09.062. ISSN  0148-2963.
  119. ^ Грибаускас, Андрюс; Пилинкене, Вайда; Стунджене, Алина (2021-08-03). «Прогностическая аналитика с использованием больших данных для рынка недвижимости во время пандемии COVID-19». Журнал больших данных . 8 (1): 105. doi :10.1186/s40537-021-00476-0. ISSN  2196-1115. PMC 8329615. PMID 34367876.
  120. ^ Джош Рогин (2 августа 2018 г.). «Этническая чистка возвращается – в Китае». №. Washington Post. Архивировано из оригинала 31 марта 2019 г. Получено 4 августа 2018 г. Добавьте к этому беспрецедентное состояние безопасности и наблюдения в Синьцзяне, которое включает в себя всеобъемлющий мониторинг на основе удостоверений личности, контрольно-пропускных пунктов, распознавания лиц и сбора ДНК у миллионов людей. Власти скармливают все эти данные машине искусственного интеллекта, которая оценивает лояльность людей к Коммунистической партии, чтобы контролировать каждый аспект их жизни.
  121. ^ "Китай: Большие данные подстегивают репрессии в регионе меньшинств: программа предиктивной полиции помечает отдельных лиц для расследований и задержаний". hrw.org . Human Rights Watch. 26 февраля 2018 г. Архивировано из оригинала 21 декабря 2019 г. Получено 4 августа 2018 г.
  122. ^ «Дисциплина и наказание: рождение системы социального кредита в Китае». The Nation . 23 января 2019 г. Архивировано из оригинала 13 сентября 2019 г. Получено 8 августа 2019 г.
  123. ^ «Система мониторинга поведения Китая запрещает некоторым людям путешествовать и приобретать недвижимость». CBS News . 24 апреля 2018 г. Архивировано из оригинала 13 августа 2019 г. Получено 8 августа 2019 г.
  124. ^ «Сложная правда о системе социального кредита Китая». WIRED . 21 января 2019 г. Архивировано из оригинала 8 августа 2019 г. Получено 8 августа 2019 г.
  125. ^ "Новости: Live Mint". Достаточно ли индийские компании понимают Большие Данные? . Live Mint. 23 июня 2014 г. Архивировано из оригинала 29 ноября 2014 г. . Получено 22 ноября 2014 г. .
  126. ^ "Израильский стартап использует большие данные и минимальное оборудование для лечения диабета". The Times of Israel . Архивировано из оригинала 1 марта 2018 года . Получено 28 февраля 2018 года .
  127. ^ Сингх, Гурпаркаш; Шультесс, Дуэйн; Хьюз, Найджел; Ванниевенхейс, Барт; Калра, Дипак (2018). «Большие данные реального мира для клинических исследований и разработки лекарств». Drug Discovery Today . 23 (3): 652–660. doi : 10.1016/j.drudis.2017.12.002 . PMID  29294362.
  128. ^ «Последние достижения мобильных облачных вычислений и Интернета вещей для приложений больших данных: обзор». International Journal of Network Management. 11 марта 2016 г. Архивировано из оригинала 1 июня 2022 г. Получено 14 сентября 2016 г.
  129. ^ Калил, Том (29 марта 2012 г.). «Большие данные — это большое дело». whitehouse.gov . Архивировано из оригинала 10 января 2017 г. . Получено 26 сентября 2012 г. — через Национальный архив .
  130. Исполнительный офис президента (март 2012 г.). «Большие данные в федеральном правительстве» (PDF) . Управление по политике в области науки и технологий . Архивировано (PDF) из оригинала 21 января 2017 г. Получено 26 сентября 2012 г. – через Национальный архив .
  131. ^ Лампитт, Эндрю (14 февраля 2013 г.). «Реальная история о том, как аналитика больших данных помогла Обаме победить». InfoWorld . Архивировано из оригинала 5 июля 2014 г. Получено 31 мая 2014 г.
  132. ^ "Ноябрь 2023 | TOP500". Архивировано из оригинала 7 апреля 2024 года . Получено 20 апреля 2024 года .
  133. ^ Hoover, J. Nicholas. «Government's 10 Most Powerful Supercomputers». Information Week . UBM. Архивировано из оригинала 16 октября 2013 года . Получено 26 сентября 2012 года .
  134. ^ Бэмфорд, Джеймс (15 марта 2012 г.). «АНБ строит крупнейший в стране шпионский центр (Смотрите, что вы говорите)». Wired . Архивировано из оригинала 4 апреля 2012 г. Получено 18 марта 2013 г.
  135. ^ "Церемония закладки фундамента для центра обработки данных в Юте стоимостью 1,2 миллиарда долларов". Центральная служба безопасности Агентства национальной безопасности. Архивировано из оригинала 5 сентября 2013 года . Получено 18 марта 2013 года .
  136. ^ Хилл, Кашмир. «Чертежи невероятно дорогого центра обработки данных АНБ в Юте указывают на то, что в нем содержится меньше информации, чем предполагалось». Forbes . Архивировано из оригинала 29 марта 2018 г. Получено 31 октября 2013 г.
  137. ^ Смит, Джерри; Холлман, Бен (12 июня 2013 г.). «Споры о шпионаже АНБ подчеркивают важность больших данных». Huffington Post . Архивировано из оригинала 19 июля 2017 г. Получено 7 мая 2018 г.
  138. ^ Уингфилд, Ник (12 марта 2013 г.). «Более точное прогнозирование поездок на работу для потенциальных покупателей жилья». The New York Times . Архивировано из оригинала 29 мая 2013 г. Получено 21 июля 2013 г.
  139. ^ "FICO® Falcon® Fraud Manager". Fico.com. Архивировано из оригинала 11 ноября 2012 г. Получено 21 июля 2013 г.
  140. ^ Бриньолфссон, Эрик; Ху, Ю Джеффри; Рахман, Мохаммад С. (21 мая 2013 г.). «Конкуренция в эпоху многоканальной розничной торговли». MIT Sloan Management Review .
  141. ^ Alexandru, Dan. "Prof" (PDF) . cds.cern.ch . CERN. Архивировано (PDF) из оригинала 15 июля 2017 г. Получено 24 марта 2015 г.
  142. ^ "Брошюра LHC, английская версия. Презентация самого большого и мощного ускорителя частиц в мире, Большого адронного коллайдера (LHC), запущенного в 2008 году. Его роль, характеристики, технологии и т. д. объясняются для широкой публики". CERN-Brochure-2010-006-Eng. Брошюра LHC, английская версия . CERN. Архивировано из оригинала 19 марта 2019 года . Получено 20 января 2013 года .
  143. ^ "LHC Guide, English version. Сборник фактов и цифр о Большом адронном коллайдере (LHC) в форме вопросов и ответов". CERN-Brochure-2008-001-Eng. LHC Guide, English version . CERN. Архивировано из оригинала 7 апреля 2020 года . Получено 20 января 2013 года .
  144. ^ Брамфилд, Джефф (19 января 2011 г.). «Физика высоких энергий: вниз по петабайтному шоссе». Nature . 469 (7330): 282–83. Bibcode :2011Natur.469..282B. doi : 10.1038/469282a . PMID  21248814. S2CID  533166.
  145. ^ "IBM Research – Zurich" (PDF) . Zurich.ibm.com . Архивировано из оригинала 1 июня 2022 г. . Получено 8 октября 2017 г. .
  146. ^ "Будущий телескопический массив стимулирует развитие обработки Exabyte". Ars Technica . 2 апреля 2012 г. Архивировано из оригинала 31 марта 2019 г. Получено 15 апреля 2015 г.
  147. ^ "Australia's bid for the Square Kilometre Array – an insider's perspective". The Conversation . 1 февраля 2012 г. Архивировано из оригинала 12 октября 2016 г. Получено 27 сентября 2016 г.
  148. ^ "Delort P., OECD ICCP Technology Foresight Forum, 2012" (PDF) . Oecd.org . Архивировано (PDF) из оригинала 19 июня 2017 г. . Получено 8 октября 2017 г. .
  149. ^ "NASA – NASA Goddard представляет NASA Center for Climate Simulation". Nasa.gov . Архивировано из оригинала 3 апреля 2016 года . Получено 13 апреля 2016 года .
  150. ^ Вебстер, Фил. «Суперкомпьютерное моделирование климата: миссия NASA по работе с большими данными». CSC World . Computer Sciences Corporation. Архивировано из оригинала 4 января 2013 г. Получено 18 января 2013 г.
  151. ^ «Эти шесть великих идей нейронауки могут совершить прыжок из лаборатории на рынок». The Globe and Mail . 20 ноября 2014 г. Архивировано из оригинала 11 октября 2016 г. Получено 1 октября 2016 г.
  152. ^ "DNAstack решает проблемы массивных, сложных наборов данных ДНК с помощью Google Genomics". Google Cloud Platform. Архивировано из оригинала 24 сентября 2016 года . Получено 1 октября 2016 года .
  153. ^ "23andMe – Ancestry". 23andme.com . Архивировано из оригинала 18 декабря 2016 . Получено 29 декабря 2016 .
  154. ^ ab Potenza, Alessandra (13 июля 2016 г.). «23andMe хочет, чтобы исследователи использовали ее наборы для расширения своей коллекции генетических данных». The Verge . Архивировано из оригинала 29 декабря 2016 г. . Получено 29 декабря 2016 г. .
  155. ^ «Этот стартап секвенирует вашу ДНК, чтобы вы могли внести свой вклад в медицинские исследования». Fast Company . 23 декабря 2016 г. Архивировано из оригинала 29 декабря 2016 г. Получено 29 декабря 2016 г.
  156. ^ Сейфе, Чарльз. «23andMe ужасает, но не по тем причинам, по которым думает FDA». Scientific American . Архивировано из оригинала 29 декабря 2016 г. Получено 29 декабря 2016 г.
  157. ^ Залески, Эндрю (22 июня 2016 г.). «Этот биотехнологический стартап делает ставку на то, что ваши гены дадут следующее чудо-лекарство». CNBC. Архивировано из оригинала 29 декабря 2016 г. Получено 29 декабря 2016 г.
  158. ^ Регаладо, Антонио. «Как 23andMe превратила вашу ДНК в машину по разработке лекарств стоимостью 1 миллиард долларов». MIT Technology Review . Архивировано из оригинала 29 декабря 2016 года . Получено 29 декабря 2016 года .
  159. ^ "23andMe сообщает о резком увеличении числа запросов на данные в связи с исследованием депрессии Pfizer | FierceBiotech". violentbiotech.com . 22 августа 2016 г. Архивировано из оригинала 29 декабря 2016 г. Получено 29 декабря 2016 г.
  160. ^ Admire Moyo (23 октября 2015 г.). «Специалисты по данным предсказывают поражение Springbok». itweb.co.za . Архивировано из оригинала 22 декабря 2015 г. . Получено 12 декабря 2015 г. .
  161. ^ Бай, Чжунбо; Бай, Сяомэй (2021). «Большие спортивные данные: управление, анализ, применение и проблемы». Complexity . 2021 : 1–11. doi : 10.1155/2021/6676297 .
  162. ^ Регина Пазвакавамбва (17 ноября 2015 г.). «Прогностическая аналитика, большие данные преобразуют спорт». itweb.co.za . Архивировано из оригинала 22 декабря 2015 г. . Получено 12 декабря 2015 г. .
  163. Дэйв Райан (13 ноября 2015 г.). «Спорт: где большие данные наконец-то обретают смысл». huffingtonpost.com . Архивировано из оригинала 22 декабря 2015 г. . Получено 12 декабря 2015 г. .
  164. ^ Фрэнк Би. «Как команды Формулы-1 используют большие данные для получения внутреннего преимущества». Forbes . Архивировано из оригинала 20 декабря 2015 г. Получено 12 декабря 2015 г.
  165. ^ Тай, Лиз. «Внутри хранилища данных eBay’s 90PB». ITNews. Архивировано из оригинала 15 февраля 2016 г. Получено 12 февраля 2016 г.
  166. ^ Лейтон, Джулия (25 января 2006 г.). "Amazon Technology". Money.howstuffworks.com. Архивировано из оригинала 28 февраля 2013 г. Получено 5 марта 2013 г.
  167. ^ "Масштабирование Facebook до 500 миллионов пользователей и далее". Facebook.com. Архивировано из оригинала 5 июля 2013 года . Получено 21 июля 2013 года .
  168. ^ Констин, Джош (27 июня 2017 г.). «Facebook теперь имеет 2 миллиарда ежемесячных пользователей… и ответственность». TechCrunch . Архивировано из оригинала 27 декабря 2020 г. Получено 3 сентября 2018 г.
  169. ^ "Google по-прежнему выполняет не менее 1 триллиона поисковых запросов в год". Search Engine Land . 16 января 2015 г. Архивировано из оригинала 15 апреля 2015 г. Получено 15 апреля 2015 г.
  170. ^ Халим, Абид; Джавайд, Мохд; Хан, Ибрагим; Вайшья, Раджу (2020). «Важное применение больших данных в условиях пандемии COVID-19». Индийский журнал ортопедии . 54 (4): 526–528. doi : 10.1007/s43465-020-00129-z. ПМК 7204193 . ПМИД  32382166. 
  171. ^ Мананкур, Винсент (10 марта 2020 г.). «Коронавирус проверяет решимость Европы в отношении конфиденциальности». Politico . Архивировано из оригинала 20 марта 2020 г. Получено 30 октября 2020 г.
  172. ^ Чоудхури, Амит Рой (27 марта 2020 г.). «Правительство во времена коронавируса». Gov Insider . Архивировано из оригинала 20 марта 2020 г. Получено 30 октября 2020 г.
  173. ^ Cellan-Jones, Rory (11 февраля 2020 г.). «Китай запускает приложение «детектор близких контактов» коронавируса». BBC . Архивировано из оригинала 28 февраля 2020 г. Получено 30 октября 2020 г.
  174. ^ Siwach, Gautam; Esmailpour, Amir (март 2014). Encrypted Search & Cluster Formation in Big Data (PDF) . Конференция ASEE 2014 Zone I. Университет Бриджпорта , Бриджпорт , Коннектикут, США. Архивировано из оригинала (PDF) 9 августа 2014 года . Получено 26 июля 2014 года .
  175. ^ "Администрация Обамы представила инициативу "Большие данные": объявила о выделении 200 миллионов долларов на новые инвестиции в НИОКР" (PDF) . Управление по политике в области науки и технологий . Архивировано (PDF) из оригинала 21 января 2017 г. – через Национальный архив .
  176. ^ "AMPLab в Калифорнийском университете в Беркли". Amplab.cs.berkeley.edu. Архивировано из оригинала 6 мая 2011 г. Получено 5 марта 2013 г.
  177. ^ "NSF Leads Federal Efforts in Big Data". Национальный научный фонд (NSF). 29 марта 2012 г. Архивировано из оригинала 31 марта 2019 г. Получено 6 апреля 2018 г.
  178. ^ Тимоти Хантер; Теодор Молдован; Матей Захария; Джастин Ма; Майкл Франклин; Питер Аббель ; Александр Байен (октябрь 2011 г.). Масштабирование мобильной системы Millennium в облаке. Архивировано из оригинала 31 марта 2019 г. Получено 2 ноября 2012 г.
  179. ^ Дэвид Паттерсон (5 декабря 2011 г.). «У компьютерных ученых может быть все, что нужно для лечения рака». The New York Times . Архивировано из оригинала 30 января 2017 г. Получено 26 февраля 2017 г.
  180. ^ "Secretary Chu Announced New Institute to Help Scientists Improve Massive Data Set Research on DOE Supercomputers". energy.gov. Архивировано из оригинала 3 апреля 2019 года . Получено 2 ноября 2012 года .
  181. Янг, Шеннон (30 мая 2012 г.). «Губернатор Массачусетса и Массачусетский технологический институт объявляют об инициативе в области больших данных». Boston.com . Архивировано из оригинала 29 июля 2021 г. Получено 29 июля 2021 г.
  182. ^ "Big Data @ CSAIL". Bigdata.csail.mit.edu. 22 февраля 2013 г. Архивировано из оригинала 30 марта 2013 г. Получено 5 марта 2013 г.
  183. ^ "Big Data Public Private Forum". cordis.europa.eu. 1 сентября 2012 г. Архивировано из оригинала 9 марта 2021 г. Получено 16 марта 2020 г.
  184. ^ "Институт Алана Тьюринга будет создан для исследования больших данных". BBC News . 19 марта 2014 г. Архивировано из оригинала 18 августа 2021 г. Получено 19 марта 2014 г.
  185. ^ "День вдохновения в Университете Ватерлоо, кампус Стратфорд". betakit.com/. Архивировано из оригинала 26 февраля 2014 года . Получено 28 февраля 2014 года .
  186. ^ abc Reips, Ulf-Dietrich; Matzat, Uwe (2014). «Mining "Big Data" using Big Data Services». International Journal of Internet Science . 1 (1): 1–8. Архивировано из оригинала 14 августа 2014 г. Получено 14 августа 2014 г.
  187. ^ Preis T, Moat HS, Stanley HE, Bishop SR (2012). «Количественная оценка преимущества взгляда вперед». Scientific Reports . 2 : 350. Bibcode : 2012NatSR...2E.350P. doi : 10.1038/srep00350. PMC 3320057. PMID  22482034 . 
  188. ^ Маркс, Пол (5 апреля 2012 г.). «Онлайн-поиски будущего, связанные с экономическим успехом». New Scientist . Архивировано из оригинала 8 апреля 2012 г. Получено 9 апреля 2012 г.
  189. ^ Джонстон, Кейси (6 апреля 2012 г.). «Google Trends раскрывает подсказки о менталитете богатых стран». Ars Technica . Архивировано из оригинала 7 апреля 2012 г. Получено 9 апреля 2012 г.
  190. ^ Тобиас Прайс (24 мая 2012 г.). «Дополнительная информация: Индекс ориентации на будущее доступен для скачивания» (PDF) . Архивировано (PDF) из оригинала 17 января 2013 г. . Получено 24 мая 2012 г. .
  191. ^ Филип Болл (26 апреля 2013 г.). «Подсчет поисковых запросов Google предсказывает движения рынка». Nature . doi :10.1038/nature.2013.12879. S2CID  167357427. Архивировано из оригинала 27 сентября 2013 г. Получено 9 августа 2013 г.
  192. ^ Preis T, Moat HS, Stanley HE (2013). «Количественная оценка поведения трейдеров на финансовых рынках с использованием Google Trends». Scientific Reports . 3 : 1684. Bibcode : 2013NatSR...3E1684P. doi : 10.1038/srep01684. PMC 3635219. PMID  23619126 . 
  193. ^ Ник Билтон (26 апреля 2013 г.). «Поисковые запросы Google могут предсказывать фондовый рынок, согласно исследованию». The New York Times . Архивировано из оригинала 2 июня 2013 г. Получено 9 августа 2013 г.
  194. ^ Кристофер Мэтьюз (26 апреля 2013 г.). «Проблемы с вашим инвестиционным портфелем? Погуглите!». Time . Архивировано из оригинала 21 августа 2013 г. Получено 9 августа 2013 г.
  195. ^ Филип Болл (26 апреля 2013 г.). «Подсчет поисковых запросов Google предсказывает движения рынка». Nature . doi :10.1038/nature.2013.12879. S2CID  167357427. Архивировано из оригинала 27 сентября 2013 г. Получено 9 августа 2013 г.
  196. ^ Бернхард Уорнер (25 апреля 2013 г.). «Исследователи «больших данных» обращаются к Google, чтобы победить рынки». Bloomberg Businessweek . Архивировано из оригинала 23 июля 2013 г. Получено 9 августа 2013 г.
  197. ^ Хэмиш Макрей (28 апреля 2013 г.). «Хэмиш Макрей: Нужна ценная информация о настроениях инвесторов? Погуглите». The Independent . Лондон. Архивировано из оригинала 25 июля 2018 г. Получено 9 августа 2013 г.
  198. Ричард Уотерс (25 апреля 2013 г.). «Поиск Google оказался новым словом в прогнозировании фондового рынка». Financial Times . Архивировано из оригинала 1 июня 2022 г. Получено 9 августа 2013 г.
  199. Джейсон Палмер (25 апреля 2013 г.). «Поиски Google предсказывают движения рынка». BBC . Архивировано из оригинала 5 июня 2013 г. Получено 9 августа 2013 г.
  200. ^ Э. Сейдич (март 2014 г.). «Адаптируйте текущие инструменты для использования с большими данными». Nature . 507 (7492): 306.
  201. ^ Крис Кимбл; Яннис Милолидакис (7 октября 2015 г.). «Большие данные и бизнес-аналитика: разоблачение мифов». Глобальное бизнес-совершенство и организационное совершенство . 35 (1): 23–34. arXiv : 1511.03085 . doi : 10.1002/JOE.21642. ISSN  1932-2054. Wikidata  Q56532925.
  202. Крис Андерсон (23 июня 2008 г.). «Конец теории: поток данных делает научный метод устаревшим». Wired . Архивировано из оригинала 27 марта 2014 г. Получено 5 марта 2017 г.
  203. ^ Грэм М. (9 марта 2012 г.). «Большие данные и конец теории?». The Guardian . Лондон. Архивировано из оригинала 24 июля 2013 г. Получено 14 декабря 2016 г.
  204. ^ Шах, Шветанк; Хорн, Эндрю; Капелла, Хайме (апрель 2012 г.). «Хорошие данные не гарантируют хороших решений». Harvard Business Review . Архивировано из оригинала 11 сентября 2012 г. Получено 8 сентября 2012 г.
  205. ^ ab Большие данные требуют больших видений для больших изменений. Архивировано 2 декабря 2016 г. в Wayback Machine , Hilbert, M. (2014). Лондон: TEDx UCL, x=независимо организованные выступления TED
  206. ^ Алемани Оливер, Матье; Вайр, Жан-Себастьян (2015). «Большие данные и будущее производства знаний в маркетинговых исследованиях: этика, цифровые следы и абдуктивное мышление». Журнал маркетинговой аналитики . 3 (1): 5–13. doi :10.1057/jma.2015.1. S2CID  111360835.
  207. Jonathan Rauch (1 апреля 2002 г.). «Seeing Around Corners». The Atlantic . Архивировано из оригинала 4 апреля 2017 г. Получено 5 марта 2017 г.
  208. ^ Эпштейн, Дж. М. и Экстелл, Р. Л. (1996). Растущие искусственные общества: социальная наука снизу вверх. Книга Брэдфорда.
  209. ^ "Delort P., Big data in Biosciences, Big Data Paris, 2012" (PDF) . Bigdata Paris . Архивировано из оригинала (PDF) 30 июля 2016 г. . Получено 8 октября 2017 г. .
  210. ^ "Геномика следующего поколения: интегративный подход" (PDF) . nature. Июль 2010 г. Архивировано (PDF) из оригинала 13 августа 2017 г. Получено 18 октября 2016 г.
  211. ^ "Big Data in Biosciences". Октябрь 2015 г. Архивировано из оригинала 1 июня 2022 г. Получено 18 октября 2016 г.
  212. ^ «Большие данные: совершаем ли мы большую ошибку?». Financial Times . 28 марта 2014 г. Архивировано из оригинала 30 июня 2016 г. Получено 20 октября 2016 г.
  213. Ом, Пол (23 августа 2012 г.). «Не создавайте базу данных руин». Harvard Business Review . Архивировано из оригинала 30 августа 2012 г. Получено 29 августа 2012 г.
  214. ^ Бонд-Грэм, Дарвин (2018). «Перспектива больших данных» Архивировано 9 ноября 2020 года на Wayback Machine . Перспектива .
  215. ^ Барокас, Солон; Ниссенбаум, Хелен; Лейн, Джулия; Стодден, Виктория; Бендер, Стефан; Ниссенбаум, Хелен (июнь 2014 г.). Конец больших данных вокруг анонимности и согласия . Cambridge University Press. стр. 44–75. doi :10.1017/cbo9781107590205.004. ISBN 9781107067356. S2CID  152939392.
  216. ^ Lugmayr, A.; Stockleben, B; Scheib, C.; Mailaparampil, M.; Mesia, N.; Ranta, H.; Lab, E. (1 июня 2016 г.). «Комплексный обзор исследований больших данных и их последствий — что на самом деле «нового» в больших данных? — Это когнитивные большие данные!». Архивировано из оригинала 1 июня 2022 г. . Получено 27 ноября 2023 г.
  217. ^ Danah Boyd (29 апреля 2010 г.). «Конфиденциальность и публичность в контексте больших данных». Конференция WWW 2010. Архивировано из оригинала 22 октября 2018 г. Получено 18 апреля 2011 г.
  218. ^ Katyal, Sonia K. (2019). «Искусственный интеллект, реклама и дезинформация». Advertising & Society Quarterly . 20 (4). doi :10.1353/asr.2019.0026. ISSN  2475-1790. S2CID  213397212. Архивировано из оригинала 28 октября 2020 г. Получено 18 ноября 2020 г.
  219. ^ Джонс, МБ; Шильдхауэр, МП; Райхман, О.Дж.; Бауэрс, С (2006). «Новая биоинформатика: интеграция экологических данных от гена до биосферы» (PDF) . Ежегодный обзор экологии, эволюции и систематики . 37 (1): 519–544. doi :10.1146/annurev.ecolsys.37.091305.110031. Архивировано (PDF) из оригинала 8 июля 2019 г. . Получено 19 сентября 2012 г. .
  220. ^ ab Boyd, D.; Crawford, K. (2012). «Критические вопросы для больших данных». Информация, коммуникация и общество . 15 (5): 662–679. doi : 10.1080/1369118X.2012.678878. hdl : 10983/1320 . S2CID  51843165.
  221. Провал запуска: от больших данных к большим решениям. Архивировано 6 декабря 2016 г. в Wayback Machine , Forte Wares.
  222. ^ "15 безумных вещей, которые коррелируют друг с другом". Архивировано из оригинала 27 июня 2019 года . Получено 27 июня 2019 года .
  223. ^ "Случайные структуры и алгоритмы". Архивировано из оригинала 27 июня 2019 г. Получено 27 июня 2019 г.
  224. ^ Кристиан С. Калуде, Джузеппе Лонго, (2016), Поток ложных корреляций в больших данных, Основы науки
  225. Аня Ламбрехт и Кэтрин Такер (2016) «4 ошибки большинства менеджеров, связанные с аналитикой», Harvard Business Review , 12 июля. https://hbr.org/2016/07/the-4-mistakes-most-managers-make-with-analytics Архивировано 26 января 2022 г. на Wayback Machine
  226. ^ ab Gregory Piatetsky (12 августа 2014 г.). "Интервью: Майкл Бертольд, основатель KNIME, об исследованиях, креативности, больших данных и конфиденциальности, часть 2". KDnuggets. Архивировано из оригинала 13 августа 2014 г. Получено 13 августа 2014 г.
  227. ^ Pelt, Mason (26 октября 2015 г.). ««Большие данные» — это слишком часто используемое модное словечко, и этот бот Twitter это доказывает». Siliconangle . Архивировано из оригинала 30 октября 2015 г. . Получено 4 ноября 2015 г.
  228. ^ ab Harford, Tim (28 марта 2014 г.). «Большие данные: совершаем ли мы большую ошибку?». Financial Times . Архивировано из оригинала 7 апреля 2014 г. Получено 7 апреля 2014 г.
  229. ^ Иоаннидис JP (август 2005 г.). «Почему большинство опубликованных результатов исследований ложны». PLOS Medicine . 2 (8): e124. doi : 10.1371/journal.pmed.0020124 . PMC 1182327. PMID  16060722 . 
  230. ^ Лор, Стив; Сингер, Наташа (10 ноября 2016 г.). «Как данные подвели нас при назначении выборов». The New York Times . ISSN  0362-4331. Архивировано из оригинала 25 ноября 2016 г. Получено 27 ноября 2016 г.
  231. ^ «Как основанная на данных полиция угрожает свободе человека». The Economist . 4 июня 2018 г. ISSN  0013-0613. Архивировано из оригинала 27 октября 2019 г. Получено 27 октября 2019 г.
  232. ^ Брейн, Сара (29 августа 2017 г.). «Наблюдение за большими данными: случай полиции». American Sociological Review . 82 (5): 977–1008. doi : 10.1177/0003122417725865. PMC 10846878. PMID 38322733.  S2CID 3609838  . 

Библиография

Дальнейшее чтение

Внешние ссылки