Агрегированные данные — это данные высокого уровня , которые получаются путем объединения данных индивидуального уровня. Например, выпуск отрасли представляет собой совокупность индивидуальных выпусков фирм в этой отрасли. [1] Агрегированные данные применяются в статистике, хранилищах данных и в экономике.
Существует различие между совокупными данными и индивидуальными данными. Совокупные данные относятся к индивидуальным данным, которые усредняются по географическому региону, по году, по агентству обслуживания или другими способами. [2] Индивидуальные данные представляют собой дезагрегированные индивидуальные результаты и используются для проведения анализов с целью оценки различий подгрупп. [2]
Агрегированные данные в основном используются исследователями и аналитиками, политиками, банками и администраторами по нескольким причинам. Они используются для оценки политик, распознавания тенденций и моделей процессов, получения соответствующих идей и оценки текущих мер для стратегического планирования. Агрегированные данные, собранные из различных источников, используются в различных областях исследований, таких как сравнительный политический анализ и научный анализ APD для дальнейшего анализа. Агрегированные данные также используются в медицинских и образовательных целях. Агрегированные данные широко используются, но они также имеют некоторые ограничения, включая неточные выводы и ложные заключения, что также называется « экологическим заблуждением ». [3] «Экологическое заблуждение» означает, что пользователи не могут делать выводы об экологических связях между двумя количественными переменными на индивидуальном уровне. [3]
В статистике агрегированные данные — это данные, объединенные из нескольких измерений. Когда данные агрегируются, группы наблюдений заменяются сводными статистическими данными, основанными на этих наблюдениях. [4]
В хранилище данных использование агрегированных данных значительно сокращает время запроса больших наборов данных. Разработчики предварительно суммируют запросы, которые используются регулярно, такие как Weekly Sales по нескольким измерениям , например, по иерархии товаров или географической иерархии.
В экономике агрегированные данные или агрегаты данных представляют собой данные высокого уровня , которые состоят из множества или комбинации других более индивидуальных данных, таких как:
Исследователи используют агрегированные данные для понимания преобладающего этоса , оценки сущности социальных реалий и социальной организации, определения основных проблемных вопросов в исследовании и предоставления прогнозов относительно природы социальных проблем. [5] Агрегированные данные полезны для исследователей, когда они заинтересованы в исследовании взаимосвязей между двумя различными переменными на агрегированном уровне и связей между агрегированной переменной и характеристикой на индивидуальном уровне. [2] Исследователи также предприняли попытку критически оценить политику, практику и предписания систем с помощью агрегированных данных, чтобы исследовать соответствующую релевантность и эффективность . [5]
Агрегированные данные используются правительствами для разработки более эффективной политики, поскольку они служат мерой того, насколько правительство способно осознавать потребности и нужды своих граждан, а также мерой того, как правительство эффективно поддерживает общественный порядок. [5] Например, правительства по всему миру используют агрегированные данные о местоположении мобильных устройств для анализа в ответ на Covid-19. Агрегированные данные о местоположении мобильных устройств могут дать представление об эффективности мер социального дистанцирования , принятых правительствами. Правительства также используют агрегированные данные для выявления возможных «горячих точек» и потенциала передачи. [6]
Помимо прогнозирования эффективности государственной политики, совокупный анализ данных также проводится для оценки характера, степени, распознавания тенденции и изучения модели конкретного явления или процесса с целью разработки стратегий, подготовки краткосрочной или долгосрочной политики и принятия эффективных и соответствующих процедур для контроля или предотвращения. [5] Политики также используют финансовые совокупные данные при оценке экономической и финансовой деятельности компаний и домохозяйств, поскольку эти данные помогают выявлять риски, связанные с финансовой стабильностью . Политики могут использовать совокупные данные для лучшего понимания развития экономических и финансовых условий страны. [7]
Банки собирают агрегированные данные от значительного числа клиентов, а затем анонимизируют данные, удаляя персональную информацию. Основная причина, по которой банки используют агрегированные данные, заключается в оценке экономических тенденций и получении информации о кластерах клиентов. Банкам не разрешается делиться персональными данными клиентов , но агрегированные данные могут быть предоставлены корпоративным клиентам банков и могут быть доступны другим партнерам, которые также используют ту же платформу для получения информации о агрегированных данных. [8]
В Австралии Commonwealth Bank предоставляет своим корпоративным клиентам анонимные данные, связанные с их клиентами, которые получены из транзакций по картам. ANZ также предоставляет своим корпоративным клиентам анонимные данные, которые собираются из миллионов транзакций торговых терминалов и транзакций по картам ANZ. [8]
В Великобритании Integrated Urgent Care Aggregate Data Collection (IUC ADC) предоставляет исчерпывающую информацию о деятельности IUC, ее производительности, а также о спросе на услуги. Его данные получены от ведущих поставщиков данных, ответственных за предоставление интегрированных услуг неотложной помощи в Англии. [9] Национальная служба здравоохранения (NHS) при Департаменте здравоохранения и социального обеспечения (DHSC) в Англии заявила, что этот сбор совокупных данных заменит минимальный набор данных NHS 111. Он также будет использоваться в качестве официального источника статистики IUC, а также для контроля ключевых показателей эффективности (KPI) IUC ADC. [10]
Национальный или региональный уровень доступных эмпирических данных используется администраторами и интеллектуалами, а также людьми, которые обеспокоены благосостоянием региона или общества , в качестве источников справочной информации. [5] В частности, администраторы используют совокупные данные для оценок в текущей политической, религиозной, социальной или другой атмосфере страны, чтобы отслеживать пробелы в социальных реакциях, связанных со временем и пространством, и диктовать приоритеты для действий. Эти оценки помогают администраторам в оценке текущих мер, которые полезны в будущем стратегическом планировании и предоставляют индикаторы эффективных корректирующих мер. [5]
Совокупные данные могут быть составлены из различных типов сочинений и записей, включая биографию , автобиографию , описательные отчеты и переписку. [5] Например, исследователь собирает, сопоставляет или компилирует совокупные данные, используя несколько механизмов социальных исследований , включая инвентаризацию , интервью , экспертное мнение и анкету или график . Официальные или неофициальные агентства также собирают и компилируют совокупные данные на постоянной основе, используя инфраструктуры, доступные в отделе на полевом уровне. [5]
Источники агрегированных данных также можно рассматривать как инструменты для обнаружения данных. В США некоторые данные США представлены в виде таблиц. Примерами источников этих агрегированных данных США являются Бюро переписи населения США , Статистический обзор США и Social Explorer. Данные Международного валютного фонда , World DataBank и Penn World Table являются примерами транзакционных и международных агрегированных источников данных. [11]
Совокупные данные используются в сравнительном политическом анализе, поскольку аналитики фокусируются не только на поведении отдельных лиц. Они также фокусируются на поведении территориальных единиц, включая избирательные округа и страны. [12] В анализе политической активности важные данные, такие как данные, связанные с индустриализацией , урбанизацией , а также сетями массовой коммуникации, не выражаются легко на индивидуальных уровнях. Они выражаются в расчете на душу населения , чтобы контролировать изменения в численности населения территориальных единиц . [12] Совокупные данные широко доступны, поскольку демографические, социально-экономические и политические данные собираются и публикуются странами. Это облегчает исследователям и аналитикам проведение более длительных исследований тенденций и позволяет им более глубоко фокусироваться на изменениях и событиях. [12]
Факторы, включающие потребность во времени, значительные ресурсы и широкое международное сотрудничество , препятствовали использованию метаанализа индивидуальных данных пациентов (IPD) , что привело к тому, что большинство опубликованных метаанализов основывалось на совокупных данных пациентов (APD). [13] Для получения данных во всех испытаниях по всем пациентам совокупные данные пациентов собираются из завершенных исследований, представленных на профессиональных встречах, опубликованных в медицинской литературе или предоставленных напрямую отдельными исследователями. Совокупные данные пациентов используются пользователями, включая Cochrane Collaboration, United States Preventive Services Task Force и несколько профессиональных обществ, для поддержки клинических практических рекомендаций. Совокупные данные пациентов также используются в исследованиях метаанализов «время-до-события», поскольку результаты могут информировать инвесторов о целесообразности проведения большего количества метаанализов, основанных на ресурсоемких индивидуальных данных пациентов. [13]
В системе медицинской информации агрегированные данные представляют собой интеграцию данных, касающихся многочисленных пациентов. Конкретного пациента невозможно отследить на основе агрегированных данных. Эти агрегированные данные представляют собой только подсчеты, включая туберкулез , малярию или другие заболевания. Медицинские учреждения используют этот тип агрегированной статистики для создания отчетов и показателей, а также для осуществления стратегического планирования в своих системах здравоохранения. [14] По сравнению с агрегированными данными, данные о пациентах представляют собой индивидуальные данные, относящиеся к одному пациенту, включая имя, возраст, диагноз и историю болезни. Данные о пациентах в основном используются для отслеживания прогресса пациента, например, того, как пациент реагирует на определенное лечение с течением времени. [14]
Архив данных COVID-19, также называемый COVID-ARC, объединяет данные исследований по всему миру . Исследователи могут получить доступ к открытиям международных коллег и наладить сотрудничество для содействия процессам, связанным с борьбой с болезнью. [15] В частности, использование агрегированных данных здравоохранения позволяет поставщикам медицинских услуг извлекать действенные клинические идеи, когда, например, становятся возможными подробные обзоры клинических данных или непрерывные записи пациентов. [15]
Агрегированные данные, такие как совокупные демографические данные на уровне школы и совокупные данные об успеваемости на уровне школы, используются в экспериментальном анализе для оценки взаимосвязи между успеваемостью учащихся и вмешательствами на уровне школы. [16] Агрегированные данные также могут использоваться в неэкспериментальном анализе, таком как анализ разрыва регрессии и анализ прерванных временных рядов. Данные на индивидуальном уровне не требуются в этих неэкспериментальных анализах. Например, анализ прерванных временных рядов оценивает влияние, оказываемое программой на уровне школы, путем сравнения достижений школы до и после запуска программы, где данные на индивидуальном уровне не нужны. [16]
В процессе усреднения единиц в пределах некоторого кластера или страны теряется информация, что увеличивает вероятность получения неточных выводов. [17] Потеря информации происходит из-за того, что агрегация данных игнорирует индивидуальные вариации, как если бы это был только тип статистического шума или ошибки измерения. [18] Выводы также различаются от одного к другому, когда для анализа используются либо данные отдельных фирм, либо агрегированные данные. Например, расчет средних значений по стране не учитывает переменные, специфичные для фирмы, такие как размер фирмы, возраст фирмы или концентрация собственности фирмы, но расчет индивидуальных средних учитывает. Существуют различия между результатами, полученными из агрегированных данных и индивидуальных данных. [17]
Существует также проблема «экологического заблуждения». Эта концепция была предложена Робинсоном (1950). Значение этого термина заключается в том, что изменчивость вокруг средних значений на индивидуальном уровне существенно отличается от изменчивости, охватывающей средние значения совокупности. [18] С помощью концепции совокупности выражаются вещи, отличные от индивидуальных эквивалентов совокупных данных, что означает, что выводы на индивидуальном уровне не могут быть сделаны. [3] Хотя совокупные данные имеют более широкую применимость, чем данные на индивидуальном уровне, исследователям сложнее заниматься анализом результатов подгрупп , когда используются совокупные данные. В конечном итоге может потребоваться и индивидуальная информация. Моделирование роста и продольное моделирование на основе совокупных данных также сложны, поскольку переменные могут меняться с течением времени. [2]
Финансовые агрегатные данные — это тип совокупных данных о кредите и денежной массе в Австралии, которые используются политиками при оценке как экономической, так и финансовой деятельности домохозяйств и компаний. [7]
Кредитные агрегаты являются измерениями заимствований домохозяйств и предприятий у финансовых посредников. Объем средств, заимствованных предприятиями для целей, включая инвестиции в проекты, покупку активов или управление денежными потоками, также измеряется с использованием кредитных агрегатов. [7]
Денежные агрегаты являются измерениями денег или «денежно-подобных» инструментов банковской системы, которые принадлежат предприятиям и домохозяйствам. Примером «денежно-подобного» инструмента являются депозиты на банковском счете . [7]
В Великобритании агрегированные данные переписи населения — это данные, полученные в результате переписей населения Соединенного Королевства. Они предоставляют информацию о социально-экономических и демографических характеристиках населения страны. Они представляют собой компиляцию агрегированных или обобщенных расчетов числа лиц, жителей домохозяйств или семей в определенных географических районах с определенными характеристиками или соединениями характеристик, взятых из субъектов людей и мест, населения, семей, здоровья, этнической принадлежности и религии, жилья и работы. [19]
Агрегированные данные используются как компоненты результатов переписей населения Великобритании. Они получены в результате анализа информации, представленной в отчетах переписи. [19] Агрегированные данные переписи используются для сравнения и описания характеристик населения в различных местах Великобритании, поскольку они могут предоставить сопоставимую информацию на различных географических уровнях по всей Великобритании. Агрегированные данные переписи также используются в академическом секторе для целей обучения и исследований, а также для определения местоположения и маркетинга в частном секторе. [19]