stringtranslate.com

Совокупные данные

Диаграмма, показывающая основное значение агрегированных данных, которые представляют собой комбинацию отдельных данных.

Агрегированные данные — это данные высокого уровня , которые получаются путем объединения данных индивидуального уровня. Например, выпуск отрасли представляет собой совокупность продукции отдельных фирм в этой отрасли. [1] Агрегированные данные применяются в статистике, хранилищах данных и в экономике.

Существует различие между совокупными данными и отдельными данными. Совокупные данные — это отдельные данные, которые усредняются по географическому региону, году, сервисному агентству или другим способом. [2] Индивидуальные данные представляют собой дезагрегированные индивидуальные результаты и используются для проведения анализа с целью оценки различий в подгруппах. [2]

Совокупные данные в основном используются исследователями и аналитиками, политиками, банками и администраторами по нескольким причинам. Они используются для оценки политики, выявления тенденций и закономерностей процессов, получения соответствующей информации и оценки текущих мер стратегического планирования. Совокупные данные, собранные из различных источников, используются в различных областях исследований, таких как сравнительный политический анализ и научный анализ APD, для дальнейшего анализа. Агрегированные данные также используются в медицинских и образовательных целях. Совокупные данные широко используются, но они также имеют некоторые ограничения, включая получение неточных выводов и ложных выводов, что также называется « экологической ошибкой ». [3] «Экологическая ошибка» означает, что пользователи не могут делать выводы об экологических взаимосвязях между двумя количественными переменными на индивидуальном уровне. [3]

Приложения

В статистике совокупные данные — это данные, объединенные из нескольких измерений. Когда данные агрегируются, группы наблюдений заменяются сводной статистикой, основанной на этих наблюдениях. [4]

В хранилище данных использование агрегированных данных значительно сокращает время запроса больших наборов данных. Разработчики предварительно суммируют регулярно используемые запросы, такие как еженедельные продажи, по нескольким измерениям , например, по иерархии товаров или географической иерархии.

В экономике агрегированные данные или агрегаты данных — это данные высокого уровня, которые состоят из множества или комбинации других, более индивидуальных данных, таких как:

Основные пользователи

Исследователи и аналитики

Исследователи используют совокупные данные, чтобы понять преобладающий этос , оценить суть социальных реалий и социальной организации, определить основные проблемы, вызывающие обеспокоенность в исследованиях , и предложить прогнозы в отношении характера социальных проблем. [5] Агрегированные данные полезны для исследователей, когда они заинтересованы в исследовании взаимосвязей между двумя различными переменными на совокупном уровне, а также связей между совокупной переменной и характеристикой на индивидуальном уровне. [2] Исследователи также предприняли усилия по критической оценке политики, практики и принципов систем с помощью совокупных данных, чтобы изучить соответствующую актуальность и эффективность . [5]

Политики

Совокупные данные используются правительствами для разработки более эффективной политики, поскольку они служат мерой того, насколько правительство способно осознавать запросы и потребности своих граждан, а также мерой того, насколько эффективно правительство поддерживает социальный порядок. [5] Например, правительства во всем мире используют совокупные данные о местоположении мобильных устройств для анализа мер реагирования на Covid-19. Совокупные данные о местонахождении мобильных устройств могут дать представление об эффективности мер социального дистанцирования , принимаемых правительствами. Правительства также используют совокупные данные для выявления возможных «горячих точек» и возможностей передачи инфекции. [6]

Помимо прогнозирования эффективности государственной политики, анализ совокупных данных также проводится для оценки характера, масштабов, распознавания тенденций и изучения закономерностей конкретного явления или процесса с целью разработки стратегий, подготовки краткосрочных или долгосрочных прогнозов. долгосрочную политику и принять эффективные и актуальные процедуры для контроля или предотвращения. [5] Политики также используют данные финансовых агрегатов при оценке экономической и финансовой деятельности компаний и домохозяйств, поскольку эти данные помогают выявить риски, связанные с финансовой стабильностью . Политики могут использовать совокупные данные, чтобы лучше понять развитие экономических и финансовых условий страны. [7]

банки

Банки собирают агрегированные данные от значительного числа клиентов, а затем анонимизируют их, удаляя личную информацию. Основная причина, по которой банки используют агрегированные данные, — это оценка экономических тенденций и получение информации о кластерах клиентов. Банкам не разрешается передавать личные данные клиентов , но совокупные данные могут передаваться бизнес-клиентам банков, и к ним могут получить доступ другие партнеры, которые также используют ту же платформу для получения информации об совокупных данных. [8]

В Австралии Банк Содружества предоставляет своим бизнес-клиентам анонимные данные о своих клиентах, полученные в результате транзакций по картам. ANZ также предоставляет своим бизнес-клиентам анонимизированные данные, собранные из миллионов транзакций торговых терминалов и транзакций по картам ANZ. [8]

В Великобритании Интегрированный сбор совокупных данных неотложной помощи (IUC ADC) предоставляет исчерпывающую информацию о деятельности IUC, ее эффективности, а также о спросе на ее услуги. Данные получены от ведущих поставщиков данных, отвечающих за предоставление комплексных услуг неотложной помощи в Англии. [9] Национальная служба здравоохранения (NHS) при Министерстве здравоохранения и социального обеспечения (DHSC) Англии заявила, что этот сбор совокупных данных заменит минимальный набор данных NHS 111. Он также будет использоваться в качестве официального источника статистики IUC, а также для контроля за ключевыми показателями эффективности (KPI) IUC ADC. [10]

Администраторы

Доступные эмпирические данные национального или регионального уровня используются администраторами и интеллектуалами, а также людьми, которые обеспокоены благополучием региона или общества , в качестве справочных источников. [5] В частности, администраторы используют совокупные данные для оценки текущей политической, религиозной, социальной или другой атмосферы в стране, чтобы отслеживать пробелы в социальных реакциях, связанных со временем и пространством, и диктовать приоритеты для действий. Эти оценки помогают администраторам оценить текущие меры, которые будут полезны в будущем стратегическом планировании , и предоставляют показатели эффективных корректирующих мер. [5]

Источники и методы сбора

Совокупные данные могут представлять собой совокупность различных типов сочинений и записей, включая биографии , автобиографии , описательные отчеты и переписку. [5] Например, исследователь собирает, сопоставляет или компилирует совокупные данные, используя несколько механизмов социального исследования , включая инвентаризацию , интервью , опросник, а также анкету или график . Официальные или неофициальные агентства также собирают и компилируют совокупные данные на постоянной основе, используя инфраструктуру, имеющуюся в департаменте на местном уровне. [5]

Источники агрегированных данных также можно рассматривать как инструменты для обнаружения данных. В США некоторые данные по США представлены в виде таблиц. Примеры источников этих совокупных данных США включают Бюро переписи населения США , Statistical Abstract of the United States и Social Explorer. Данные Международного валютного фонда , World DataBank и Penn World Table являются примерами источников транзакционных и международных совокупных данных. [11]

Использование агрегированных данных

Сравнительный политический анализ

Совокупные данные используются в сравнительном политическом анализе, поскольку аналитики сосредотачивают внимание не только на поведении отдельных лиц. Они также фокусируются на поведении территориальных единиц, включая избирательные округа и страны. [12] В анализе политической деятельности важные данные, например, связанные с индустриализацией , урбанизацией , а также сетями массовой коммуникации, не могут быть легко выражены на отдельных уровнях. Они выражаются в пересчете на душу населения , чтобы контролировать различия в численности населения территориальных единиц . [12] Совокупные данные широко доступны, поскольку демографические, социально-экономические и политические данные собираются и публикуются странами. Это облегчает исследователям и аналитикам проведение более длительных исследований тенденций и позволяет им глубже сфокусироваться на изменениях и разработках. [12]

Научный метаанализ APD

Факторы, в том числе потребность во времени, значительных ресурсах и широком международном сотрудничестве , препятствовали использованию метаанализа индивидуальных данных пациентов (IPD) , что привело к тому, что большинство опубликованных метаанализов основывались на совокупных данных пациентов (APD). [13] Для получения данных обо всех исследованиях на всех пациентах собираются совокупные данные о пациентах из завершенных исследований, которые представляются на профессиональных встречах, публикуются в медицинской литературе или непосредственно предоставляются отдельными исследователями. Агрегированные данные о пациентах используются пользователями, в том числе Кокрановским сотрудничеством, Целевой группой профилактических служб США и многими профессиональными обществами, для обеспечения поддержки руководств по клинической практике. Совокупные данные о пациентах также используются в исследованиях мета-анализов с учетом времени до события, поскольку результаты могут информировать инвесторов о целесообразности перехода к проведению большего количества мета-анализов, основанных на ресурсоемких индивидуальных данных пациентов. [13]

Другое использование

Здравоохранение

В информационной системе здравоохранения совокупные данные представляют собой интеграцию данных, касающихся многочисленных пациентов. Конкретного пациента невозможно отследить на основе совокупных данных. Эти агрегированные данные представляют собой только подсчеты, включая туберкулез , малярию и другие заболевания. Медицинские учреждения используют этот тип агрегированной статистики для создания отчетов и показателей, а также для стратегического планирования в своих системах здравоохранения. [14] По сравнению с агрегированными данными, данные пациента представляют собой индивидуальные данные, относящиеся к одному пациенту, включая его имя, возраст, диагноз и историю болезни. Данные пациентов в основном используются для отслеживания прогресса пациента, например, того, как пациент реагирует на конкретное лечение с течением времени. [14]

Архив данных о COVID-19, также называемый COVID-ARC, объединяет данные исследований по всему миру . Исследователи могут получить доступ к открытиям международных коллег и наладить сотрудничество для облегчения процессов, связанных с борьбой с этой болезнью. [15] В частности, использование агрегированных медицинских данных позволяет поставщикам медицинских услуг получать полезную клиническую информацию, когда, например, становится возможным тщательный просмотр клинических данных или непрерывная запись пациентов. [15]

Образование

Совокупные данные, такие как совокупные демографические данные на уровне школы и совокупные данные об успеваемости на уровне школы, используются в экспериментальном анализе для оценки взаимосвязи между успеваемостью учащихся и мероприятиями на уровне школы. [16] Совокупные данные также могут использоваться в неэкспериментальном анализе, таком как регрессионный анализ разрывов и анализ прерывистых временных рядов. В этом неэкспериментальном анализе данные индивидуального уровня не требуются. Например, анализ прерванных временных рядов оценивает влияние программы на уровне школы путем сравнения достижений школы до и после запуска программы, когда данные на индивидуальном уровне не нужны. [16]

Ограничения

В процессе усреднения единиц внутри некоторого кластера или внутри страны информация теряется, что увеличивает вероятность получения неточных выводов. [17] Потеря информации происходит потому, что при агрегировании данных игнорируются индивидуальные различия, как если бы это был всего лишь статистический шум или ошибка измерения. [18] Выводы также различаются в зависимости от того, используются ли для анализа данные отдельных фирм или агрегированные данные. Например, при расчете средних показателей по стране не учитываются специфичные для фирмы переменные, такие как размер фирмы, возраст фирмы или концентрация собственности фирмы, но при расчете средних показателей по отдельным предприятиям учитываются. Существуют различия между результатами, полученными на основе совокупных данных и отдельных данных. [17]

Существует также проблема «экологического заблуждения». Идея была предложена Робинсоном (1950). Смысл этого термина заключается в том, что изменчивость средних средств индивидуального уровня существенно отличается от изменчивости, охватывающей совокупные средние значения. [18] С помощью агрегированной концепции выражаются вещи, отличные от индивидуальных эквивалентов агрегированных данных, а это означает, что выводы на индивидуальном уровне не могут быть сделаны. [3] Хотя агрегированные данные имеют более широкое применение, чем данные индивидуального уровня, исследователям сложнее анализировать результаты подгрупп , когда используются агрегированные данные. В конечном итоге может потребоваться и индивидуальная информация. Моделирование роста и продольное моделирование на основе совокупных данных также сложны, поскольку переменные могут меняться с течением времени. [2]

Другие типы агрегированных данных

Данные финансовых агрегатов

Данные финансовых агрегатов — это тип совокупных данных о кредите и денежной массе в Австралии, которые используются политиками при оценке экономической и финансовой деятельности как домохозяйств, так и компаний. [7]

Кредитные агрегаты

Кредитные агрегаты представляют собой показатели заимствований домохозяйств и предприятий у финансовых посредников. Сумма средств, заимствованных предприятиями для целей, включая проектные инвестиции, покупку активов или управление денежными потоками, также измеряется с использованием кредитных агрегатов. [7]

Денежные агрегаты

Денежные агрегаты представляют собой измерения денег или «денежных» инструментов банковской системы, которые причитаются предприятиям и домохозяйствам. Примером «денежного» инструмента являются депозиты на банковском счете . [7]

Совокупные данные переписи населения

В Великобритании совокупные данные переписи представляют собой данные, полученные в результате переписи населения Соединенного Королевства. Они предоставляют информацию о социально-экономических и демографических характеристиках населения страны. Они представляют собой компиляцию агрегированных или обобщенных расчетов количества людей, жителей домохозяйств или семей в определенных географических районах с конкретными характеристиками или совокупностью характеристик, взятых из людей и мест, популяций, семей, здоровья, этническая принадлежность и религия, жилье и работа. [19]

Совокупные данные используются в качестве компонентов результатов переписи населения Великобритании. Они получены в результате анализа информации, содержащейся в отчетах переписи населения. [19] Совокупные данные переписи используются для сравнения и описания характеристик населения в различных местах Великобритании, поскольку они способны предоставить сопоставимую информацию на различных географических уровнях по всей Великобритании. Совокупные данные переписи также используются в академическом секторе для учебных и исследовательских целей, а также для определения местоположения и маркетинга в частном секторе. [19]

Рекомендации

  1. ^ Гашимзаде, Нигяр; Майлз, Гарет; Блэк, Джон (19 января 2017 г.). Экономический словарь. Издательство Оксфордского университета. п. 4. дои : 10.1093/acref/9780198759430.001.0001. ISBN 978-0-19-875943-0.
  2. ^ abcd Джейкоб, Робин (2016). «Использование совокупных административных данных в исследованиях социальной политики». Управление планирования, исследований и оценки | АКФ . стр. 1–6 . Проверено 30 октября 2020 г.
  3. ^ abc Старрин, Бенгт; Хагквист, Курт; Ларссон, Джерри; Свенссон, Пер-Гуннар (1 июня 1993 г.). «Типы сообществ, социально-экономическая структура и смертность от ИБС - контекстуальный анализ, основанный на совокупных данных Швеции». Социальные науки и медицина . 36 (12): 1569–1578. дои : 10.1016/0277-9536(93)90345-5. ISSN  0277-9536. ПМИД  8327920.
  4. ^ Агрегация и реструктуризация данных (глава 5.6 из книги «R в действии», Manning Publications )
  5. ^ abcdefgh Шукла, KS (1982). «Анализ совокупных данных». Журнал Индийского юридического института . 24 (4): 756–762. ISSN  0019-5731. JSTOR  43950840.
  6. ^ «Данные о мобильном местоположении и Covid-19: вопросы и ответы» . Хьюман Райтс Вотч . 13 мая 2020 г. Проверено 30 октября 2020 г.
  7. ^ abcd Bank, Джоэл; Дуррани, Кассим; Хацви, Иден (21 марта 2019 г.). «Обновления финансовых агрегатов Австралии». Резервный банк Австралии .
  8. ^ Аб Стюарт, Эмили (22 марта 2019 г.). «У банков есть много информации о вас — и они не держат ее в себе — ABC Life». Новости АВС . Проверено 30 октября 2020 г.
  9. ^ «Статистика »Экспериментальная статистика комплексного сбора совокупных данных неотложной помощи (IUC ADC) 2019-20» . www.england.nhs.uk . Национальная служба здравоохранения Англии . Проверено 30 октября 2020 г.
  10. ^ «Интегрированный сбор совокупных данных неотложной помощи (IUC ADC) за март 2020 г. (экспериментальный)» . GOV.UK. ​Англия, Великобритания. 14 мая 2020 г. Проверено 30 октября 2020 г.
  11. ^ Пенсек, Брюс. «Исследовательские руководства: Ресурсы данных для социальных наук: совокупные данные». guides.lib.vt.edu . Вирджинский технологический институт . Проверено 30 октября 2020 г.
  12. ^ abc Retzlaff, Ральф Х. (1965). «Использование агрегированных данных в сравнительном политическом анализе». Журнал политики . 27 (4): 797–817. дои : 10.2307/2128120. ISSN  0022-3816. JSTOR  2128120. S2CID  154713056.
  13. ^ аб Лайман, Гэри Х.; Кудерер, Николь М. (25 апреля 2005 г.). «Сильные стороны и ограничения метаанализа, основанного на совокупных данных». Методология медицинских исследований BMC . 5 (1): 14. дои : 10.1186/1471-2288-5-14 . ISSN  1471-2288. ПМЦ 1097735 . ПМИД  15850485. 
  14. ^ ab «3.5 Разница между агрегированными данными и данными пациентов в HIS». docs.dhis2.org . Проверено 15 ноября 2020 г.
  15. ↑ Аб Гринбаум, Зара (19 августа 2020 г.). «Ученые запускают архив данных для поддержки исследований COVID-19». Новости ВСК . Проверено 31 октября 2020 г.
  16. ^ Аб Джейкоб, Робин Т.; Годдард, Роджер Д.; Ким, Ын Сук (01 марта 2014 г.). «Оценка использования агрегированных данных при оценке мероприятий на базе школ: последствия для оценочных исследований и государственной политики в отношении данных для публичного использования». Оценка образования и анализ политики . 36 : 44–66. дои : 10.3102/0162373713485814. S2CID  145621485.
  17. ^ аб Холдернесс, Клиффорд Г. (12 мая 2016 г.). «Проблемы использования совокупных данных для определения индивидуального поведения: данные из права, финансов и концентрации собственности». Критический финансовый обзор . 5 (1): 1–40. дои : 10.1561/104.00000028.
  18. ^ аб Поллет, Томас В.; Штульп, Герт; Хензи, С. Питер; Барретт, Луиза (2015). «Устранение усложнения агрегирования данных: концептуальное руководство по решению статистических проблем, связанных с объединением данных наблюдений на индивидуальном уровне». Американский журнал приматологии . 77 (7): 727–740. дои : 10.1002/ajp.22405. ISSN  1098-2345. PMID  25810242. S2CID  1705139.
  19. ^ abc «Руководство по совокупным данным переписи населения». census.ukdataservice.ac.uk . Проверено 31 октября 2020 г.