stringtranslate.com

Совокупные данные

Диаграмма, показывающая основное значение агрегированных данных, которые представляют собой комбинацию отдельных данных.

Агрегированные данные — это данные высокого уровня , которые получаются путем объединения данных индивидуального уровня. Например, выпуск отрасли представляет собой совокупность индивидуальных выпусков фирм в этой отрасли. [1] Агрегированные данные применяются в статистике, хранилищах данных и в экономике.

Существует различие между совокупными данными и индивидуальными данными. Совокупные данные относятся к индивидуальным данным, которые усредняются по географическому региону, по году, по агентству обслуживания или другими способами. [2] Индивидуальные данные представляют собой дезагрегированные индивидуальные результаты и используются для проведения анализов с целью оценки различий подгрупп. [2]

Агрегированные данные в основном используются исследователями и аналитиками, политиками, банками и администраторами по нескольким причинам. Они используются для оценки политик, распознавания тенденций и моделей процессов, получения соответствующих идей и оценки текущих мер для стратегического планирования. Агрегированные данные, собранные из различных источников, используются в различных областях исследований, таких как сравнительный политический анализ и научный анализ APD для дальнейшего анализа. Агрегированные данные также используются в медицинских и образовательных целях. Агрегированные данные широко используются, но они также имеют некоторые ограничения, включая неточные выводы и ложные заключения, что также называется « экологическим заблуждением ». [3] «Экологическое заблуждение» означает, что пользователи не могут делать выводы об экологических связях между двумя количественными переменными на индивидуальном уровне. [3]

Приложения

В статистике агрегированные данные — это данные, объединенные из нескольких измерений. Когда данные агрегируются, группы наблюдений заменяются сводными статистическими данными, основанными на этих наблюдениях. [4]

В хранилище данных использование агрегированных данных значительно сокращает время запроса больших наборов данных. Разработчики предварительно суммируют запросы, которые используются регулярно, такие как Weekly Sales по нескольким измерениям , например, по иерархии товаров или географической иерархии.

В экономике агрегированные данные или агрегаты данных представляют собой данные высокого уровня , которые состоят из множества или комбинации других более индивидуальных данных, таких как:

Основные пользователи

Исследователи и аналитики

Исследователи используют агрегированные данные для понимания преобладающего этоса , оценки сущности социальных реалий и социальной организации, определения основных проблемных вопросов в исследовании и предоставления прогнозов относительно природы социальных проблем. [5] Агрегированные данные полезны для исследователей, когда они заинтересованы в исследовании взаимосвязей между двумя различными переменными на агрегированном уровне и связей между агрегированной переменной и характеристикой на индивидуальном уровне. [2] Исследователи также предприняли попытку критически оценить политику, практику и предписания систем с помощью агрегированных данных, чтобы исследовать соответствующую релевантность и эффективность . [5]

Политики

Агрегированные данные используются правительствами для разработки более эффективной политики, поскольку они служат мерой того, насколько правительство способно осознавать потребности и нужды своих граждан, а также мерой того, как правительство эффективно поддерживает общественный порядок. [5] Например, правительства по всему миру используют агрегированные данные о местоположении мобильных устройств для анализа в ответ на Covid-19. Агрегированные данные о местоположении мобильных устройств могут дать представление об эффективности мер социального дистанцирования , принятых правительствами. Правительства также используют агрегированные данные для выявления возможных «горячих точек» и потенциала передачи. [6]

Помимо прогнозирования эффективности государственной политики, совокупный анализ данных также проводится для оценки характера, степени, распознавания тенденции и изучения модели конкретного явления или процесса с целью разработки стратегий, подготовки краткосрочной или долгосрочной политики и принятия эффективных и соответствующих процедур для контроля или предотвращения. [5] Политики также используют финансовые совокупные данные при оценке экономической и финансовой деятельности компаний и домохозяйств, поскольку эти данные помогают выявлять риски, связанные с финансовой стабильностью . Политики могут использовать совокупные данные для лучшего понимания развития экономических и финансовых условий страны. [7]

Банки

Банки собирают агрегированные данные от значительного числа клиентов, а затем анонимизируют данные, удаляя персональную информацию. Основная причина, по которой банки используют агрегированные данные, заключается в оценке экономических тенденций и получении информации о кластерах клиентов. Банкам не разрешается делиться персональными данными клиентов , но агрегированные данные могут быть предоставлены корпоративным клиентам банков и могут быть доступны другим партнерам, которые также используют ту же платформу для получения информации о агрегированных данных. [8]

В Австралии Commonwealth Bank предоставляет своим корпоративным клиентам анонимные данные, связанные с их клиентами, которые получены из транзакций по картам. ANZ также предоставляет своим корпоративным клиентам анонимные данные, которые собираются из миллионов транзакций торговых терминалов и транзакций по картам ANZ. [8]

В Великобритании Integrated Urgent Care Aggregate Data Collection (IUC ADC) предоставляет исчерпывающую информацию о деятельности IUC, ее производительности, а также о спросе на услуги. Его данные получены от ведущих поставщиков данных, ответственных за предоставление интегрированных услуг неотложной помощи в Англии. [9] Национальная служба здравоохранения (NHS) при Департаменте здравоохранения и социального обеспечения (DHSC) в Англии заявила, что этот сбор совокупных данных заменит минимальный набор данных NHS 111. Он также будет использоваться в качестве официального источника статистики IUC, а также для контроля ключевых показателей эффективности (KPI) IUC ADC. [10]

Администраторы

Национальный или региональный уровень доступных эмпирических данных используется администраторами и интеллектуалами, а также людьми, которые обеспокоены благосостоянием региона или общества , в качестве источников справочной информации. [5] В частности, администраторы используют совокупные данные для оценок в текущей политической, религиозной, социальной или другой атмосфере страны, чтобы отслеживать пробелы в социальных реакциях, связанных со временем и пространством, и диктовать приоритеты для действий. Эти оценки помогают администраторам в оценке текущих мер, которые полезны в будущем стратегическом планировании и предоставляют индикаторы эффективных корректирующих мер. [5]

Источники и методы сбора

Совокупные данные могут быть составлены из различных типов сочинений и записей, включая биографию , автобиографию , описательные отчеты и переписку. [5] Например, исследователь собирает, сопоставляет или компилирует совокупные данные, используя несколько механизмов социальных исследований , включая инвентаризацию , интервью , экспертное мнение и анкету или график . Официальные или неофициальные агентства также собирают и компилируют совокупные данные на постоянной основе, используя инфраструктуры, доступные в отделе на полевом уровне. [5]

Источники агрегированных данных также можно рассматривать как инструменты для обнаружения данных. В США некоторые данные США представлены в виде таблиц. Примерами источников этих агрегированных данных США являются Бюро переписи населения США , Статистический обзор США и Social Explorer. Данные Международного валютного фонда , World DataBank и Penn World Table являются примерами транзакционных и международных агрегированных источников данных. [11]

Использование агрегированных данных

Сравнительный политический анализ

Совокупные данные используются в сравнительном политическом анализе, поскольку аналитики фокусируются не только на поведении отдельных лиц. Они также фокусируются на поведении территориальных единиц, включая избирательные округа и страны. [12] В анализе политической активности важные данные, такие как данные, связанные с индустриализацией , урбанизацией , а также сетями массовой коммуникации, не выражаются легко на индивидуальных уровнях. Они выражаются в расчете на душу населения , чтобы контролировать изменения в численности населения территориальных единиц . [12] Совокупные данные широко доступны, поскольку демографические, социально-экономические и политические данные собираются и публикуются странами. Это облегчает исследователям и аналитикам проведение более длительных исследований тенденций и позволяет им более глубоко фокусироваться на изменениях и событиях. [12]

Научные метаанализы APD

Факторы, включающие потребность во времени, значительные ресурсы и широкое международное сотрудничество , препятствовали использованию метаанализа индивидуальных данных пациентов (IPD) , что привело к тому, что большинство опубликованных метаанализов основывалось на совокупных данных пациентов (APD). [13] Для получения данных во всех испытаниях по всем пациентам совокупные данные пациентов собираются из завершенных исследований, представленных на профессиональных встречах, опубликованных в медицинской литературе или предоставленных напрямую отдельными исследователями. Совокупные данные пациентов используются пользователями, включая Cochrane Collaboration, United States Preventive Services Task Force и несколько профессиональных обществ, для поддержки клинических практических рекомендаций. Совокупные данные пациентов также используются в исследованиях метаанализов «время-до-события», поскольку результаты могут информировать инвесторов о целесообразности проведения большего количества метаанализов, основанных на ресурсоемких индивидуальных данных пациентов. [13]

Другие применения

Здравоохранение

В системе медицинской информации агрегированные данные представляют собой интеграцию данных, касающихся многочисленных пациентов. Конкретного пациента невозможно отследить на основе агрегированных данных. Эти агрегированные данные представляют собой только подсчеты, включая туберкулез , малярию или другие заболевания. Медицинские учреждения используют этот тип агрегированной статистики для создания отчетов и показателей, а также для осуществления стратегического планирования в своих системах здравоохранения. [14] По сравнению с агрегированными данными, данные о пациентах представляют собой индивидуальные данные, относящиеся к одному пациенту, включая имя, возраст, диагноз и историю болезни. Данные о пациентах в основном используются для отслеживания прогресса пациента, например, того, как пациент реагирует на определенное лечение с течением времени. [14]

Архив данных COVID-19, также называемый COVID-ARC, объединяет данные исследований по всему миру . Исследователи могут получить доступ к открытиям международных коллег и наладить сотрудничество для содействия процессам, связанным с борьбой с болезнью. [15] В частности, использование агрегированных данных здравоохранения позволяет поставщикам медицинских услуг извлекать действенные клинические идеи, когда, например, становятся возможными подробные обзоры клинических данных или непрерывные записи пациентов. [15]

Образование

Агрегированные данные, такие как совокупные демографические данные на уровне школы и совокупные данные об успеваемости на уровне школы, используются в экспериментальном анализе для оценки взаимосвязи между успеваемостью учащихся и вмешательствами на уровне школы. [16] Агрегированные данные также могут использоваться в неэкспериментальном анализе, таком как анализ разрыва регрессии и анализ прерванных временных рядов. Данные на индивидуальном уровне не требуются в этих неэкспериментальных анализах. Например, анализ прерванных временных рядов оценивает влияние, оказываемое программой на уровне школы, путем сравнения достижений школы до и после запуска программы, где данные на индивидуальном уровне не нужны. [16]

Ограничения

В процессе усреднения единиц в пределах некоторого кластера или страны теряется информация, что увеличивает вероятность получения неточных выводов. [17] Потеря информации происходит из-за того, что агрегация данных игнорирует индивидуальные вариации, как если бы это был только тип статистического шума или ошибки измерения. [18] Выводы также различаются от одного к другому, когда для анализа используются либо данные отдельных фирм, либо агрегированные данные. Например, расчет средних значений по стране не учитывает переменные, специфичные для фирмы, такие как размер фирмы, возраст фирмы или концентрация собственности фирмы, но расчет индивидуальных средних учитывает. Существуют различия между результатами, полученными из агрегированных данных и индивидуальных данных. [17]

Существует также проблема «экологического заблуждения». Эта концепция была предложена Робинсоном (1950). Значение этого термина заключается в том, что изменчивость вокруг средних значений на индивидуальном уровне существенно отличается от изменчивости, охватывающей средние значения совокупности. [18] С помощью концепции совокупности выражаются вещи, отличные от индивидуальных эквивалентов совокупных данных, что означает, что выводы на индивидуальном уровне не могут быть сделаны. [3] Хотя совокупные данные имеют более широкую применимость, чем данные на индивидуальном уровне, исследователям сложнее заниматься анализом результатов подгрупп , когда используются совокупные данные. В конечном итоге может потребоваться и индивидуальная информация. Моделирование роста и продольное моделирование на основе совокупных данных также сложны, поскольку переменные могут меняться с течением времени. [2]

Другие типы агрегированных данных

Финансовые сводные данные

Финансовые агрегатные данные — это тип совокупных данных о кредите и денежной массе в Австралии, которые используются политиками при оценке как экономической, так и финансовой деятельности домохозяйств и компаний. [7]

Кредитные агрегаты

Кредитные агрегаты являются измерениями заимствований домохозяйств и предприятий у финансовых посредников. Объем средств, заимствованных предприятиями для целей, включая инвестиции в проекты, покупку активов или управление денежными потоками, также измеряется с использованием кредитных агрегатов. [7]

Денежные агрегаты

Денежные агрегаты являются измерениями денег или «денежно-подобных» инструментов банковской системы, которые принадлежат предприятиям и домохозяйствам. Примером «денежно-подобного» инструмента являются депозиты на банковском счете . [7]

Сводные данные переписи

В Великобритании агрегированные данные переписи населения — это данные, полученные в результате переписей населения Соединенного Королевства. Они предоставляют информацию о социально-экономических и демографических характеристиках населения страны. Они представляют собой компиляцию агрегированных или обобщенных расчетов числа лиц, жителей домохозяйств или семей в определенных географических районах с определенными характеристиками или соединениями характеристик, взятых из субъектов людей и мест, населения, семей, здоровья, этнической принадлежности и религии, жилья и работы. [19]

Агрегированные данные используются как компоненты результатов переписей населения Великобритании. Они получены в результате анализа информации, представленной в отчетах переписи. [19] Агрегированные данные переписи используются для сравнения и описания характеристик населения в различных местах Великобритании, поскольку они могут предоставить сопоставимую информацию на различных географических уровнях по всей Великобритании. Агрегированные данные переписи также используются в академическом секторе для целей обучения и исследований, а также для определения местоположения и маркетинга в частном секторе. [19]

Ссылки

  1. ^ Хашимзаде, Нигяр; Майлз, Гарет; Блэк, Джон (19.01.2017). Экономический словарь. Oxford University Press. стр. 4. doi : 10.1093/acref/9780198759430.001.0001. ISBN 978-0-19-875943-0.
  2. ^ abcd Jacob, Robin (2016). «Использование агрегированных административных данных в исследованиях социальной политики». Управление планирования, исследований и оценки | ACF . стр. 1–6 . Получено 30 октября 2020 г.
  3. ^ abc Starrin, Bengt; Hagquist, Curt; Larsson, Gerry; Svensson, Per-Gunnar (1993-06-01). "Типы сообществ, социально-экономическая структура и смертность от ИБС — контекстуальный анализ на основе шведских совокупных данных". Social Science & Medicine . 36 (12): 1569–1578. doi :10.1016/0277-9536(93)90345-5. ISSN  0277-9536. PMID  8327920.
  4. ^ Агрегация и реструктуризация данных (глава 5.6 из книги «R в действии», Manning Publications )
  5. ^ abcdefgh Шукла, KS (1982). «Анализ совокупных данных». Журнал Индийского юридического института . 24 (4): 756–762. ISSN  0019-5731. JSTOR  43950840.
  6. ^ «Данные о местоположении мобильных устройств и Covid-19: вопросы и ответы». Human Rights Watch . 2020-05-13 . Получено 2020-10-30 .
  7. ^ abcd Bank, Джоэл; Дуррани, Кассим; Хацви, Эден (21 марта 2019 г.). «Обновления финансовых агрегатов Австралии». Резервный банк Австралии .
  8. ^ ab Stewart, Emily (2019-03-22). «У банков много информации о вас — и они не держат ее всю при себе — ABC Life». ABC News . Получено 2020-10-30 .
  9. ^ "Статистика » Интегрированный сбор совокупных данных по неотложной помощи (IUC ADC) Экспериментальная статистика 2019-20". www.england.nhs.uk . NHS England . Получено 2020-10-30 .
  10. ^ "Сбор агрегированных данных по комплексной неотложной помощи (IUC ADC) за март 2020 г. (экспериментальный)". GOV.UK. Англия, Соединенное Королевство. 14 мая 2020 г. Получено 30 октября 2020 г.
  11. ^ Пенсек, Брюс. «Руководства по исследованиям: Ресурсы данных для социальных наук: Совокупные данные». guides.lib.vt.edu . Virginia Tech . Получено 2020-10-30 .
  12. ^ abc Retzlaff, Ralph H. (1965). «Использование агрегированных данных в сравнительном политическом анализе». The Journal of Politics . 27 (4): 797–817. doi :10.2307/2128120. ISSN  0022-3816. JSTOR  2128120. S2CID  154713056.
  13. ^ ab Lyman, Gary H.; Kuderer, Nicole M. (2005-04-25). «Сильные стороны и ограничения метаанализов на основе агрегированных данных». BMC Medical Research Methodology . 5 (1): 14. doi : 10.1186/1471-2288-5-14 . ISSN  1471-2288. PMC 1097735. PMID 15850485  . 
  14. ^ ab "3.5 Разница между агрегированными данными и данными о пациентах в HIS". docs.dhis2.org . Получено 15.11.2020 .
  15. ^ ab Greenbaum, Zara (19 августа 2020 г.). «Ученые запускают архив данных для поддержки исследований COVID-19». HSC News . Получено 31 октября 2020 г.
  16. ^ ab Jacob, Robin T.; Goddard, Roger D.; Kim, Eun Sook (2014-03-01). «Оценка использования агрегированных данных при оценке школьных вмешательств: последствия для исследований оценки и государственной политики в отношении данных общественного пользования». Анализ образовательной оценки и политики . 36 : 44–66. doi :10.3102/0162373713485814. S2CID  145621485.
  17. ^ ab Holderness, Clifford G. (2016-05-12). «Проблемы использования агрегированных данных для вывода индивидуального поведения: доказательства из права, финансов и концентрации собственности». Critical Finance Review . 5 (1): 1–40. doi :10.1561/104.00000028.
  18. ^ ab Поллет, Томас В.; Штульп, Герт; Хенци, С. Питер; Барретт, Луиза (2015). «Устранение осложнений при агрегации данных: концептуальное руководство по решению статистических проблем, связанных с объединением данных наблюдений на индивидуальном уровне». Американский журнал приматологии . 77 (7): 727–740. doi :10.1002/ajp.22405. ISSN  1098-2345. PMID  25810242. S2CID  1705139.
  19. ^ abc "Руководство по агрегированным данным переписи". census.ukdataservice.ac.uk . Получено 2020-10-31 .