Процесс анализа данных для обнаружения полезной информации и поддержки принятия решений.
Анализ данных — это процесс проверки, очистки , преобразования и моделирования данных с целью обнаружения полезной информации, обоснования выводов и поддержки принятия решений . [1] Анализ данных имеет множество граней и подходов, охватывая разнообразные методы под разными названиями и применяясь в различных областях бизнеса, науки и социальных наук. [2] В современном деловом мире анализ данных играет роль в принятии более научных решений и помогает компаниям работать более эффективно. [3]
Data Mining — это особый метод анализа данных, который фокусируется на статистическом моделировании и обнаружении знаний для предиктивных, а не чисто описательных целей, в то время как бизнес-аналитика охватывает анализ данных, который в значительной степени опирается на агрегацию, фокусируясь в основном на деловой информации. [4] В статистических приложениях анализ данных можно разделить на описательную статистику , разведывательный анализ данных (EDA) и подтверждающий анализ данных (CDA). [5] EDA фокусируется на обнаружении новых функций в данных, в то время как CDA фокусируется на подтверждении или фальсификации существующих гипотез . [6] [7] Предиктивная аналитика фокусируется на применении статистических моделей для предиктивного прогнозирования или классификации, в то время как текстовая аналитика применяет статистические, лингвистические и структурные методы для извлечения и классификации информации из текстовых источников, разновидности неструктурированных данных . Все вышеперечисленное является разновидностями анализа данных. [8]
Интеграция данных является предшественником анализа данных, а анализ данных тесно связан с визуализацией и распространением данных. [9]
Процесс анализа данных
Анализ относится к разделению целого на отдельные компоненты для индивидуального изучения. [10] Анализ данных — это процесс получения необработанных данных и последующего преобразования их в информацию, полезную для принятия решений пользователями. [1] Данные собираются и анализируются для ответа на вопросы, проверки гипотез или опровержения теорий. [11]
Статистик Джон Тьюки в 1961 году определил анализ данных следующим образом:
«Процедуры анализа данных, методы интерпретации результатов таких процедур, способы планирования сбора данных для облегчения их анализа, повышения его точности или достоверности, а также все механизмы и результаты (математической) статистики, которые применяются к анализу данных». [12]
Можно выделить несколько фаз, описанных ниже. Фазы являются итеративными , в том смысле, что обратная связь с более поздних фаз может привести к дополнительной работе на более ранних фазах. [13] Фреймворк CRISP , используемый в добыче данных , имеет похожие шаги.
Требования к данным
Данные необходимы в качестве входных данных для анализа, который определяется на основе требований тех, кто руководит аналитикой (или клиентов, которые будут использовать готовый продукт анализа). [14] [15] Общий тип сущности, по которой будут собираться данные, называется экспериментальной единицей (например, человек или популяция людей). Могут быть указаны и получены конкретные переменные, касающиеся популяции (например, возраст и доход). Данные могут быть числовыми или категориальными (т. е. текстовая метка для чисел). [13]
Сбор данных
Данные собираются из различных источников. [16] [17] Список источников данных доступен для изучения и исследования. Аналитики могут сообщать требования хранителям данных, например, сотрудникам отдела информационных технологий в организации. [18] Сбор данных или сбор данных — это процесс сбора и измерения информации о целевых переменных в установленной системе, что затем позволяет отвечать на соответствующие вопросы и оценивать результаты. Данные также могут собираться с датчиков в окружающей среде, включая дорожные камеры, спутники, записывающие устройства и т. д. Их также можно получить с помощью интервью, загрузок из онлайн-источников или чтения документации. [13]
Обработка данных
Данные, когда они изначально получены, должны быть обработаны или организованы для анализа. [19] [20] Например, они могут включать размещение данных в строках и столбцах в табличном формате ( известном как структурированные данные ) для дальнейшего анализа, часто с использованием электронных таблиц или статистического программного обеспечения. [13]
Очистка данных
После обработки и организации данные могут быть неполными, содержать дубликаты или содержать ошибки. [21] [22] Необходимость очистки данных возникнет из-за проблем в способе ввода и хранения данных. [21] Очистка данных — это процесс предотвращения и исправления этих ошибок. К распространенным задачам относятся сопоставление записей, выявление неточности данных, общее качество существующих данных, дедупликация и сегментация столбцов. [23] Такие проблемы с данными также можно выявить с помощью различных аналитических методов. Например, в случае с финансовой информацией итоговые значения для определенных переменных можно сравнить с отдельно опубликованными числами, которые считаются надежными. [24] [25] Необычные суммы, выше или ниже заранее определенных пороговых значений, также могут быть рассмотрены. Существует несколько типов очистки данных, которые зависят от типа данных в наборе; это могут быть номера телефонов, адреса электронной почты, работодатели или другие значения. [26] [27] Количественные методы обнаружения выбросов можно использовать для избавления от данных, которые, по-видимому, имеют большую вероятность быть введенными неправильно. [28] Текстовые средства проверки орфографии данных можно использовать для уменьшения количества слов с ошибками. Однако сложнее определить, являются ли сами слова правильными. [29]
Исследовательский анализ данных
После очистки наборов данных их можно анализировать. Аналитики могут применять различные методы, называемые разведочным анализом данных , чтобы начать понимать сообщения, содержащиеся в полученных данных. [30] Процесс исследования данных может привести к дополнительной очистке данных или дополнительным запросам на данные; таким образом, инициализация итеративных фаз, упомянутых в первом абзаце этого раздела. [31] Описательная статистика , такая как среднее или медианное значение, может быть создана для помощи в понимании данных. [32] [33] Визуализация данных также является используемой техникой, при которой аналитик может изучать данные в графическом формате, чтобы получить дополнительные сведения относительно сообщений в данных. [13]
Моделирование и алгоритмы
Математические формулы или модели (также известные как алгоритмы ) могут применяться к данным для определения взаимосвязей между переменными; например, с использованием корреляции или причинно-следственной связи . [34] [35] В общих чертах, модели могут быть разработаны для оценки конкретной переменной на основе другой переменной(ых), содержащейся в наборе данных, с некоторой остаточной ошибкой , зависящей от точности реализованной модели ( например , Данные = Модель + Ошибка). [36] [11]
Выводная статистика включает использование методов, которые измеряют отношения между конкретными переменными. [37] Например, регрессионный анализ может использоваться для моделирования того, дает ли изменение в рекламе ( независимая переменная X ) объяснение изменению в продажах ( зависимая переменная Y ). [38] В математических терминах Y (продажи) является функцией X (рекламы). [39] Это можно описать как ( Y = aX + b + ошибка), где модель разработана таким образом, что ( a ) и ( b ) минимизируют ошибку, когда модель предсказывает Y для заданного диапазона значений X. [40] Аналитики также могут попытаться построить модели, которые описывают данные, с целью упрощения анализа и сообщения результатов. [ 11]
Продукт данных
Продукт данных — это компьютерное приложение, которое принимает входные данные и генерирует выходные данные , возвращая их в среду. [41] Он может быть основан на модели или алгоритме. Например, приложение, которое анализирует данные об истории покупок клиента и использует результаты для рекомендации других покупок, которые могут понравиться клиенту. [42] [13]
Коммуникация
После анализа данных они могут быть представлены пользователям анализа во многих форматах для поддержки их требований. [44] Пользователи могут получить обратную связь, которая приведет к дополнительному анализу. Таким образом, большая часть аналитического цикла является итеративной. [13]
При определении того, как передать результаты, аналитик может рассмотреть возможность внедрения различных методов визуализации данных, чтобы помочь более четко и эффективно донести сообщение до аудитории. [45] Визуализация данных использует информационные дисплеи (графические изображения, такие как таблицы и диаграммы), чтобы помочь донести ключевые сообщения, содержащиеся в данных. [46] Таблицы являются ценным инструментом, предоставляя возможность пользователю запрашивать и фокусироваться на конкретных числах; в то время как диаграммы (например, столбчатые диаграммы или линейные графики) могут помочь объяснить количественные сообщения, содержащиеся в данных. [47]
Количественные сообщения
Стивен Фью описал восемь типов количественных сообщений, которые пользователи могут попытаться понять или передать из набора данных, и связанных с ними графиков, используемых для помощи в передаче сообщения. [48] Клиенты, определяющие требования, и аналитики, выполняющие анализ данных, могут учитывать эти сообщения в ходе процесса. [49]
Временной ряд: фиксируется одна переменная за определенный период времени, например, уровень безработицы за 10-летний период. Для демонстрации тенденции можно использовать линейный график . [50]
Ранжирование: Категориальные подразделения ранжируются в порядке возрастания или убывания, например, рейтинг эффективности продаж ( мера ) по продавцам ( категория , где каждый продавец — это категориальное подразделение ) в течение одного периода. [51] Для отображения сравнения между продавцами можно использовать столбчатую диаграмму . [52]
Часть к целому: Категориальные подразделения измеряются как отношение к целому (т. е. процент от 100%). Круговая диаграмма или столбчатая диаграмма могут отображать сравнение отношений, например, доли рынка, представленной конкурентами на рынке. [53]
Отклонение: Категориальные подразделения сравниваются с эталоном, например, сравнение фактических и бюджетных расходов для нескольких отделов компании за определенный период времени. Столбчатая диаграмма может показать сравнение фактической и эталонной суммы. [54]
Частотное распределение: показывает количество наблюдений определенной переменной за заданный интервал, например, количество лет, в течение которых доходность фондового рынка находится в интервалах, таких как 0–10%, 11–20% и т. д. Для этого анализа можно использовать гистограмму , тип столбчатой диаграммы. [55]
Корреляция: Сравнение между наблюдениями, представленными двумя переменными (X,Y), чтобы определить, имеют ли они тенденцию двигаться в одном или противоположных направлениях. Например, построение графика безработицы (X) и инфляции (Y) для выборки месяцев. Для этого сообщения обычно используется диаграмма рассеяния . [56]
Номинальное сравнение: сравнение категориальных подразделений без определенного порядка, например, объем продаж по коду продукта. Для этого сравнения можно использовать столбчатую диаграмму. [57]
Географический или геопространственный: Сравнение переменной на карте или макете, например, уровень безработицы по штату или количество людей на разных этажах здания. Картограмма — типичный используемый графический элемент. [58] [59]
Анализ количественных данных
Автор Джонатан Куми рекомендовал ряд лучших практик для понимания количественных данных. [60] К ним относятся:
Перед выполнением анализа проверьте необработанные данные на наличие аномалий;
Повторно выполнить важные вычисления, такие как проверка столбцов данных, рассчитанных по формулам;
Подтвердите, что основные итоги представляют собой сумму промежуточных итогов;
Проверьте взаимосвязи между числами, которые должны быть связаны предсказуемым образом, например, соотношения во времени;
Нормализуйте числа, чтобы упростить сравнение, например, для анализа сумм на душу населения или по отношению к ВВП или в качестве индексного значения по отношению к базовому году;
Разбейте проблемы на составные части, проанализировав факторы, которые привели к результатам, например, анализ рентабельности собственного капитала DuPont. [25]
Для рассматриваемых переменных аналитики обычно получают описательную статистику , такую как среднее значение (среднее), медиана и стандартное отклонение . [61] Они также могут анализировать распределение ключевых переменных, чтобы увидеть, как отдельные значения группируются вокруг среднего. [62]
Консультанты McKinsey and Company назвали метод разбиения количественной проблемы на ее составные части принципом MECE . [63] Каждый слой можно разбить на его компоненты; каждый из подкомпонентов должен быть взаимоисключающим друг друга и в совокупности добавляться к слою, расположенному над ними. [64] Такое отношение называется «взаимно исключающим и коллективно исчерпывающим» или MECE. Например, прибыль по определению можно разбить на общий доход и общие затраты. [65] В свою очередь, общий доход можно проанализировать по его компонентам, таким как доход подразделений A, B и C (которые являются взаимоисключающими друг друга) и должны добавляться к общему доходу (совместно исчерпывающим). [66]
Аналитики могут использовать надежные статистические измерения для решения определенных аналитических задач. [67] Проверка гипотез используется, когда аналитик выдвигает определенную гипотезу об истинном положении дел и собирает данные для определения того, является ли это положение дел истинным или ложным. [68] [69] Например, гипотеза может заключаться в том, что «Безработица не влияет на инфляцию», что относится к экономической концепции, называемой кривой Филлипса . [70] Проверка гипотез включает рассмотрение вероятности ошибок типа I и типа II , которые относятся к тому, подтверждают ли данные принятие или отклонение гипотезы. [71] [72]
Регрессионный анализ может использоваться, когда аналитик пытается определить степень, в которой независимая переменная X влияет на зависимую переменную Y (например, «В какой степени изменения в уровне безработицы (X) влияют на уровень инфляции (Y)?»). [73] Это попытка смоделировать или подогнать линию уравнения или кривую к данным таким образом, чтобы Y была функцией X. [74] [75]
Анализ необходимых условий (NCA) может использоваться, когда аналитик пытается определить, в какой степени независимая переменная X допускает переменную Y (например, «В какой степени определенный уровень безработицы (X) необходим для определенного уровня инфляции (Y)?»). [73] В то время как (множественный) регрессионный анализ использует аддитивную логику, где каждая переменная X может производить результат, а X могут компенсировать друг друга (они достаточны, но не необходимы), [76] анализ необходимых условий (NCA) использует логику необходимости, где одна или несколько переменных X допускают существование результата, но могут и не производить его (они необходимы, но не достаточны). Каждое отдельное необходимое условие должно присутствовать, и компенсация невозможна. [77]
Аналитическая деятельность пользователей данных
Пользователи могут иметь особые точки данных, представляющие интерес в наборе данных, в отличие от общего обмена сообщениями, описанного выше. Такие низкоуровневые аналитические действия пользователя представлены в следующей таблице. Таксономия также может быть организована по трем полюсам действий: извлечение значений, поиск точек данных и упорядочивание точек данных. [78] [79] [80] [81]
Препятствия к эффективному анализу
Препятствия к эффективному анализу могут существовать среди аналитиков, выполняющих анализ данных, или среди аудитории. Различение фактов от мнений, когнитивные предубеждения и неспособность к математическому мышлению — все это проблемы для обоснованного анализа данных. [82]
Сбивающий с толку факт и мнение
Вы имеете право на собственное мнение, но не имеете права на собственные факты.
Эффективный анализ требует получения соответствующих фактов для ответа на вопросы, поддержки вывода или формального мнения или проверки гипотез . [83] [84] Факты по определению неопровержимы, что означает, что любой человек, вовлеченный в анализ, должен быть в состоянии согласиться с ними. [85] Например, в августе 2010 года Бюджетное управление Конгресса (CBO) подсчитало, что продление налоговых льгот Буша 2001 и 2003 годов на период 2011–2020 годов добавит примерно 3,3 триллиона долларов к государственному долгу. [86] Каждый должен быть в состоянии согласиться с тем, что именно это и сообщило CBO; все они могут изучить отчет. Это делает его фактом. Согласны ли люди или нет с CBO, это их собственное мнение. [87]
В качестве другого примера, аудитор публичной компании должен прийти к официальному заключению о том, являются ли финансовые отчеты публично торгуемых корпораций «справедливо заявленными во всех существенных отношениях». [88] Это требует обширного анализа фактических данных и доказательств для поддержки их заключения. При переходе от фактов к заключениям всегда существует вероятность того, что заключение ошибочно . [89]
Когнитивные предубеждения
Существует множество когнитивных предубеждений , которые могут негативно влиять на анализ. Например, предубеждение подтверждения — это тенденция искать или интерпретировать информацию таким образом, чтобы она подтверждала чьи-то предубеждения. [90] Кроме того, люди могут дискредитировать информацию, которая не поддерживает их взгляды. [91]
Аналитики могут быть специально обучены осознавать эти предубеждения и то, как их преодолевать. [92] В своей книге «Психология анализа разведданных » отставной аналитик ЦРУ Ричардс Хойер писал, что аналитики должны четко очерчивать свои предположения и цепочки выводов, а также указывать степень и источник неопределенности, связанной с выводами. [93] Он подчеркивал процедуры, помогающие выявлять и обсуждать альтернативные точки зрения. [94]
Неумение считать
Эффективные аналитики, как правило, владеют различными числовыми методами. Однако аудитория может не обладать такой грамотностью в отношении чисел или арифметических способностей ; говорят, что они не умеют считать. [95] Лица, сообщающие данные, также могут пытаться ввести в заблуждение или дезинформировать, намеренно используя плохие числовые методы. [96]
Например, то, растет или падает число, может не быть ключевым фактором. Более важным может быть число относительно другого числа, например, размер государственных доходов или расходов относительно размера экономики (ВВП) или размер затрат относительно дохода в корпоративных финансовых отчетах. [97] Этот числовой метод называется нормализацией [25] или общим размером. Существует много таких методов, используемых аналитиками, будь то корректировка с учетом инфляции (т. е. сравнение реальных и номинальных данных) или рассмотрение роста населения, демографии и т. д. [98] Аналитики применяют различные методы для рассмотрения различных количественных сообщений, описанных в разделе выше. [99]
Аналитики также могут анализировать данные при различных предположениях или сценариях. Например, когда аналитики выполняют анализ финансовой отчетности , они часто пересматривают финансовую отчетность при различных предположениях, чтобы помочь прийти к оценке будущего денежного потока, который они затем дисконтируют до текущей стоимости на основе некоторой процентной ставки, чтобы определить оценку компании или ее акций. [100] [101] Аналогичным образом CBO анализирует влияние различных вариантов политики на доходы, расходы и дефицит правительства, создавая альтернативные будущие сценарии для ключевых мер. [102]
Другие темы
Умные здания
Подход анализа данных может использоваться для прогнозирования потребления энергии в зданиях. [103] Различные этапы процесса анализа данных выполняются для реализации интеллектуальных зданий, где операции по управлению и контролю здания, включая отопление, вентиляцию, кондиционирование воздуха, освещение и безопасность, реализуются автоматически путем имитации потребностей пользователей здания и оптимизации ресурсов, таких как энергия и время. [104]
Аналитика и бизнес-аналитика
Аналитика — это «широкое использование данных, статистического и количественного анализа, объяснительных и прогностических моделей и управления на основе фактов для принятия решений и действий». Это подмножество бизнес-аналитики , которая представляет собой набор технологий и процессов, использующих данные для понимания и анализа эффективности бизнеса с целью принятия решений. [105]
Образование
В образовании большинство преподавателей имеют доступ к системе данных для анализа данных студентов. [106] Эти системы данных предоставляют данные преподавателям в формате данных, доступных без рецепта (внедрение меток, дополнительной документации и справочной системы, а также принятие ключевых решений по упаковке/отображению и содержанию) для повышения точности анализа данных преподавателями. [107]
Заметки практикующего врача
В этом разделе содержатся довольно технические пояснения, которые могут помочь практикующим специалистам, но выходят за рамки типичной статьи в Википедии. [108]
Первоначальный анализ данных
Самое важное различие между фазой начального анализа данных и фазой основного анализа заключается в том, что во время начального анализа данных воздерживаются от любого анализа, направленного на ответ на исходный вопрос исследования. [109] Фаза начального анализа данных руководствуется следующими четырьмя вопросами: [110]
Качество данных
Качество данных должно быть проверено как можно раньше. Качество данных можно оценить несколькими способами, используя различные типы анализа: подсчет частот, описательная статистика (среднее, стандартное отклонение, медиана), нормальность (скошенность, эксцесс, гистограммы частот), требуется нормальное подсчет . [111]
Анализ экстремальных наблюдений : выпадающие наблюдения в данных анализируются, чтобы увидеть, нарушают ли они распределение. [112]
Сравнение и исправление различий в схемах кодирования: переменные сравниваются со схемами кодирования переменных, внешних по отношению к набору данных, и, возможно, исправляются, если схемы кодирования не сопоставимы. [113]
Выбор анализов для оценки качества данных на начальном этапе анализа данных зависит от анализов, которые будут проводиться на основном этапе анализа. [114]
Качество измерений
Качество измерительных приборов следует проверять только на начальном этапе анализа данных, когда это не является целью или вопросом исследования. [115] [116] Следует проверить, соответствует ли структура измерительных приборов структуре, описанной в литературе.
Существует два способа оценки качества измерений:
Факторный анализ подтверждения
Анализ однородности ( внутренней согласованности ), который дает представление о надежности измерительного прибора. [117] В ходе этого анализа проверяются дисперсии элементов и шкал, α Кронбаха шкал и изменение альфа Кронбаха, когда элемент удаляется из шкалы [118]
Начальные преобразования
После оценки качества данных и измерений можно принять решение о вменении недостающих данных или о выполнении начальных преобразований одной или нескольких переменных, хотя это также можно сделать во время основного этапа анализа. [119]
Возможные преобразования переменных: [120]
Преобразование квадратного корня (если распределение умеренно отличается от нормального)
Логарифмическое преобразование (если распределение существенно отличается от нормального)
Обратное преобразование (если распределение сильно отличается от нормального)
Сделать категориальным (порядковым/дихотомическим) (если распределение сильно отличается от нормального и никакие преобразования не помогают)
Соответствовало ли проведение исследования целям исследовательского проекта?
Следует проверить успешность процедуры рандомизации , например, проверив, равномерно ли распределены фоновые и существенные переменные внутри групп и между ними. [121] Если исследование не нуждалось или не использовало процедуру рандомизации, следует проверить успешность неслучайной выборки, например, проверив, все ли подгруппы интересующей популяции представлены в выборке. [122] Другие возможные искажения данных, которые следует проверить, это:
выбывание (это должно быть выявлено на этапе первоначального анализа данных)
Отсутствие ответа на вопрос (случайность этого явления следует оценить на этапе первоначального анализа данных)
В любом отчете или статье структура выборки должна быть точно описана. [124] [125] Особенно важно точно определить структуру выборки (и, в частности, размер подгрупп), когда анализ подгрупп будет проводиться на этапе основного анализа. [126] Характеристики выборки данных можно оценить, посмотрев на:
Базовая статистика важных переменных
Диаграммы рассеяния
Корреляции и ассоциации
Кросс-таблицы [127]
Заключительный этап первичного анализа данных
На заключительном этапе результаты первоначального анализа данных документируются, а также принимаются необходимые, предпочтительные и возможные корректирующие действия. [128] Кроме того, первоначальный план основных анализов данных может и должен быть уточнен более подробно или переписан. [129] Для этого можно и должно быть принято несколько решений относительно основных анализов данных:
В случае ненормальных величин : следует ли преобразовывать переменные; делать переменные категориальными (порядковыми/дихотомическими); адаптировать метод анализа?
В случае отсутствия данных : следует ли игнорировать или вменять недостающие данные; какой метод вменения следует использовать?
В случае выбросов : следует ли использовать надежные методы анализа?
В случае, если элементы не укладываются в шкалу: следует ли адаптировать измерительный инструмент, исключив элементы, или лучше обеспечить сопоставимость с другими (применениями) измерительного инструмента(ов)?
В случае (слишком) малых подгрупп: следует ли отказаться от гипотезы о межгрупповых различиях или использовать методы малых выборок, такие как точные тесты или бутстреппинг ?
В случае, если процедура рандомизации кажется несовершенной: можно и нужно ли рассчитывать показатели склонности и включать их в качестве ковариатов в основные анализы? [130]
Анализ
На этапе начального анализа данных можно использовать несколько видов анализа: [131]
Одномерная статистика (отдельная переменная)
Двумерные ассоциации (корреляции)
Графические методы (диаграммы рассеяния)
При анализе важно учитывать уровни измерения переменных, поскольку для каждого уровня доступны специальные статистические методы: [132]
Номинальные и порядковые переменные
Частота подсчетов (числа и проценты)
Ассоциации
обходы (перекрестные таблицы)
иерархический логлинейный анализ (ограничен максимум 8 переменными)
Логлинейный анализ (для выявления релевантных/важных переменных и возможных факторов)
Точные тесты или бутстреппинг (в случае небольших подгрупп)
Нелинейный анализ часто необходим, когда данные записываются из нелинейной системы . Нелинейные системы могут демонстрировать сложные динамические эффекты, включая бифуркации , хаос , гармоники и субгармоники , которые невозможно проанализировать с помощью простых линейных методов. Нелинейный анализ данных тесно связан с идентификацией нелинейной системы . [133]
Анализ основных данных
На этапе основного анализа проводятся анализы, направленные на ответ на исследовательский вопрос, а также любые другие соответствующие анализы, необходимые для написания первого проекта исследовательского отчета. [134]
Исследовательский и подтверждающий подходы
На этапе основного анализа может быть принят либо исследовательский, либо подтверждающий подход. Обычно подход определяется до сбора данных. [135] В исследовательском анализе не формулируется четкая гипотеза до анализа данных, и данные ищутся для моделей, которые хорошо описывают данные. [136] В подтверждающем анализе проверяются четкие гипотезы о данных. [137]
Исследовательский анализ данных следует интерпретировать осторожно. При одновременном тестировании нескольких моделей существует высокая вероятность обнаружения хотя бы одной из них значимой, но это может быть связано с ошибкой 1-го типа . [138] Важно всегда корректировать уровень значимости при тестировании нескольких моделей, например, с помощью поправки Бонферрони . [139] Кроме того, не следует проводить после исследовательского анализа подтверждающий анализ в том же наборе данных. [140] Исследовательский анализ используется для поиска идей для теории, но не для проверки этой теории. [140] Когда модель оказывается исследовательской в наборе данных, то продолжение этого анализа подтверждающим анализом в том же наборе данных может просто означать, что результаты подтверждающего анализа обусловлены той же ошибкой 1-го типа , которая изначально привела к исследовательской модели. [140] Таким образом, подтверждающий анализ не будет более информативным, чем исходный исследовательский анализ. [141]
Стабильность результатов
Важно получить некоторое представление о том, насколько обобщаемы результаты. [142] Хотя это часто трудно проверить, можно посмотреть на стабильность результатов. Являются ли результаты надежными и воспроизводимыми? Есть два основных способа сделать это. [143]
Перекрестная проверка . Разделив данные на несколько частей, мы можем проверить, обобщается ли анализ (например, подобранная модель), основанный на одной части данных, на другую часть данных. [144] Перекрестная проверка, как правило, нецелесообразна, если в данных есть корреляции, например, с панельными данными . [145] Поэтому иногда необходимо использовать другие методы проверки. Подробнее об этой теме см. Статистическая проверка модели . [146]
Анализ чувствительности . Процедура изучения поведения системы или модели, когда глобальные параметры (систематически) изменяются. Один из способов сделать это — через бутстрап . [147]
Бесплатное программное обеспечение для анализа данных
Известные бесплатные программы для анализа данных включают в себя:
DevInfo – система базы данных, одобренная Группой развития ООН для мониторинга и анализа развития человека. [148]
ELKI – фреймворк интеллектуального анализа данных на Java с функциями визуализации, ориентированными на интеллектуальный анализ данных.
KNIME – Konstanz Information Miner, удобная и комплексная среда анализа данных.
Julia – язык программирования, хорошо подходящий для численного анализа и вычислительной науки.
Воспроизводимый анализ
Типичный рабочий процесс анализа данных включает сбор данных, выполнение анализов с помощью различных скриптов, создание визуализаций и написание отчетов. Однако этот рабочий процесс представляет трудности, включая разделение между скриптами анализа и данными, а также разрыв между анализом и документированием. Часто правильный порядок выполнения скриптов описывается только неформально или находится в памяти специалиста по данным. Потенциальная потеря этой информации создает проблемы для воспроизводимости. Чтобы решить эти проблемы, необходимо иметь скрипты анализа, написанные для автоматизированных, воспроизводимых рабочих процессов. Кроме того, динамическая документация имеет решающее значение, предоставляя отчеты, понятные как машинам, так и людям, обеспечивая точное представление рабочего процесса анализа даже по мере развития скриптов. [150]
Международные конкурсы по анализу данных
Различные компании или организации проводят конкурсы по анализу данных, чтобы побудить исследователей использовать свои данные или решить определенный вопрос с помощью анализа данных. [151] [152] Вот несколько примеров известных международных конкурсов по анализу данных: [153]
^ ab "Преобразование неструктурированных данных в полезную информацию", Большие данные, добыча и аналитика , Auerbach Publications, стр. 227–246, 2014-03-12, doi :10.1201/b16666-14, ISBN 978-0-429-09529-0, получено 29.05.2021
^ «Множественные грани корреляционных функций», Методы анализа данных для ученых-физиков , Cambridge University Press, стр. 526–576, 2017, doi : 10.1017/9781108241922.013, ISBN978-1-108-41678-8, получено 29.05.2021
^ Xia, BS, & Gong, P. (2015). Обзор бизнес-аналитики посредством анализа данных. Бенчмаркинг , 21 (2), 300-311. doi :10.1108/BIJ-08-2012-0050
^ Изучение анализа данных
^ «Правила кодирования данных и разведывательного анализа (EDA) для статистических предположений разведывательного анализа данных (EDA)», SPSS для промежуточной статистики , Routledge, стр. 42–67, 2004-08-16, doi :10.4324/9781410611420-6, ISBN978-1-4106-1142-0, получено 29.05.2021
^ Spie (2014-10-01). "Новый европейский вызов ИКТ фокусируется на PIC, лазерах, передаче данных". SPIE Professional . doi :10.1117/2.4201410.10. ISSN 1994-4403.
^ Самандар, Петерссон; Свантессон, София (2017). Просмотрите информацию о eWOM: изучайте профилбилденс, эффект ur ett könsperspektiv . Högskolan i Gävle, Företagsekonomi. OCLC 1233454128.
^ Goodnight, James (2011-01-13). «Прогноз для предиктивной аналитики: горячий и становится еще горячее». Статистический анализ и интеллектуальный анализ данных: The ASA Data Science Journal . 4 (1): 9–10. doi :10.1002/sam.10106. ISSN 1932-1864. S2CID 38571193.
^ Шерман, Рик (4 ноября 2014 г.). Руководство по бизнес-аналитике: от интеграции данных до аналитики. Амстердам. ISBN978-0-12-411528-6. OCLC 894555128.{{cite book}}: CS1 maint: location missing publisher (link)
^ Филд, Джон (2009), «Разделение слушания на его компоненты», Аудирование в языковом классе , Кембридж: Издательство Кембриджского университета, стр. 96–109, doi : 10.1017/cbo9780511575945.008, ISBN978-0-511-57594-5, получено 29.05.2021
^ abc Джадд, Чарльз; МакКлеланд, Гэри (1989). Анализ данных . Харкорт Брейс Йованович. ISBN0-15-516765-0.
^ Tukey, John W. (март 1962 г.). «John Tukey-The Future of Data Analysis-July 1961». The Annals of Mathematical Statistics . 33 (1): 1–67. doi :10.1214/aoms/1177704711. Архивировано из оригинала 26.01.2020 . Получено 01.01.2015 .
^ "ИСПОЛЬЗОВАНИЕ ДАННЫХ", Справочник по анализу нефтепродуктов , Хобокен, Нью-Джерси: John Wiley & Sons, Inc, стр. 296–303, 2015-02-06, doi :10.1002/9781118986370.ch18, ISBN978-1-118-98637-0, получено 29.05.2021
^ Эйнсворт, Пенне (20 мая 2019 г.). Введение в бухгалтерский учет: комплексный подход . John Wiley & Sons. ISBN978-1-119-60014-5. OCLC 1097366032.
^ Марго, Роберт А. (2000). Заработная плата и рынки труда в Соединенных Штатах, 1820-1860 . Издательство Чикагского университета. ISBN0-226-50507-3. OCLC 41285104.
^ Олусола, Джонсон Адедеджи; Шот, Адебола Адекунле; Уигман, Абделла; Исайфан, Рима Дж. (7 мая 2021 г.). «Таблица 1: Типы данных и источники данных, собранных для этого исследования». PeerJ . 9 : е11387. дои : 10.7717/peerj.11387/таблица-1 .
^ Макферсон, Дерек (16 октября 2019 г.), «Перспективы аналитиков информационных технологий», Стратегия данных в колледжах и университетах , Routledge, стр. 168–183, doi : 10.4324/9780429437564-12, ISBN978-0-429-43756-4, S2CID 211738958 , получено 29.05.2021
^ Нельсон, Стивен Л. (2014). Анализ данных Excel для чайников . Wiley. ISBN978-1-118-89810-9. OCLC 877772392.
^ "Рисунок 3—исходные данные 1. Необработанные и обработанные значения, полученные с помощью qPCR". 30 августа 2017 г. doi : 10.7554/elife.28468.029 .{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ ab Bohannon, John (24.02.2016). «Многие опросы, примерно один из пяти, могут содержать мошеннические данные». Science . doi : 10.1126/science.aaf4104 . ISSN 0036-8075.
^ Джинни Скраггс, Гарбер; Гросс, Монти; Слоним, Энтони Д. (2010). Как избежать распространенных ошибок в уходе за больными . Wolters Kluwer Health/Lippincott Williams & Wilkins. ISBN978-1-60547-087-0. OCLC 338288678.
^ "Очистка данных". Microsoft Research. Архивировано из оригинала 29 октября 2013 г. Получено 26 октября 2013 г.
^ Hancock, RGV; Carter, Tristan (февраль 2010 г.). «Насколько надежны наши опубликованные археометрические анализы? Влияние аналитических методов с течением времени на элементный анализ обсидианов». Журнал археологической науки . 37 (2): 243–250. Bibcode : 2010JArSc..37..243H. doi : 10.1016/j.jas.2009.10.004. ISSN 0305-4403.
^ abc "Perceptual Edge-Jonathan Koomey-Best practices for understanding quantitative data-February 14, 2006" (PDF) . Архивировано (PDF) из оригинала 5 октября 2014 . Получено 12 ноября 2014 .
^ Пелег, Рони; Авдалимов, Анжелика; Фрейд, Тамар (2011-03-23). «Предоставление номеров сотовых телефонов и адресов электронной почты пациентам: точка зрения врача». BMC Research Notes . 4 (1): 76. doi : 10.1186/1756-0500-4-76 . ISSN 1756-0500. PMC 3076270. PMID 21426591 .
^ Гудман, Ленн Эван (1998). Иудаизм, права человека и человеческие ценности . Oxford University Press. ISBN0-585-24568-1. OCLC 45733915.
^ Ханзо, Лайош. «Оценка канала максимального правдоподобия методом слепого соединения и обнаружение данных для систем с одним входом и несколькими выходами» . doi :10.1049/iet-tv.44.786 . Получено 29.05.2021 .{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Хеллерстайн, Джозеф (27 февраля 2008 г.). «Количественная очистка данных для больших баз данных» (PDF) . EECS Computer Science Division : 3. Архивировано (PDF) из оригинала 13 октября 2013 г. . Получено 26 октября 2013 г. .
^ Дэвис, Стив; Петтенгилл, Джеймс Б.; Луо, Ян; Пейн, Джастин; Шпунтофф, Эл; Рэнд, Хью; Стрейн, Эррол (26 августа 2015 г.). "CFSAN SNP Pipeline: автоматизированный метод построения матриц SNP из данных последовательностей следующего поколения". PeerJ Computer Science . 1 : e20. doi : 10.7717/peerj-cs.20/supp-1 .
^ "FTC запрашивает дополнительные данные". Pump Industry Analyst . 1999 (48): 12. Декабрь 1999. doi :10.1016/s1359-6128(99)90509-8. ISSN 1359-6128.
^ «Изучение данных с помощью визуализации данных и описательной статистики: общая описательная статистика для количественных данных». 2017. doi :10.4135/9781529732795.{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Мюррей, Дэниел Г. (2013). Tableau ваши данные! : быстрый и простой визуальный анализ с помощью программного обеспечения Tableau . J. Wiley & Sons. ISBN978-1-118-61204-0. OCLC 873810654.
^ Бен-Ари, Мордехай (2012), «Логика первого порядка: формулы, модели, таблицы», Математическая логика для компьютерных наук , Лондон: Springer London, стр. 131–154, doi :10.1007/978-1-4471-4129-7_7, ISBN978-1-4471-4128-0, получено 2021-05-31
^ Эванс, Мишель В.; Даллас, Тэд А.; Хан, Барбара А.; Мердок, Кортни К.; Дрейк, Джон М. (28 февраля 2017 г.). Брэди, Оливер (ред.). «Рисунок 2. Важность переменной по перестановке, усредненная по 25 моделям». eLife . 6 : e22053. doi : 10.7554/elife.22053.004 .
^ Уотсон, Кевин; Гальперин, Израиль; Агилера-Кастельс, Джоан; Иаконо, Антонио Делло (12 ноября 2020 г.). "Таблица 3: Описательная (среднее ± SD), выводная (95% ДИ) и качественная статистика (ES) всех переменных между самостоятельно выбранными и предопределенными условиями". PeerJ . 8 : e10361. doi : 10.7717/peerj.10361/table-3 .
^ Кортес-Молино, Альваро; Аулло-Маэстро, Изабель; Фернандес-Люке, Исмаэль; Флорес-Мойя, Антонио; Каррейра, Хосе А.; Сальво, А. Энрике (22 октября 2020 г.). «Таблица 3: Лучшие модели регрессии между данными LIDAR (независимая переменная) и полевыми данными Forestereo (зависимая переменная), используемые для картирования пространственного распределения основных переменных структуры леса». PeerJ . 8 : е10158. дои : 10.7717/peerj.10158/таблица-3 .
^ Международные условия продаж, Beck/Hart, 2014, doi :10.5040/9781472561671.ch-003, ISBN978-1-4725-6167-1, получено 2021-05-31
^ Nwabueze, JC (2008-05-21). "Производительность оценок линейной модели с автокоррелированными членами ошибок, когда независимая переменная является нормальной". Журнал Нигерийской ассоциации математической физики . 9 (1). doi :10.4314/jonamp.v9i1.40071. ISSN 1116-4336.
^ Конвей, Стив (2012-07-04). «Предостережение о входных данных и визуальных выходных данных в анализе социальных сетей». British Journal of Management . 25 (1): 102–117. doi : 10.1111/j.1467-8551.2012.00835.x. hdl : 2381/36068. ISSN 1045-3172. S2CID 154347514.
^ «Покупки клиентов и другие повторяющиеся события», Анализ данных с использованием SQL и Excel® , Индианаполис, Индиана: John Wiley & Sons, Inc., стр. 367–420, 29.01.2016, doi :10.1002/9781119183419.ch8, ISBN978-1-119-18341-9, получено 2021-05-31
^ Гранжан, Мартин (2014). «La connaissance est un réseau» (PDF) . Les Cahiers du Numérique . 10 (3): 37–54. дои : 10.3166/lcn.10.3.37-54. Архивировано (PDF) из оригинала 27 сентября 2015 г. Проверено 5 мая 2015 г.
^ Требования к данным для полупроводникового кристалла. Форматы данных обмена и словарь данных, BSI British Standards, doi :10.3403/02271298 , получено 2021-05-31
^ Йи, Д. (1 апреля 1985 г.). «Как эффективно донести свое сообщение до аудитории». Геронтолог . 25 (2): 209. doi :10.1093/geront/25.2.209. ISSN 0016-9013.
^ Бемовска-Калабун, Ольга; Вонзович, Павел; Напора-Рутковски, Лукаш; Новак-Жичинская, Зузанна; Вежбицкая, Малгожата (11 июня 2019 г.). «Дополнительная информация 1: Необработанные данные для диаграмм и таблиц». doi : 10.7287/peerj.preprints.27793v1/supp-1 .{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Визуализация данных о музеях Великобритании: столбчатые диаграммы, линейные диаграммы и тепловые карты. 2021. doi : 10.4135/9781529768749. ISBN9781529768749. S2CID 240967380.
^ Tunqui Neira, José Manuel (19.09.2019). «Спасибо за ваш отзыв. Подробный ответ на поднятые вами вопросы вы найдете в прикрепленном файле PDF». doi : 10.5194/hess-2019-325-ac2 . S2CID 241041810.{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Брэкетт, Джон В. (1989), «Выполнение курсов по проекту анализа требований для внешних клиентов», Issues in Software Engineering Education , Нью-Йорк, Нью-Йорк: Springer New York, стр. 276–285, doi :10.1007/978-1-4613-9614-7_20, ISBN978-1-4613-9616-1, получено 2021-06-03
^ Викхейс, Крис АГ; Вонгтим, Прапит; Рауф, Ауну; Танчароен, Анчана; Хеймпель, Джордж Э.; Ле, Нхунг Т.Т.; Фанани, Мухаммад Зайнал; Гурр, Джефф М.; Лундгрен, Джонатан Г.; Бурра, Дхарани Д.; Палао, Лео К.; Хайман, Гленн; Грациози, Игнацио; Ле, Ви X.; Кок, Мэтью Дж.В.; Чхарнтке, Тея; Раттен, Стив Д.; Нгуен, Лием В.; Ты, Миншэн; Лу, Яньхуэй; Кетелаар, Йоханнес В.; Гёрген, Георг; Нойеншвандер, Питер (19 октября 2018 г.). «Рисунок 2: Колебания численности мучнистого червеца раз в два месяца на юге Вьетнама за двухлетний период». PeerJ . 6 : е5796. дои : 10.7717/peerj.5796/рис-2 .
^ Риль, Эмили (2014), «Выборка 2-категориальных аспектов теории квазикатегорий», Категориальная гомотопическая теория , Кембридж: Издательство Кембриджского университета, стр. 318–336, doi :10.1017/cbo9781107261457.019, ISBN978-1-107-26145-7, получено 2021-06-03
^ Свамидасс, П. М. (2000). "X-Bar Chart". Энциклопедия производства и управления производством . стр. 841. doi :10.1007/1-4020-0612-8_1063. ISBN978-0-7923-8630-8.
^ "Диаграмма C5.3. Процент 15-19-летних, не получающих образование, по статусу на рынке труда (2012 г.)". doi :10.1787/888933119055 . Получено 2021-06-03 .{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ "Диаграмма 7: Домохозяйства: расходы на конечное потребление в сравнении с фактическим индивидуальным потреблением". doi :10.1787/665527077310 . Получено 03.06.2021 .{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Чао, Люк Х.; Джанг, Джебонг; Джонсон, Адам; Нгуен, Энтони; Грей, Натанаэль С.; Янг, Присцилла Л.; Харрисон, Стивен К. (12 июля 2018 г.). Джан, Рейнхард; Шекман, Рэнди (ред.). "Рисунок 4. Частота гемислияния (измеренная как дегашение флуоресценции DiD) как функция количества связанных молекул Alexa-fluor-555/3-110-22". eLife . 7 : e36461. doi : 10.7554/elife.36461.006 .
^ Гарнье, Элоди М.; Фуре, Настасия; Дескойнс, Медерик (3 февраля 2020 г.). "Таблица 2: Сравнение графиков между диаграммой рассеяния, диаграммой скрипки + рассеяния, тепловой картой и графиком ViSiElse". PeerJ . 8 : e8341. doi : 10.7717/peerj.8341/table-2 .
^ "Сравнительная таблица продуктов: носимые устройства". Набор данных PsycEXTRA . 2009. doi :10.1037/e539162010-006 . Получено 03.06.2021 .
^ "Stephen Few-Perceptual Edge-Selecting the Right Graph for Your Message-2004" (PDF) . Архивировано (PDF) из оригинала 2014-10-05 . Получено 2014-10-29 .
^ "Рекомендуемые лучшие практики". 2008-10-01. doi :10.14217/9781848590151-8-en . Получено 2021-06-03 .{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Хобольд, Эдилсон; Пирес-Лопес, Витор; Гомес-Кампос, Россана; Арруда, Мигель де; Андруске, Синтия Ли; Пачеко-Каррильо, Хайме; Коссио-Боланьос, Марко Антонио (30 ноября 2017 г.). «Таблица 1: Описательная статистика (среднее ± стандартное отклонение) для соматических переменных и показателей физической подготовки для мужчин и женщин». PeerJ . 5 : е4032. дои : 10.7717/peerj.4032/таблица-1 .
^ Аблин, Якоб Н.; Зохар, Ада Х.; Зарайя-Блюм, Реут; Бускила, Дэн (13 сентября 2016 г.). "Таблица 2: Кластерный анализ, представляющий средние значения психологических переменных по кластерной группе". PeerJ . 4 : e2421. doi : 10.7717/peerj.2421/table-2 .
^ Антифан (2007), Олсон, С. Дуглас (ред.), "H6 Антифан fr.172.1-4, из Women Who Looked Each Other or Men Who Looked Each Other", Broken Laughter: Select Fragments of Greek Comedy , Oxford University Press, doi : 10.1093/oseo/instance.00232915, ISBN978-0-19-928785-7, получено 2021-06-03
^ Кэри, Малахи (ноябрь 1981 г.). «О взаимоисключающих и коллективно исчерпывающих свойствах функций спроса». Economica . 48 (192): 407–415. doi :10.2307/2553697. ISSN 0013-0427. JSTOR 2553697.
^ "Общий налоговый доход". doi :10.1787/352874835867 . Получено 2021-06-03 .{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ «Автомобиль двойного назначения может решить транспортные проблемы». Архив новостей химической и машиностроительной промышленности . 46 (24): 44. 1968-06-03. doi :10.1021/cen-v046n024.p044. ISSN 0009-2347.
^ Хекман (1978). «Простые статистические модели для дискретных панельных данных, разработанные и примененные для проверки гипотезы истинной зависимости состояний против гипотезы ложной зависимости состояний». Annales de l'inséé (30/31): 227–269. doi :10.2307/20075292. ISSN 0019-0209. JSTOR 20075292.
^ Кунц, Дин (2017). Ложная память . Заголовок Book Publishing. ISBN978-1-4722-4830-5. OCLC 966253202.
^ Мандей, Стивен CR (1996), «Безработица, инфляция и кривая Филлипса», Current Developments in Economics , Лондон: Macmillan Education UK, стр. 186–218, doi :10.1007/978-1-349-24986-2_11, ISBN978-0-333-64444-7, получено 2021-06-03
^ Луанграт, Пол И. (2013). «Альфа- и бета-тесты для определения ошибок вывода типа I и типа II при проверке гипотез». Электронный журнал SSRN . doi : 10.2139/ssrn.2332756. ISSN 1556-5068.
^ Walko, Ann M. (2006). Отвергая гипотезу второго поколения: сохранение эстонской этнической принадлежности в Лейквуде, Нью-Джерси . AMS Press. ISBN0-404-19454-0. OCLC 467107876.
^ ab Yanamandra, Venkataramana (сентябрь 2015 г.). «Изменения обменного курса и инфляция в Индии: какова степень переноса обменного курса на импорт?». Economic Analysis and Policy . 47 : 57–68. doi :10.1016/j.eap.2015.07.004. ISSN 0313-5926.
^ Mudiyanselage, Nawarathna; Nawarathna, Pubudu Manoj. Характеристика эпигенетических изменений и их связь с аномалиями экспрессии генов при светлоклеточной почечноклеточной карциноме . OCLC 1190697848.
^ Moreno Delgado, David; Møller, Thor C.; Ster, Jeanne; Giraldo, Jesús; Maurel, Damien; Rovira, Xavier; Scholler, Pauline; Zwier, Jurrian M.; Perroy, Julie; Durroux, Thierry; Trinquet, Eric; Prezeau, Laurent; Rondard, Philippe; Pin, Jean-Philippe (29 июня 2017 г.). Chao, Moses V (ред.). "Приложение 1—рисунок 5. Данные кривой, включенные в Приложение 1—таблица 4 (сплошные точки) и теоретическая кривая с использованием параметров уравнения Хилла из Приложения 1—таблица 5 (кривая линия)". eLife . 6 : e25233. doi : 10.7554/elife.25233.027 .
^ Файнманн, Джейн. «Как инженеры и журналисты могут помочь друг другу?» (Видео). Институт инженерии и технологий. doi :10.1049/iet-tv.48.859 . Получено 03.06.2021 .
^ Дуль, Ян (2015). «Анализ необходимых условий (NCA): логика и методология «необходимой, но недостаточной» причинности». Электронный журнал SSRN . doi : 10.2139/ssrn.2588480. hdl : 1765/77890. ISSN 1556-5068. S2CID 219380122.
^ Роберт Амар, Джеймс Иган и Джон Стаско (2005) «Низкоуровневые компоненты аналитической деятельности в визуализации информации». Архивировано 13 февраля 2015 г. на Wayback Machine
^ Уильям Ньюман (1994) «Предварительный анализ продуктов исследований HCI с использованием проформных рефератов». Архивировано 03.03.2016 на Wayback Machine
^ Мэри Шоу (2002) «Что делает исследования в области разработки программного обеспечения хорошими?» Архивировано 05.11.2018 на Wayback Machine
^ ab Yavari, Ali; Jayaraman, Prem Prakash; Georgakopoulos, Dimitrios; Nepal, Surya (2017). ConTaaS: подход к контекстуализации в масштабе Интернета для разработки эффективных приложений Интернета вещей . Труды 50-й Гавайской международной конференции по системным наукам (HICSS50 2017). Гавайский университет в Маноа. doi : 10.24251/HICSS.2017.715. hdl : 10125/41879. ISBN9780998133102.
^ "Средство связи передает данные между базами данных и статистическими продуктами". Computational Statistics & Data Analysis . 8 (2): 224. Июль 1989. doi :10.1016/0167-9473(89)90021-2. ISSN 0167-9473.
^ «Информация, имеющая отношение к вашей работе», Получение информации для эффективного управления , Routledge, стр. 48–54, 2007-07-11, doi :10.4324/9780080544304-16 (неактивен 1 ноября 2024 г.), ISBN978-0-08-054430-4, получено 2021-06-03{{citation}}: CS1 maint: DOI inactive as of November 2024 (link)
^ Леманн, Э. Л. (2010). Проверка статистических гипотез . Springer. ISBN978-1-4419-3178-8. OCLC 757477004.
↑ Филдинг, Генри (14 августа 2008 г.), «Состоящий частично из фактов, а частично из наблюдений над ними», Том Джонс , Oxford University Press, doi :10.1093/owc/9780199536993.003.0193, ISBN978-0-19-953699-3, получено 2021-06-03
^ "Бюджетное управление Конгресса - Бюджет и экономические перспективы - Август 2010 - Таблица 1.7 на странице 24". 18 августа 2010 г. Архивировано из оригинала 27.02.2012 . Получено 31.03.2011 .
^ "Чувство принадлежности учащихся, в зависимости от происхождения иммигрантов". Результаты PISA 2015 (том III) . PISA. 2017-04-19. doi :10.1787/9789264273856-table125-en. ISBN9789264273818. ISSN 1996-3777.
^ Гордон, Роджер (март 1990 г.). «Действуют ли публично торгуемые корпорации в интересах общества?». Рабочие документы Национального бюро экономических исследований . Кембридж, Массачусетс. doi :10.3386/w3303.
↑ Минарди, Марго (24.09.2010), «Факты и мнения», Making Slavery History , Oxford University Press, стр. 13–42, doi :10.1093/acprof:oso/9780195379372.003.0003, ISBN978-0-19-537937-2, получено 2021-06-03
^ Ривард, Джиллиан Р. (2014). Предвзятость подтверждения при опросе свидетелей: могут ли интервьюеры игнорировать свои предубеждения? (Диссертация). Международный университет Флориды. doi :10.25148/etd.fi14071109.
^ Папино, Дэвид (1988), «Дискредитирует ли социология науки науку?», Релятивизм и реализм в науке , Дордрехт: Springer Netherlands, стр. 37–57, doi :10.1007/978-94-009-2877-0_2, ISBN978-94-010-7795-8, получено 2021-06-03
^ Бромме, Райнер; Гессе, Фридрих В.; Спада, Ганс, ред. (2005). Барьеры и предубеждения в компьютерно-опосредованной передаче знаний. doi :10.1007/b105100. ISBN978-0-387-24317-7.
^ Хойер, Ричардс (2019-06-10). Хойер, Ричардс Дж. (ред.). Количественные подходы к политической разведке. doi : 10.4324/9780429303647. ISBN9780429303647. S2CID 145675822.
^ "Рисунок 6.7. Различия в показателях грамотности в странах ОЭСР в целом отражают различия в показателях по арифметике". doi :10.1787/888934081549 . Получено 03.06.2021 .{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ "Bloomberg-Barry Ritholz-Bad Math that Passes for Insight-28 октября 2014". Архивировано из оригинала 29-10-2014 . Получено 29-10-2014 .
^ Гуснаини, Нуриска; Андесто, Рони; Эрмавати (15.12.2020). «Влияние размера регионального правительства, размера законодательного органа, численности населения и межправительственных доходов на раскрытие финансовой отчетности». Европейский журнал исследований бизнеса и менеджмента . 5 (6). doi : 10.24018/ejbmr.2020.5.6.651. ISSN 2507-1076. S2CID 231675715.
^ Линси, Джули С .; Беккер, Блейк (2011), «Эффективность методов мозгового письма: сравнение номинальных групп с реальными командами», Design Creativity 2010 , Лондон: Springer London, стр. 165–171, doi :10.1007/978-0-85729-224-7_22, ISBN978-0-85729-223-0, получено 2021-06-03
^ Lyon, J. (апрель 2006 г.). «Предполагаемый ответственный адрес в сообщениях электронной почты». doi :10.17487/rfc4407.{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Сток, Юджин (10 июня 2017 г.). История церковного миссионерского общества, его окружение, его люди и его работа . Hansebooks GmbH. ISBN978-3-337-18120-8. OCLC 1189626777.
^ Гросс, Уильям Х. (июль 1979 г.). «Оценка купона и циклы процентной ставки». Financial Analysts Journal . 35 (4): 68–71. doi :10.2469/faj.v35.n4.68. ISSN 0015-198X.
^ "25. Общие расходы органов государственного управления". doi :10.1787/888932348795 . Получено 2021-06-03 .{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Гонсалес-Видаль, Аврора; Морено-Кано, Виктория (2016). «На пути к энергоэффективным моделям интеллектуальных зданий на основе интеллектуальной аналитики данных». Procedia Computer Science . 83 (Elsevier): 994–999. doi : 10.1016/j.procs.2016.04.213 .
^ "Low-Energy Air Conditioning and Lighting Control", Building Energy Management Systems , Routledge, стр. 406–439, 2013-07-04, doi :10.4324/9780203477342-18 (неактивен 1 ноября 2024 г.), ISBN978-0-203-47734-2, получено 2021-06-03{{citation}}: CS1 maint: DOI inactive as of November 2024 (link)
^ Ааронс, Д. (2009). В отчете говорится, что штаты находятся на пути к созданию систем данных об учениках. Education Week, 29 (13), 6.
^ Ранкин, Дж. (28 марта 2013 г.). Как системы данных и отчеты могут либо бороться с эпидемией ошибок анализа данных, либо распространять ее, и как руководители образовательных учреждений могут помочь. Архивировано 26.03.2019 на презентации Wayback Machine , проведенной в Технологическом информационном центре административного лидерства (TICAL) на саммите школьного лидерства.
^ Бродерманн, Эккарт Дж. (2018), «Статья 2.2.1 (Сфера действия раздела)», Коммерческое право , Nomos Verlagsgesellschaft mbH & Co. KG, стр. 525, номер домена : 10.5771/9783845276564-525, ISBN978-3-8452-7656-4, получено 2021-06-03
^ Jaech, JL (1960-04-21). "Анализ данных размерного искажения из 24 исходных трубок сертификации качества". doi :10.2172/10170345. S2CID 110058009.{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Адер 2008а, стр. 337.
^ Кьелл, Оскар Н. Э.; Томпсон, Сэм (19 декабря 2013 г.). «Описательная статистика, указывающая среднее значение, стандартное отклонение и частоту пропущенных значений для каждого условия (N = количество участников) и для зависимых переменных (DV)». PeerJ . 1 : e231. doi : 10.7717/peerj.231/table-1 .
^ Практика работы с выпадающими наблюдениями, ASTM International, doi :10.1520/e0178-16a , получено 03.06.2021
^ «Альтернативные схемы кодирования для фиктивных переменных», Регрессия с фиктивными переменными , Ньюбери Парк, Калифорния: SAGE Publications, Inc., стр. 64–75, 1993, doi :10.4135/9781412985628.n5, ISBN978-0-8039-5128-0, получено 2021-06-03
^ Адер 2008а, стр. 338–341.
^ Данилюк, П. М. (июль 1960). «Вычисление смещения начального контура зубчатых колес при контроле их шариками». Measurement Techniques . 3 (7): 585–587. Bibcode :1960MeasT...3..585D. doi :10.1007/bf00977716. ISSN 0543-1972. S2CID 121058145.
^ Ньюман, Айседор (1998). Качественно-количественная методология исследования: изучение интерактивного континуума . Southern Illinois University Press. ISBN0-585-17889-5. OCLC 44962443.
^ Тервиллигер, Джеймс С.; Леле, Каустубх (июнь 1979). «Некоторые связи между внутренней согласованностью, воспроизводимостью и однородностью». Журнал образовательных измерений . 16 (2): 101–108. doi :10.1111/j.1745-3984.1979.tb00091.x. ISSN 0022-0655.
^ Адер 2008а, стр. 341–342.
^ Адер 2008а, стр. 344.
^ Табачник и Фидель, 2007, стр. 87-88.
^ Чакарова, Калина (октябрь 2020 г.). «2020/31 Сравнение описаний должностей недостаточно для проверки того, является ли работа одинаково ценной (BG)». European Employment Law Cases . 5 (3): 168–170. doi : 10.5553/eelc/187791072020005003006. ISSN 1877-9107. S2CID 229008899.
^ Случайная выборка и процедуры рандомизации, BSI British Standards, doi :10.3403/30137438 , получено 03.06.2021
^ Адер 2008а, стр. 344–345.
^ Сандберг, Маргарета (июнь 2006 г.). «Процедуры акупунктуры должны быть точно описаны». Акупунктура в медицине . 24 (2): 92–94. doi :10.1136/aim.24.2.92. ISSN 0964-5284. PMID 16783285. S2CID 30286074.
^ Яарсма, К.Ф. Веркеер в своей стране: waarnemingen и анализ ван гет-веркера в западной Фрисландии и просмотр ее модели . ОКЛК 1016575584.
^ Фот, Кристиан; Хедрик, Брэндон П.; Эскурра, Мартин Д. (18 января 2016 г.). «Рисунок 4: Регрессионный анализ размера центроида для основной выборки». PeerJ . 4 : е1589. дои : 10.7717/peerj.1589/рис-4 .
^ Адер 2008а, стр. 345.
^ «Последние годы (1975-84)», Дорога, не пройденная , Boydell & Brewer, стр. 853–922, 2018-06-18, doi :10.2307/j.ctv6cfncp.26, ISBN978-1-57647-332-0, S2CID 242072487 , получено 2021-06-03
↑ Фицморис, Кэтрин (17 марта 2015 г.). Судьба, переписано . HarperCollins. ISBN978-0-06-162503-9. OCLC 905090570.
^ Адер 2008а, стр. 345–346.
^ Адер 2008а, стр. 346–347.
^ Адер 2008а, стр. 349–353.
^ Биллингс С.А. «Нелинейная идентификация систем: методы NARMAX во временной, частотной и пространственно-временной областях». Wiley, 2013
^ Адер 2008б, стр. 363.
^ «Исследовательский анализ данных», Python® для пользователей R , Хобокен, Нью-Джерси, США: John Wiley & Sons, Inc., стр. 119–138, 2017-10-13, doi :10.1002/9781119126805.ch4, hdl :11380/971504, ISBN978-1-119-12680-5, получено 2021-06-03
^ «Участие в разведочном анализе данных, визуализации и проверке гипотез – разведочный анализ данных, геовизуализация и данные», Spatial Analysis , CRC Press, стр. 106–139, 2015-07-28, doi :10.1201/b18808-8, ISBN978-0-429-06936-9, S2CID 133412598 , получено 2021-06-03
^ «Гипотезы о категориях», Начальная статистика: краткое, ясное руководство , Лондон: SAGE Publications Ltd, стр. 138–151, 2010, doi :10.4135/9781446287873.n14, ISBN978-1-84920-098-1, получено 2021-06-03
^ Sordo, Rachele Del; Sidoni, Angelo (декабрь 2008 г.). «Реактивность клеточной мембраны MIB-1: выводы, которые следует интерпретировать осторожно». Applied Immunohistochemistry & Molecular Morphology . 16 (6): 568. doi :10.1097/pai.0b013e31817af2cf. ISSN 1541-2016. PMID 18800001.
^ Лике, Бенуа; Риу, Жереми (2013-06-08). «Коррекция уровня значимости при попытке множественных преобразований объясняющей переменной в обобщенных линейных моделях». BMC Medical Research Methodology . 13 (1): 75. doi : 10.1186/1471-2288-13-75 . ISSN 1471-2288. PMC 3699399. PMID 23758852 .
^ abc Макардл, Джон Дж. (2008). «Некоторые этические проблемы в подтверждающем и исследовательском анализе». Набор данных PsycEXTRA . doi :10.1037/e503312008-001 . Получено 03.06.2021 .
^ Адер 2008b, стр. 361–362.
^ Адер 2008b, стр. 361–371.
^ Truswell IV, William H., ред. (2009), "3 Подтяжка лица: руководство по безопасным, надежным и воспроизводимым результатам", Хирургическое омоложение лица , Штутгарт: Georg Thieme Verlag, doi : 10.1055/b-0034-73436, ISBN978-1-58890-491-1, получено 2021-06-03
^ Бенсон, Ноа С.; Винавер, Джонатан (декабрь 2018 г.). «Байесовский анализ ретинотопических карт». eLife . 7 . doi : 10.7554/elife.40224 . PMC 6340702 . PMID 30520736. Дополнительный файл 1. Схема перекрестной проверки. doi :10.7554/elife.40224.014
^ Сяо, Чэн (2014), «Перекрестно-зависимые панельные данные», Анализ панельных данных , Кембридж: Издательство Кембриджского университета, стр. 327–368, doi : 10.1017/cbo9781139839327.012, ISBN978-1-139-83932-7, получено 2021-06-03
^ Шейхолеслами, Рази; Разави, Саман; Хагнегахдар, Амин (2019-10-10). «Что делать, если модель дает сбой? Рекомендации по глобальному анализу чувствительности моделей Земли и экологических систем». Geoscientific Model Development . 12 (10): 4275–4296. Bibcode : 2019GMD....12.4275S. doi : 10.5194/gmd-12-4275-2019 . ISSN 1991-9603. S2CID 204900339.
^ Программа развития Организации Объединенных Наций (2018). «Композитные индексы человеческого развития». Индексы и индикаторы человеческого развития 2018. Организация Объединенных Наций. С. 21–41. doi :10.18356/ce6f8e92-en. S2CID 240207510.
^ Wiley, Matt; Wiley, Joshua F. (2019), «Визуализация многомерных данных», Advanced R Statistical Programming and Data Models , Беркли, Калифорния: Apress, стр. 33–59, doi :10.1007/978-1-4842-2872-2_2, ISBN978-1-4842-2871-5, S2CID 86629516 , получено 2021-06-03
^ Майлунд, Томас (2022). Начало науки о данных в R 4: анализ данных, визуализация и моделирование для специалиста по данным (2-е изд.). ISBN978-148428155-0.
^ Ордуна-Малеа, Энрике; Алонсо-Арройо, Адольфо (2018), «Модель киберметрического анализа для измерения частных компаний», Киберметрические методы оценки организаций с использованием веб-данных , Elsevier, стр. 63–76, doi :10.1016/b978-0-08-101877-4.00003-x, ISBN978-0-08-101877-4, получено 2021-06-03
^ Leen, AR Потребитель в австрийской экономике и австрийский взгляд на потребительскую политику . Университет Вагенингена. ISBN90-5808-102-8. OCLC 1016689036.
^ "Примеры анализа данных о выживании", Статистические методы анализа данных о выживании , Wiley Series in Probability and Statistics, Хобокен, Нью-Джерси, США: John Wiley & Sons, Inc., 2003-06-30, стр. 19–63, doi :10.1002/0471458546.ch3, ISBN978-0-471-45854-8, получено 2021-06-03
^ «Сообщество машинного обучения сражается с бозоном Хиггса». Symmetry Magazine . 15 июля 2014 г. Архивировано из оригинала 16 апреля 2021 г. Получено 14 января 2015 г.
^ Nehme, Jean (29 сентября 2016 г.). «LTPP International Data Analysis Contest». Федеральное управление автомагистралей. Архивировано из оригинала 21 октября 2017 г. Получено 22 октября 2017 г.
^ "Data.Gov:Long-Term Pavement Performance (LTPP)". 26 мая 2016 г. Архивировано из оригинала 1 ноября 2017 г. Получено 10 ноября 2017 г.
Библиография
Adèr, Herman J. (2008a). "Глава 14: Фазы и начальные шаги в анализе данных". В Adèr, Herman J.; Mellenbergh, Gideon J .; Hand, David J (ред.). Консультирование по методам исследования: помощник консультанта . Huizen, Netherlands: Johannes van Kessel Pub. стр. 333–356. ISBN 9789079418015. OCLC 905799857.
Adèr, Herman J. (2008b). "Глава 15: Основная фаза анализа". В Adèr, Herman J.; Mellenbergh, Gideon J .; Hand, David J (ред.). Консультирование по методам исследования: помощник консультанта . Huizen, Netherlands: Johannes van Kessel Pub. стр. 357–386. ISBN 9789079418015. OCLC 905799857.
Табачник, Б. Г. и Фиделл, Л. С. (2007). Глава 4: Очистка вашего акта. Отбор данных перед анализом. В BG Tabachnick & LS Fidell (ред.), Использование многомерной статистики, пятое издание (стр. 60–116). Бостон: Pearson Education, Inc. / Allyn and Bacon.
Дальнейшее чтение
Викиверситет содержит обучающие ресурсы по анализу данных
Adèr, HJ & Mellenbergh, GJ (при участии DJ Hand) (2008). Консультирование по методам исследования: помощник консультанта . Хейзен, Нидерланды: Johannes van Kessel Publishing. ISBN 978-90-79418-01-5
Чемберс, Джон М.; Кливленд, Уильям С.; Кляйнер, Бит; Тьюки, Пол А. (1983). Графические методы анализа данных , Wadsworth/Duxbury Press. ISBN 0-534-98052-X
Fandango, Armando (2017). Анализ данных Python, 2-е издание . Packt Publishers. ISBN 978-1787127487
Джуран, Джозеф М.; Годфри, А. Блэнтон (1999). Справочник Джурана по качеству, 5-е издание. Нью-Йорк: McGraw Hill. ISBN 0-07-034003-X
Льюис-Бек, Майкл С. (1995). Анализ данных: введение , Sage Publications Inc, ISBN 0-8039-5772-6
NIST/SEMATECH (2008) Справочник по статистическим методам,
Pyzdek, T, (2003). Справочник по инженерному обеспечению качества , ISBN 0-8247-4614-7
Табачник, Б. Г.; Фиделл, Л. С. (2007). Использование многомерной статистики, 5-е издание . Бостон: Pearson Education, Inc. / Allyn and Bacon, ISBN 978-0-205-45938-4