Биостатистика (также известная как биометрия ) — это раздел статистики , который применяет статистические методы к широкому кругу тем в биологии . Она охватывает разработку биологических экспериментов , сбор и анализ данных из этих экспериментов и интерпретацию результатов.
Биостатистическое моделирование является важной частью многочисленных современных биологических теорий. Генетические исследования с самого начала использовали статистические концепции для понимания наблюдаемых экспериментальных результатов. Некоторые ученые-генетики даже внесли свой вклад в статистические достижения, разработав методы и инструменты. Грегор Мендель начал генетические исследования, изучая закономерности генетической сегрегации в семействах гороха, и использовал статистику для объяснения собранных данных. В начале 1900-х годов, после повторного открытия работы Менделя о наследовании Менделя, возникли пробелы в понимании генетики и эволюционного дарвинизма. Фрэнсис Гальтон попытался расширить открытия Менделя с помощью человеческих данных и предложил другую модель с долями наследственности, исходящими от каждого предка, составляющими бесконечный ряд. Он назвал это теорией « Закона наследственности предков ». Его идеи были категорически не согласны с Уильямом Бейтсоном , который последовал выводам Менделя о том, что генетическое наследование происходит исключительно от родителей, по половине от каждого из них. Это привело к бурным дебатам между биометристами, которые поддерживали идеи Гальтона, такими как Рафаэль Уэлдон , Артур Дакинфилд Дарбишир и Карл Пирсон , и менделистами, которые поддерживали идеи Бейтсона (и Менделя), такими как Чарльз Дэвенпорт и Вильгельм Иогансен . Позже биометристы не смогли воспроизвести выводы Гальтона в различных экспериментах, и идеи Менделя возобладали. К 1930-м годам модели, построенные на статистических рассуждениях, помогли разрешить эти разногласия и создать неодарвинистский современный эволюционный синтез .
Разрешение этих различий также позволило определить концепцию популяционной генетики и сблизить генетику и эволюцию. Три ведущих деятеля в создании популяционной генетики и этого синтеза все опирались на статистику и развивали ее использование в биологии.
Эти и другие биостатистики, математические биологи и генетики, специализирующиеся на статистике, помогли объединить эволюционную биологию и генетику в единое, связное целое, которое можно было начать количественно моделировать.
Параллельно с этим общим развитием новаторская работа Д'Арси Томпсона «О росте и форме» также способствовала добавлению количественной дисциплины в биологические исследования.
Несмотря на фундаментальную важность и частую необходимость статистического обоснования, среди биологов, тем не менее, могла существовать тенденция не доверять или осуждать результаты, которые не являются качественно очевидными. Один анекдот описывает Томаса Ханта Моргана, запретившего калькулятор Фридена в своем отделе в Калтехе , говоря: «Ну, я как парень, который ищет золото на берегах реки Сакраменто в 1849 году. С небольшим интеллектом я могу наклониться и поднять большие золотые самородки. И пока я могу это делать, я не собираюсь позволять никому из моего отдела тратить скудные ресурсы на добычу россыпей ». [3]
Любое исследование в области естественных наук предлагается для ответа на научный вопрос, который у нас может возникнуть. Чтобы ответить на этот вопрос с высокой степенью уверенности, нам нужны точные результаты. Правильное определение основной гипотезы и плана исследования сократит ошибки при принятии решения о понимании явления. План исследования может включать исследовательский вопрос, проверяемую гипотезу, экспериментальный дизайн , методы сбора данных , перспективы анализа данных и связанные с этим затраты. Важно проводить исследование на основе трех основных принципов экспериментальной статистики: рандомизации , репликации и локального контроля.
Исследовательский вопрос определит цель исследования. Исследование будет возглавляться вопросом, поэтому оно должно быть кратким, в то же время оно должно быть сосредоточено на интересных и новых темах, которые могут улучшить науку и знания и эту область. Чтобы определить способ задать научный вопрос , может потребоваться исчерпывающий обзор литературы . Поэтому исследование может быть полезным для добавления ценности научному сообществу . [4]
После определения цели исследования можно предложить возможные ответы на вопрос исследования, преобразуя этот вопрос в гипотезу . Основное предположение называется нулевой гипотезой (H 0 ) и обычно основывается на постоянном знании темы или очевидном возникновении явлений, подкрепленных глубоким обзором литературы. Можно сказать, что это стандартный ожидаемый ответ для данных в ситуации, рассматриваемой в тесте . В целом, H O не предполагает никакой связи между методами лечения. С другой стороны, альтернативная гипотеза заключается в отрицании H O . Она предполагает некоторую степень связи между методом лечения и результатом. Хотя гипотеза поддерживается исследованием вопроса и его ожидаемыми и неожиданными ответами. [4]
В качестве примера рассмотрим группы похожих животных (например, мышей) с двумя различными системами питания. Исследовательский вопрос будет: какая диета является лучшей? В этом случае H 0 будет означать, что нет никакой разницы между двумя диетами в метаболизме мышей (H 0 : μ 1 = μ 2 ), а альтернативная гипотеза будет заключаться в том, что диеты оказывают разное влияние на метаболизм животных (H 1 : μ 1 ≠ μ 2 ).
Гипотеза определяется исследователем в соответствии с его/ее интересами в ответе на главный вопрос. Кроме того, альтернативная гипотеза может быть более чем одной гипотезой. Она может предполагать не только различия между наблюдаемыми параметрами, но и степень их различий ( т. е. выше или ниже).
Обычно исследование направлено на понимание эффекта явления на популяцию . В биологии популяция определяется как все особи данного вида в определенной области в определенное время. В биостатистике это понятие распространяется на множество возможных для изучения совокупностей. Хотя в биостатистике популяция — это не только особи, но и совокупность одного определенного компонента их организмов , например, весь геном или все сперматозоиды у животных или общая площадь листьев у растений.
Невозможно принять меры по всем элементам популяции . Из-за этого процесс выборки очень важен для статистического вывода . Выборка определяется как случайный выбор репрезентативной части всей популяции, чтобы сделать апостериорные выводы о популяции. Таким образом, выборка может уловить наибольшую изменчивость в популяции. [5] Размер выборки определяется несколькими вещами, начиная с объема исследования и заканчивая доступными ресурсами. В клинических исследованиях тип испытания, такой как неполноценность , эквивалентность и превосходство, является ключевым в определении размера выборки . [4]
Экспериментальные планы поддерживают эти основные принципы экспериментальной статистики . Существует три основных экспериментальных плана для случайного распределения обработок на всех участках эксперимента . Это полностью рандомизированный план , рандомизированный блочный план и факторный план . Обработки могут быть организованы многими способами внутри эксперимента. В сельском хозяйстве правильный экспериментальный план является корнем хорошего исследования, а расположение обработок в исследовании имеет важное значение, поскольку окружающая среда в значительной степени влияет на участки ( растения , скот , микроорганизмы ). Эти основные договоренности можно найти в литературе под названиями « решетки », «неполные блоки», « разделенный участок », «расширенные блоки» и многими другими. Все планы могут включать контрольные участки , определенные исследователем, чтобы обеспечить оценку ошибки во время вывода .
В клинических исследованиях выборки обычно меньше, чем в других биологических исследованиях, и в большинстве случаев влияние окружающей среды можно контролировать или измерять. Обычно используют рандомизированные контролируемые клинические испытания , где результаты обычно сравнивают с наблюдательными исследованиями, такими как случай-контроль или когорта . [6]
Методы сбора данных необходимо учитывать при планировании исследования, поскольку они оказывают большое влияние на размер выборки и дизайн эксперимента.
Сбор данных различается в зависимости от типа данных. Для качественных данных сбор может осуществляться с помощью структурированных анкет или путем наблюдения, учитывая наличие или интенсивность заболевания, используя критерий оценки для категоризации уровней встречаемости. [7] Для количественных данных сбор осуществляется путем измерения числовой информации с использованием инструментов.
В сельскохозяйственных и биологических исследованиях данные об урожайности и ее компонентах могут быть получены с помощью метрических мер . Однако повреждения вредителями и болезнями на плантациях получаются путем наблюдения с учетом шкал оценок для уровней повреждения. Особенно в генетических исследованиях следует рассматривать современные методы сбора данных в полевых и лабораторных условиях как высокопроизводительные платформы для фенотипирования и генотипирования. Эти инструменты позволяют проводить более масштабные эксперименты, в то же время, по возможности, оценивая множество участков за меньшее время, чем метод сбора данных, основанный только на человеке. Наконец, все собранные интересующие данные должны храниться в организованном фрейме данных для дальнейшего анализа.
Данные могут быть представлены в виде таблиц или графического представления, например, линейных диаграмм, столбчатых диаграмм, гистограмм, диаграмм рассеяния. Также меры центральной тенденции и изменчивости могут быть очень полезны для описания обзора данных. Вот несколько примеров:
Один из типов таблиц — это таблица частот , которая состоит из данных, расположенных в строках и столбцах, где частота — это количество появлений или повторений данных. Частота может быть: [8]
Абсолютное : представляет собой количество раз, когда определенное значение появляется;
Относительная : получается путем деления абсолютной частоты на общее число;
В следующем примере у нас есть количество генов в десяти оперонах одного и того же организма.
Линейные графики представляют собой изменение значения по другой метрике, например, по времени. Как правило, значения представлены на вертикальной оси, а изменение времени представлено на горизонтальной оси. [10]
Столбчатая диаграмма — это график, который показывает категориальные данные в виде столбцов, представляющих высоты (вертикальная полоса) или ширины (горизонтальная полоса), пропорциональные представленным значениям. Столбчатые диаграммы предоставляют изображение, которое также может быть представлено в табличном формате. [10]
В примере с гистограммой мы имеем уровень рождаемости в Бразилии за декабрьские месяцы с 2010 по 2016 год. [9] Резкое падение рождаемости в декабре 2016 года отражает вспышку вируса Зика в уровне рождаемости в Бразилии.
Гистограмма (или распределение частот) — это графическое представление набора данных , сведенного в таблицу и разделенного на однородные или неоднородные классы. Впервые она была введена Карлом Пирсоном . [11]
Диаграмма рассеяния — это математическая диаграмма, которая использует декартовы координаты для отображения значений набора данных. Диаграмма рассеяния показывает данные в виде набора точек, каждая из которых представляет значение одной переменной, определяющей положение на горизонтальной оси, и другой переменной на вертикальной оси. [12] Их также называют графиком рассеяния , диаграммой рассеяния , диаграммой рассеяния или диаграммой рассеяния . [13]
Среднее арифметическое — это сумма совокупности значений ( ), деленная на количество элементов этой совокупности ( ).
Медиана — это значение в середине набора данных.
Мода — это значение набора данных, которое встречается чаще всего. [14]
Ящичная диаграмма — это метод графического изображения групп числовых данных. Максимальные и минимальные значения представлены линиями, а межквартильный размах (IQR) представляет 25–75% данных. Выбросы могут быть изображены в виде кругов.
Хотя корреляции между двумя различными типами данных могут быть выведены с помощью графиков, таких как диаграмма рассеяния, необходимо подтвердить это с помощью числовой информации. По этой причине требуются коэффициенты корреляции . Они предоставляют числовое значение, которое отражает силу ассоциации. [10]
Коэффициент корреляции Пирсона является мерой связи между двумя переменными, X и Y. Этот коэффициент, обычно представленный как ρ (rho) для популяции и r для выборки, принимает значения от −1 до 1, где ρ = 1 представляет собой идеальную положительную корреляцию, ρ = −1 представляет собой идеальную отрицательную корреляцию, а ρ = 0 означает отсутствие линейной корреляции. [10]
Он используется для того, чтобы делать выводы [15] о неизвестной популяции, путем оценки и/или проверки гипотез. Другими словами, желательно получить параметры для описания популяции, представляющей интерес, но поскольку данные ограничены, необходимо использовать репрезентативную выборку для их оценки. При этом можно проверить ранее определенные гипотезы и применить выводы ко всей популяции. Стандартная ошибка среднего является мерой изменчивости, которая имеет решающее значение для выводов. [5]
Проверка гипотез необходима для выводов о популяциях, которые направлены на поиск ответов на исследовательские вопросы, как установлено в разделе «Планирование исследований». Авторы определили четыре шага, которые необходимо установить: [5]
Доверительный интервал — это диапазон значений, которые могут содержать истинное реальное значение параметра при заданном уровне достоверности. Первым шагом является оценка наилучшей несмещенной оценки параметра популяции. Верхнее значение интервала получается суммой этой оценки с умножением стандартной ошибки среднего значения на уровень достоверности. Расчет нижнего значения аналогичен, но вместо суммы необходимо применить вычитание. [5]
При проверке гипотезы возможны два типа статистических ошибок: ошибка I типа и ошибка II типа .
Уровень значимости , обозначенный α, является частотой ошибок типа I и должен быть выбран до проведения теста. Частота ошибок типа II обозначается β, а статистическая мощность теста составляет 1 − β.
Значение p — это вероятность получения результатов, таких же экстремальных или более экстремальных, чем наблюдаемые, при условии, что нулевая гипотеза (H 0 ) верна. Его также называют расчетной вероятностью. Значение p часто путают с уровнем значимости (α) , но α — это предопределенный порог для признания результатов значимыми. Если p меньше α, нулевая гипотеза (H 0 ) отклоняется. [16]
При множественных тестах одной и той же гипотезы вероятность появления ложноположительных результатов (familywise error rate) увеличивается, и для контроля этого события используется некоторая стратегия. Обычно это достигается путем использования более строгого порога для отклонения нулевых гипотез. Поправка Бонферрони определяет приемлемый глобальный уровень значимости, обозначаемый α*, и каждый тест индивидуально сравнивается со значением α = α*/m. Это гарантирует, что familywise error rate во всех m тестах будет меньше или равен α*. Когда m велико, поправка Бонферрони может быть чрезмерно консервативной. Альтернативой поправке Бонферрони является контроль частоты ложных открытий (FDR) . FDR контролирует ожидаемую долю отклоненных нулевых гипотез (так называемых открытий), которые являются ложными (неправильные отклонения). Эта процедура гарантирует, что для независимых тестов частота ложных открытий не превышает q*. Таким образом, FDR менее консервативна, чем поправка Бонферрони, и имеет большую мощность за счет большего количества ложных положительных результатов. [17]
Основная проверяемая гипотеза (например, отсутствие связи между лечением и результатами) часто сопровождается другими техническими предположениями (например, о форме распределения вероятностей результатов), которые также являются частью нулевой гипотезы. Когда технические предположения нарушаются на практике, то нулевая гипотеза часто может быть отклонена, даже если основная гипотеза верна. Говорят, что такие отклонения происходят из-за неправильной спецификации модели. [18] Проверка того, не изменяется ли результат статистического теста при небольшом изменении технических предположений (так называемые проверки надежности), является основным способом борьбы с неправильной спецификацией.
Выбор критериев модели выберет или смоделирует более приближенную истинную модель. Критерий информации Акаике (AIC) и критерий информации Байеса (BIC) являются примерами асимптотически эффективных критериев.
Недавние разработки оказали большое влияние на биостатистику. Двумя важными изменениями стали возможность собирать данные в масштабе высокой пропускной способности и возможность выполнять гораздо более сложный анализ с использованием вычислительных методов. Это происходит из-за развития таких областей, как технологии секвенирования , биоинформатика и машинное обучение ( машинное обучение в биоинформатике ).
Новые биомедицинские технологии, такие как микрочипы , секвенаторы нового поколения (для геномики) и масс-спектрометрия (для протеомики) генерируют огромные объемы данных, что позволяет проводить множество тестов одновременно. [19] Тщательный анализ с использованием биостатистических методов необходим для отделения сигнала от шума. Например, микрочип можно использовать для одновременного измерения многих тысяч генов, определяя, какие из них имеют различную экспрессию в больных клетках по сравнению с нормальными клетками. Однако только часть генов будет дифференциально экспрессироваться. [20]
Мультиколлинеарность часто возникает в высокопроизводительных биостатистических настройках. Из-за высокой интеркорреляции между предикторами (например, уровнями экспрессии генов ) информация одного предиктора может содержаться в другом. Может быть, что только 5% предикторов отвечают за 90% изменчивости ответа. В таком случае можно применить биостатистический метод снижения размерности (например, с помощью анализа главных компонент). Классические статистические методы, такие как линейная или логистическая регрессия и линейный дискриминантный анализ, не работают хорошо для высокоразмерных данных (т. е. когда число наблюдений n меньше числа признаков или предикторов p: n < p). На самом деле, можно получить довольно высокие значения R 2 , несмотря на очень низкую предсказательную силу статистической модели. Эти классические статистические методы (особенно линейная регрессия наименьших квадратов ) были разработаны для низкоразмерных данных (т. е. когда число наблюдений n намного больше числа предикторов p: n >> p). В случаях высокой размерности всегда следует рассматривать независимый проверочный тестовый набор и соответствующую остаточную сумму квадратов (RSS) и R2 проверочного тестового набора, а не обучающего набора.
Часто бывает полезно объединить информацию из нескольких предикторов. Например, анализ обогащения набора генов (GSEA) рассматривает возмущение целых (функционально связанных) наборов генов, а не отдельных генов. [21] Эти наборы генов могут быть известными биохимическими путями или иным образом функционально связанными генами. Преимущество этого подхода в том, что он более надежен: более вероятно, что один ген будет обнаружен ложно возмущенным, чем что целый путь будет ложно возмущенным. Кроме того, с помощью этого подхода можно интегрировать накопленные знания о биохимических путях (например, сигнальный путь JAK-STAT ).
Разработка биологических баз данных позволяет хранить и управлять биологическими данными с возможностью обеспечения доступа для пользователей по всему миру. Они полезны для исследователей, размещающих данные, извлекающих информацию и файлы (необработанные или обработанные), полученные из других экспериментов или индексирующих научные статьи, как PubMed . Другая возможность — поиск нужного термина (ген, белок, болезнь, организм и т. д.) и проверка всех результатов, связанных с этим поиском. Существуют базы данных, посвященные SNP ( dbSNP ), знаниям о характеристике генов и их путях ( KEGG ) и описанию функции гена, классифицирующим его по клеточному компоненту, молекулярной функции и биологическому процессу ( Gene Ontology ). [22] В дополнение к базам данных, которые содержат конкретную молекулярную информацию, существуют и другие, которые являются достаточными в том смысле, что они хранят информацию об организме или группе организмов. Примером базы данных, направленной только на один организм, но содержащей много данных о нем, является генетическая и молекулярная база данных Arabidopsis thaliana — TAIR. [23] Phytozome, [24] в свою очередь, хранит сборки и файлы аннотаций дюжины растительных геномов, также содержащие инструменты визуализации и анализа. Более того, существует взаимосвязь между некоторыми базами данных в обмене/совместном использовании информации, и крупной инициативой стало Международное сотрудничество в области баз данных последовательностей нуклеотидов (INSDC) [25] , которое связывает данные из DDBJ, [26] EMBL-EBI, [27] и NCBI. [28]
В настоящее время увеличение размера и сложности молекулярных наборов данных приводит к использованию мощных статистических методов, предоставляемых алгоритмами компьютерной науки, которые разрабатываются областью машинного обучения . Таким образом, интеллектуальный анализ данных и машинное обучение позволяют обнаруживать закономерности в данных со сложной структурой, таких как биологические, используя методы контролируемого и неконтролируемого обучения , регрессии, обнаружения кластеров и интеллектуального анализа правил ассоциации , среди прочих. [22] Чтобы указать некоторые из них, самоорганизующиеся карты и k -средние являются примерами кластерных алгоритмов; реализация нейронных сетей и модели опорных векторных машин являются примерами общих алгоритмов машинного обучения.
Совместная работа молекулярных биологов, биоинформатиков, статистиков и компьютерных специалистов важна для правильного проведения эксперимента, начиная с планирования, через генерацию и анализ данных и заканчивая биологической интерпретацией результатов. [22]
С другой стороны, появление современных компьютерных технологий и относительно дешевых вычислительных ресурсов сделало возможным применение ресурсоемких биостатистических методов, таких как методы бутстреппинга и повторной выборки.
В последнее время случайные леса приобрели популярность как метод выполнения статистической классификации . Методы случайных лесов генерируют панель деревьев решений. Деревья решений имеют то преимущество, что вы можете рисовать их и интерпретировать (даже имея базовые знания математики и статистики). Таким образом, случайные леса использовались для клинических систем поддержки принятия решений. [ необходима цитата ]
Общественное здравоохранение , включая эпидемиологию , исследования служб здравоохранения , питание , гигиену окружающей среды и политику и управление здравоохранением. В этих медицинских содержаниях важно учитывать дизайн и анализ клинических испытаний . В качестве одного из примеров можно привести оценку тяжести состояния пациента с прогнозом исхода заболевания.
С новыми технологиями и генетическими знаниями биостатистика теперь также используется для системной медицины , которая заключается в более персонализированной медицине. Для этого делается интеграция данных из разных источников, включая обычные данные пациентов, клинико-патологические параметры, молекулярные и генетические данные, а также данные, полученные с помощью дополнительных новых технологий омики. [29]
Изучение популяционной генетики и статистической генетики с целью связать вариацию генотипа с вариацией фенотипа . Другими словами, желательно обнаружить генетическую основу измеримого признака, количественного признака, который находится под полигенным контролем. Область генома, которая отвечает за непрерывный признак, называется локусом количественного признака (QTL). Изучение QTL становится возможным с помощью молекулярных маркеров и измерения признаков в популяциях, но их картирование требует получения популяции из экспериментального скрещивания, такого как F2 или рекомбинантные инбредные штаммы /линии (RIL). Для сканирования областей QTL в геноме необходимо построить карту генов , основанную на сцеплении. Некоторые из наиболее известных алгоритмов картирования QTL — это картирование интервалов, картирование составных интервалов и картирование множественных интервалов. [30]
Однако разрешение картирования QTL ухудшается из-за количества анализируемой рекомбинации, что является проблемой для видов, у которых сложно получить большое потомство. Кроме того, разнообразие аллелей ограничено особями, происходящими от контрастных родителей, что ограничивает исследования разнообразия аллелей, когда у нас есть панель особей, представляющих естественную популяцию. [31] По этой причине было предложено исследование ассоциаций по всему геному для идентификации QTL на основе неравновесия сцепления , то есть неслучайной ассоциации между признаками и молекулярными маркерами. Оно было усилено разработкой высокопроизводительного генотипирования SNP . [32]
В селекции животных и растений использование маркеров в селекции, направленной на селекцию, в основном молекулярных, способствовало развитию селекции с помощью маркеров . В то время как картирование QTL ограничено из-за разрешения, GWAS не обладает достаточной мощностью, когда редкие варианты с небольшим эффектом также подвержены влиянию окружающей среды. Таким образом, концепция геномного отбора (GS) возникает для того, чтобы использовать все молекулярные маркеры в отборе и позволить предсказать эффективность кандидатов в этом отборе. Предложение состоит в том, чтобы генотипировать и фенотипировать обучающую популяцию, разработать модель, которая может получить геномные оценочные племенные ценности (GEBV) особей, принадлежащих к популяции генотипа, но не фенотипа, называемой тестовой популяцией. [33] Этот вид исследования может также включать в себя проверочную популяцию, думая в концепции перекрестной проверки , в которой реальные результаты фенотипа, измеренные в этой популяции, сравниваются с результатами фенотипа, основанными на прогнозе, что используется для проверки точности модели.
Подводя итог, можно отметить некоторые моменты, касающиеся применения количественной генетики:
Исследования дифференциальной экспрессии генов из данных РНК-Seq , как и для ОТ-ПЦР и микрочипов , требуют сравнения условий. Цель состоит в том, чтобы идентифицировать гены, которые имеют значительное изменение в распространенности между различными условиями. Затем эксперименты разрабатываются соответствующим образом, с повторениями для каждого условия/лечения, рандомизацией и блокировкой, когда это необходимо. В РНК-Seq количественная оценка экспрессии использует информацию картированных считываний, которые суммируются в некоторой генетической единице, как экзоны , которые являются частью последовательности гена. Поскольку результаты микрочипов могут быть аппроксимированы нормальным распределением, данные подсчетов РНК-Seq лучше объясняются другими распределениями. Первым использованным распределением было распределение Пуассона , но оно недооценивает ошибку выборки, что приводит к ложноположительным результатам. В настоящее время биологическая изменчивость рассматривается методами, которые оценивают параметр дисперсии отрицательного биномиального распределения . Обобщенные линейные модели используются для выполнения тестов на статистическую значимость, и поскольку количество генов велико, необходимо учитывать поправку на множественные тесты. [34] Некоторые примеры другого анализа геномных данных получены из экспериментов с микрочипами или протеомикой . [35] [36] Часто они касаются заболеваний или стадий заболеваний. [37]
Существует множество инструментов, которые можно использовать для статистического анализа биологических данных. Большинство из них полезны в других областях знаний, охватывая большое количество приложений (в алфавитном порядке). Вот краткие описания некоторых из них:
Почти все образовательные программы по биостатистике находятся на уровне аспирантуры . Чаще всего они встречаются в школах общественного здравоохранения, связанных со школами медицины, лесного хозяйства или сельского хозяйства, или как прикладные направления в департаментах статистики.
В Соединенных Штатах, где несколько университетов имеют специализированные кафедры биостатистики, многие другие ведущие университеты интегрируют факультет биостатистики в статистические или другие кафедры, такие как эпидемиология . Таким образом, кафедры, носящие название «биостатистика», могут существовать в совершенно разных структурах. Например, относительно новые кафедры биостатистики были основаны с упором на биоинформатику и вычислительную биологию , тогда как старые кафедры, как правило, связанные со школами общественного здравоохранения , будут иметь более традиционные направления исследований, включающие эпидемиологические исследования и клинические испытания , а также биоинформатику. В крупных университетах по всему миру, где существуют как кафедры статистики, так и биостатистики, степень интеграции между двумя кафедрами может варьироваться от абсолютного минимума до очень тесного сотрудничества. В целом, разница между статистической программой и программой по биостатистике двоякая: (i) статистические отделы часто проводят теоретические/методологические исследования, которые менее распространены в программах по биостатистике, и (ii) статистические отделы имеют направления исследований, которые могут включать биомедицинские приложения, а также другие области, такие как промышленность ( контроль качества ), бизнес и экономика , а также биологические области, отличные от медицины.
Медиа, связанные с биостатистикой на Wikimedia Commons