Биостатистика

Биостатистика (также известная как биометрия ) — это раздел статистики , который применяет статистические методы к широкому кругу тем в биологии . Она охватывает разработку биологических экспериментов , сбор и анализ данных из этих экспериментов и интерпретацию результатов.

История

Биостатистика и генетика

Биостатистическое моделирование является важной частью многочисленных современных биологических теорий. Генетические исследования с самого начала использовали статистические концепции для понимания наблюдаемых экспериментальных результатов. Некоторые ученые-генетики даже внесли свой вклад в статистические достижения, разработав методы и инструменты. Грегор Мендель начал генетические исследования, изучая закономерности генетической сегрегации в семействах гороха, и использовал статистику для объяснения собранных данных. В начале 1900-х годов, после повторного открытия работы Менделя о наследовании Менделя, возникли пробелы в понимании генетики и эволюционного дарвинизма. Фрэнсис Гальтон попытался расширить открытия Менделя с помощью человеческих данных и предложил другую модель с долями наследственности, исходящими от каждого предка, составляющими бесконечный ряд. Он назвал это теорией « Закона наследственности предков ». Его идеи были категорически не согласны с Уильямом Бейтсоном , который последовал выводам Менделя о том, что генетическое наследование происходит исключительно от родителей, по половине от каждого из них. Это привело к бурным дебатам между биометристами, которые поддерживали идеи Гальтона, такими как Рафаэль Уэлдон , Артур Дакинфилд Дарбишир и Карл Пирсон , и менделистами, которые поддерживали идеи Бейтсона (и Менделя), такими как Чарльз Дэвенпорт и Вильгельм Иогансен . Позже биометристы не смогли воспроизвести выводы Гальтона в различных экспериментах, и идеи Менделя возобладали. К 1930-м годам модели, построенные на статистических рассуждениях, помогли разрешить эти разногласия и создать неодарвинистский современный эволюционный синтез .

Разрешение этих различий также позволило определить концепцию популяционной генетики и сблизить генетику и эволюцию. Три ведущих деятеля в создании популяционной генетики и этого синтеза все опирались на статистику и развивали ее использование в биологии.

Рональд Фишер работал вместе со статистиком Бетти Аллан, разрабатывая несколько основных статистических методов в поддержку своей работы по изучению экспериментов с посевами в Rothamsted Research , опубликованных в книгах Фишера «Статистические методы для научных работников» (1925) и «Генетическая теория естественного отбора » (1930), а также в научных работах Аллана. ^[1] Фишер внес большой вклад в генетику и статистику. Некоторые из них включают ANOVA , концепции p-значения , точный тест Фишера и уравнение Фишера для динамики популяций . Ему приписывают предложение «Естественный отбор — это механизм для создания чрезвычайно высокой степени невероятности». ^[2]
Сьюэлл Г. Райт разработал F -статистику и методы ее вычисления, а также определил коэффициент инбридинга .
Книга Дж. Б. С. Холдейна «Причины эволюции » восстановила естественный отбор как главный механизм эволюции, объяснив его с точки зрения математических следствий менделевской генетики. Он также разработал теорию первичного бульона .

Эти и другие биостатистики, математические биологи и генетики, специализирующиеся на статистике, помогли объединить эволюционную биологию и генетику в единое, связное целое, которое можно было начать количественно моделировать.

Параллельно с этим общим развитием новаторская работа Д'Арси Томпсона «О росте и форме» также способствовала добавлению количественной дисциплины в биологические исследования.

Несмотря на фундаментальную важность и частую необходимость статистического обоснования, среди биологов, тем не менее, могла существовать тенденция не доверять или осуждать результаты, которые не являются качественно очевидными. Один анекдот описывает Томаса Ханта Моргана, запретившего калькулятор Фридена в своем отделе в Калтехе , говоря: «Ну, я как парень, который ищет золото на берегах реки Сакраменто в 1849 году. С небольшим интеллектом я могу наклониться и поднять большие золотые самородки. И пока я могу это делать, я не собираюсь позволять никому из моего отдела тратить скудные ресурсы на добычу россыпей ». ^[3]

Планирование исследований

Любое исследование в области естественных наук предлагается для ответа на научный вопрос, который у нас может возникнуть. Чтобы ответить на этот вопрос с высокой степенью уверенности, нам нужны точные результаты. Правильное определение основной гипотезы и плана исследования сократит ошибки при принятии решения о понимании явления. План исследования может включать исследовательский вопрос, проверяемую гипотезу, экспериментальный дизайн , методы сбора данных , перспективы анализа данных и связанные с этим затраты. Важно проводить исследование на основе трех основных принципов экспериментальной статистики: рандомизации , репликации и локального контроля.

Исследовательский вопрос

Исследовательский вопрос определит цель исследования. Исследование будет возглавляться вопросом, поэтому оно должно быть кратким, в то же время оно должно быть сосредоточено на интересных и новых темах, которые могут улучшить науку и знания и эту область. Чтобы определить способ задать научный вопрос , может потребоваться исчерпывающий обзор литературы . Поэтому исследование может быть полезным для добавления ценности научному сообществу . ^[4]

Определение гипотезы

После определения цели исследования можно предложить возможные ответы на вопрос исследования, преобразуя этот вопрос в гипотезу . Основное предположение называется нулевой гипотезой (H ₀ ) и обычно основывается на постоянном знании темы или очевидном возникновении явлений, подкрепленных глубоким обзором литературы. Можно сказать, что это стандартный ожидаемый ответ для данных в ситуации, рассматриваемой в тесте . В целом, H _O не предполагает никакой связи между _{методами лечения} . С другой стороны, альтернативная гипотеза заключается в отрицании H _O . Она предполагает некоторую степень связи между методом лечения и результатом. Хотя гипотеза поддерживается исследованием вопроса и его ожидаемыми и неожиданными ответами. ^[4]

В качестве примера рассмотрим группы похожих животных (например, мышей) с двумя различными системами питания. Исследовательский вопрос будет таким: какая диета является лучшей? В этом случае H ₀ будет означать, что нет никакой разницы между двумя диетами в метаболизме мышей (H ₀ : μ ₁ = μ ₂ ), а альтернативная гипотеза будет заключаться в том, что диеты оказывают разное влияние на метаболизм животных (H ₁ : μ ₁ ≠ μ ₂ ).

Гипотеза определяется исследователем в соответствии с его/ее интересами в ответе на главный вопрос. Кроме того, альтернативная гипотеза может быть более чем одной гипотезой. Она может предполагать не только различия между наблюдаемыми параметрами, но и степень их различий ( т. е. выше или ниже).

Отбор проб

Обычно исследование направлено на понимание эффекта явления на популяцию . В биологии популяция определяется как все особи данного вида в определенной области в определенное время. В биостатистике это понятие распространяется на множество возможных для изучения совокупностей. Хотя в биостатистике популяция — это не только особи, но и совокупность одного определенного компонента их организмов , например, весь геном или все сперматозоиды у животных или общая площадь листьев у растений.

Невозможно принять меры по всем элементам популяции . Из-за этого процесс выборки очень важен для статистического вывода . Выборка определяется как случайный выбор репрезентативной части всей популяции, чтобы сделать апостериорные выводы о популяции. Таким образом, выборка может уловить наибольшую изменчивость в популяции. ^[5] Размер выборки определяется несколькими вещами, начиная с объема исследования и заканчивая доступными ресурсами. В клинических исследованиях тип испытания, такой как неполноценность , эквивалентность и превосходство, является ключевым в определении размера выборки . ^[4]

Экспериментальный дизайн

Экспериментальные планы поддерживают эти основные принципы экспериментальной статистики . Существует три основных экспериментальных плана для случайного распределения обработок на всех участках эксперимента . Это полностью рандомизированный план , рандомизированный блочный план и факторный план . Обработки могут быть организованы многими способами внутри эксперимента. В сельском хозяйстве правильный экспериментальный план является корнем хорошего исследования, а расположение обработок в рамках исследования имеет важное значение, поскольку окружающая среда в значительной степени влияет на участки ( растения , скот , микроорганизмы ). Эти основные договоренности можно найти в литературе под названиями « решетки », «неполные блоки», « разделенный участок », «расширенные блоки» и многими другими. Все планы могут включать контрольные участки , определенные исследователем, чтобы обеспечить оценку ошибки во время вывода .

В клинических исследованиях выборки обычно меньше, чем в других биологических исследованиях, и в большинстве случаев влияние окружающей среды можно контролировать или измерять. Обычно используют рандомизированные контролируемые клинические испытания , где результаты обычно сравнивают с наблюдательными исследованиями, такими как случай-контроль или когорта . ^[6]

Сбор данных

Методы сбора данных необходимо учитывать при планировании исследования, поскольку они оказывают большое влияние на размер выборки и дизайн эксперимента.

Сбор данных различается в зависимости от типа данных. Для качественных данных сбор может осуществляться с помощью структурированных анкет или путем наблюдения, учитывая наличие или интенсивность заболевания, используя критерий оценки для категоризации уровней встречаемости. ^[7] Для количественных данных сбор осуществляется путем измерения числовой информации с использованием инструментов.

В сельскохозяйственных и биологических исследованиях данные об урожайности и ее компонентах могут быть получены с помощью метрических мер . Однако повреждения вредителями и болезнями на плантациях получаются путем наблюдения с учетом шкал оценок для уровней повреждения. Особенно в генетических исследованиях следует рассматривать современные методы сбора данных в полевых и лабораторных условиях как высокопроизводительные платформы для фенотипирования и генотипирования. Эти инструменты позволяют проводить более масштабные эксперименты, в то же время, по возможности, оценивая множество участков за меньшее время, чем метод сбора данных, основанный только на человеке. Наконец, все собранные интересующие данные должны храниться в организованном фрейме данных для дальнейшего анализа.

Анализ и интерпретация данных

Описательные инструменты

Данные могут быть представлены в виде таблиц или графического представления, например, линейных диаграмм, столбчатых диаграмм, гистограмм, диаграмм рассеяния. Также меры центральной тенденции и изменчивости могут быть очень полезны для описания обзора данных. Вот несколько примеров:

Частотные таблицы

Один из типов таблиц — это таблица частот , которая состоит из данных, расположенных в строках и столбцах, где частота — это количество появлений или повторений данных. Частота может быть: ^[8]

Абсолютное : представляет собой количество раз, когда определенное значение появляется;

$N=f_{1}+f_{2}+f_{3}+...+f_{n}$

Относительная : получается путем деления абсолютной частоты на общее число;

$n_{i}={\frac {f_{i}}{N}}$

В следующем примере у нас есть количество генов в десяти оперонах одного и того же организма.

Гены = {2,3,3,4,5,3,3,3,3,4}

Линейный график

Линейные графики представляют собой изменение значения по другой метрике, например, по времени. Как правило, значения представлены на вертикальной оси, а изменение времени представлено на горизонтальной оси. ^[10]

Столбчатая диаграмма

Столбчатая диаграмма — это график, который показывает категориальные данные в виде столбцов, представляющих высоты (вертикальная полоса) или ширины (горизонтальная полоса), пропорциональные представленным значениям. Столбчатые диаграммы предоставляют изображение, которое также может быть представлено в табличном формате. ^[10]

В примере с гистограммой мы имеем уровень рождаемости в Бразилии за декабрьские месяцы с 2010 по 2016 год. ^[9] Резкое падение рождаемости в декабре 2016 года отражает вспышку вируса Зика в уровне рождаемости в Бразилии.

Гистограммы

Пример гистограммы.

Гистограмма (или распределение частот) — это графическое представление набора данных , сведенного в таблицу и разделенного на однородные или неоднородные классы. Впервые она была введена Карлом Пирсоном . ^[11]

Диаграмма рассеяния

Диаграмма рассеяния — это математическая диаграмма, которая использует декартовы координаты для отображения значений набора данных. Диаграмма рассеяния показывает данные в виде набора точек, каждая из которых представляет значение одной переменной, определяющей положение на горизонтальной оси, и другой переменной на вертикальной оси. ^[12] Их также называют графиком рассеяния , диаграммой рассеяния , диаграммой рассеяния или диаграммой рассеяния . ^[13]

Иметь в виду

Среднее арифметическое — это сумма совокупности значений ( ), деленная на количество элементов этой совокупности ( ). ${x_{1}+x_{2}+x_{3}+\cdots +x_{n}}$ ${н}$

{\bar {x}}={\frac {1}{n}}\left(\sum _{i=1}^{n}{x_{i}}\right)={\frac {x_{1}+x_{2}+\cdots +x_{n}}{n}}

Медиана

Медиана — это значение в середине набора данных.

Режим

Мода — это значение набора данных, которое встречается чаще всего. ^[14]

Диаграмма ящика

Ящичная диаграмма — это метод графического изображения групп числовых данных. Максимальные и минимальные значения представлены линиями, а межквартильный размах (IQR) представляет 25–75% данных. Выбросы могут быть изображены в виде кругов.

Коэффициенты корреляции

Хотя корреляции между двумя различными типами данных могут быть выведены с помощью графиков, таких как диаграмма рассеяния, необходимо подтвердить это с помощью числовой информации. По этой причине требуются коэффициенты корреляции . Они предоставляют числовое значение, которое отражает силу ассоциации. ^[10]

Коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона является мерой связи между двумя переменными, X и Y. Этот коэффициент, обычно представленный как ρ (rho) для популяции и r для выборки, принимает значения от −1 до 1, где ρ = 1 представляет собой идеальную положительную корреляцию, ρ = −1 представляет собой идеальную отрицательную корреляцию, а ρ = 0 означает отсутствие линейной корреляции. ^[10]

Выводная статистика

Он используется для того, чтобы делать выводы ^[15] о неизвестной популяции, путем оценки и/или проверки гипотез. Другими словами, желательно получить параметры для описания популяции, представляющей интерес, но поскольку данные ограничены, необходимо использовать репрезентативную выборку для их оценки. При этом можно проверить ранее определенные гипотезы и применить выводы ко всей популяции. Стандартная ошибка среднего является мерой изменчивости, которая имеет решающее значение для выводов. ^[5]

Проверка гипотез

Проверка гипотез необходима для выводов о популяциях, которые направлены на поиск ответов на исследовательские вопросы, как установлено в разделе «Планирование исследований». Авторы определили четыре шага, которые необходимо установить: ^[5]

Гипотеза, которая должна быть проверена : как было сказано ранее, нам нужно работать с определением нулевой гипотезы (H ₀ ), которая будет проверена, и альтернативной гипотезы . Но они должны быть определены до реализации эксперимента.
Уровень значимости и правило принятия решения : Правило принятия решения зависит от уровня значимости или, другими словами, приемлемого уровня ошибок (α). Проще думать, что мы определяем критическое значение , которое определяет статистическую значимость, когда с ним сравнивается тестовая статистика . Таким образом, α также должно быть предопределено до эксперимента.
Эксперимент и статистический анализ : это когда эксперимент действительно реализуется в соответствии с соответствующим экспериментальным планом , собираются данные и оцениваются наиболее подходящие статистические тесты.
Вывод : делается, когда нулевая гипотеза отвергается или не отвергается на основе доказательств, которые приносит сравнение p-значений и α. Указывается, что неспособность отвергнуть H ₀ означает лишь то, что нет достаточных доказательств в поддержку ее отклонения, но не то, что эта гипотеза верна.

Доверительные интервалы

Доверительный интервал — это диапазон значений, которые могут содержать истинное реальное значение параметра при заданном уровне достоверности. Первым шагом является оценка наилучшей несмещенной оценки параметра популяции. Верхнее значение интервала получается суммой этой оценки с умножением стандартной ошибки среднего значения на уровень достоверности. Расчет нижнего значения аналогичен, но вместо суммы необходимо применить вычитание. ^[5]

Статистические соображения

Мощность и статистическая погрешность

При проверке гипотезы возможны два типа статистических ошибок: ошибка I типа и ошибка II типа .

Ошибка I типа или ложноположительный результат — это неправильное отклонение истинной нулевой гипотезы.
Ошибка II типа или ложноотрицательный результат — это неспособность отвергнуть ложную нулевую гипотезу .

Уровень значимости , обозначенный α, является частотой ошибок типа I и должен быть выбран до проведения теста. Частота ошибок типа II обозначается β, а статистическая мощность теста составляет 1 − β.

p-значение

Значение p — это вероятность получения результатов, таких же экстремальных или более экстремальных, чем наблюдаемые, при условии, что нулевая гипотеза (H ₀ ) верна. Его также называют расчетной вероятностью. Значение p часто путают с уровнем значимости (α) , но α — это предопределенный порог для признания результатов значимыми. Если p меньше α, нулевая гипотеза (H ₀ ) отклоняется. ^[16]

Многократное тестирование

При множественных тестах одной и той же гипотезы вероятность появления ложноположительных результатов (familywise error rate) увеличивается, и для контроля этого события используется некоторая стратегия. Обычно это достигается путем использования более строгого порога для отклонения нулевых гипотез. Поправка Бонферрони определяет приемлемый глобальный уровень значимости, обозначаемый α*, и каждый тест индивидуально сравнивается со значением α = α*/m. Это гарантирует, что familywise error rate во всех m тестах будет меньше или равен α*. Когда m велико, поправка Бонферрони может быть чрезмерно консервативной. Альтернативой поправке Бонферрони является контроль частоты ложных открытий (FDR) . FDR контролирует ожидаемую долю отклоненных нулевых гипотез (так называемых открытий), которые являются ложными (неправильные отклонения). Эта процедура гарантирует, что для независимых тестов частота ложных открытий не превышает q*. Таким образом, FDR менее консервативна, чем поправка Бонферрони, и имеет большую мощность за счет большего количества ложных положительных результатов. ^[17]

Проверка на неверную спецификацию и надежность

Основная проверяемая гипотеза (например, отсутствие связи между лечением и результатами) часто сопровождается другими техническими предположениями (например, о форме распределения вероятностей результатов), которые также являются частью нулевой гипотезы. Когда технические предположения нарушаются на практике, то нулевая гипотеза часто может быть отклонена, даже если основная гипотеза верна. Говорят, что такие отклонения происходят из-за неправильной спецификации модели. ^[18] Проверка того, не изменяется ли результат статистического теста при небольшом изменении технических предположений (так называемые проверки надежности), является основным способом борьбы с неправильной спецификацией.

Критерии выбора модели

Выбор критериев модели выберет или смоделирует более приближенную истинную модель. Критерий информации Акаике (AIC) и критерий информации Байеса (BIC) являются примерами асимптотически эффективных критериев.

Разработки и большие данные

Недавние разработки оказали большое влияние на биостатистику. Двумя важными изменениями стали возможность собирать данные в масштабе высокой пропускной способности и возможность выполнять гораздо более сложный анализ с использованием вычислительных методов. Это происходит из-за развития таких областей, как технологии секвенирования , биоинформатика и машинное обучение ( машинное обучение в биоинформатике ).

Использование в высокопроизводительных данных

Новые биомедицинские технологии, такие как микрочипы , секвенаторы нового поколения (для геномики) и масс-спектрометрия (для протеомики) генерируют огромные объемы данных, что позволяет проводить множество тестов одновременно. ^[19] Тщательный анализ с использованием биостатистических методов необходим для отделения сигнала от шума. Например, микрочип можно использовать для одновременного измерения многих тысяч генов, определяя, какие из них имеют различную экспрессию в больных клетках по сравнению с нормальными клетками. Однако только часть генов будет дифференциально экспрессироваться. ^[20]

Мультиколлинеарность часто возникает в высокопроизводительных биостатистических настройках. Из-за высокой интеркорреляции между предикторами (например, уровнями экспрессии генов ) информация одного предиктора может содержаться в другом. Может быть, что только 5% предикторов отвечают за 90% изменчивости ответа. В таком случае можно применить биостатистический метод снижения размерности (например, с помощью анализа главных компонент). Классические статистические методы, такие как линейная или логистическая регрессия и линейный дискриминантный анализ, не работают хорошо для высокоразмерных данных (т. е. когда число наблюдений n меньше числа признаков или предикторов p: n < p). На самом деле, можно получить довольно высокие значения R ^{2 ,} несмотря на очень низкую предсказательную силу статистической модели. Эти классические статистические методы (особенно линейная регрессия наименьших квадратов ) были разработаны для низкоразмерных данных (т. е. когда число наблюдений n намного больше числа предикторов p: n >> p). В случаях высокой размерности всегда следует рассматривать независимый проверочный тестовый набор и соответствующую остаточную сумму квадратов (RSS) и R2 ^{проверочного} тестового набора, а не обучающего набора.

Часто бывает полезно объединить информацию из нескольких предикторов. Например, анализ обогащения набора генов (GSEA) рассматривает возмущение целых (функционально связанных) наборов генов, а не отдельных генов. ^[21] Эти наборы генов могут быть известными биохимическими путями или иным образом функционально связанными генами. Преимущество этого подхода в том, что он более надежен: более вероятно, что один ген будет обнаружен ложно возмущенным, чем что целый путь будет ложно возмущенным. Кроме того, с помощью этого подхода можно интегрировать накопленные знания о биохимических путях (например, сигнальный путь JAK-STAT ).

Достижения биоинформатики в области баз данных, интеллектуального анализа данных и биологической интерпретации

Разработка биологических баз данных позволяет хранить и управлять биологическими данными с возможностью обеспечения доступа для пользователей по всему миру. Они полезны для исследователей, размещающих данные, извлекающих информацию и файлы (необработанные или обработанные), полученные из других экспериментов или индексирующих научные статьи, как PubMed . Другая возможность — поиск нужного термина (ген, белок, болезнь, организм и т. д.) и проверка всех результатов, связанных с этим поиском. Существуют базы данных, посвященные SNP ( dbSNP ), знаниям о характеристике генов и их путях ( KEGG ) и описанию функции гена, классифицирующим его по клеточному компоненту, молекулярной функции и биологическому процессу ( Gene Ontology ). ^[22] В дополнение к базам данных, которые содержат конкретную молекулярную информацию, существуют и другие, которые являются достаточными в том смысле, что они хранят информацию об организме или группе организмов. Примером базы данных, направленной только на один организм, но содержащей много данных о нем, является генетическая и молекулярная база данных Arabidopsis thaliana — TAIR. ^[23] Phytozome, ^[24] в свою очередь, хранит сборки и файлы аннотаций дюжины растительных геномов, также содержащие инструменты визуализации и анализа. Более того, существует взаимосвязь между некоторыми базами данных в обмене/совместном использовании информации, и крупной инициативой стало Международное сотрудничество в области баз данных последовательностей нуклеотидов (INSDC) ^[25] , которое связывает данные из DDBJ, ^[26] EMBL-EBI, ^[27] и NCBI. ^[28]

В настоящее время увеличение размера и сложности молекулярных наборов данных приводит к использованию мощных статистических методов, предоставляемых алгоритмами компьютерной науки, которые разрабатываются областью машинного обучения . Таким образом, интеллектуальный анализ данных и машинное обучение позволяют обнаруживать закономерности в данных со сложной структурой, таких как биологические, используя методы контролируемого и неконтролируемого обучения , регрессии, обнаружения кластеров и интеллектуального анализа правил ассоциации , среди прочих. ^[22] Чтобы указать некоторые из них, самоорганизующиеся карты и k -средние являются примерами кластерных алгоритмов; реализация нейронных сетей и модели опорных векторных машин являются примерами общих алгоритмов машинного обучения.

Совместная работа молекулярных биологов, биоинформатиков, статистиков и компьютерных специалистов важна для правильного проведения эксперимента, начиная с планирования, через генерацию и анализ данных и заканчивая биологической интерпретацией результатов. ^[22]

Использование методов, требующих больших вычислительных затрат

С другой стороны, появление современных компьютерных технологий и относительно дешевых вычислительных ресурсов сделало возможным применение ресурсоемких биостатистических методов, таких как методы бутстреппинга и повторной выборки.

В последнее время случайные леса приобрели популярность как метод выполнения статистической классификации . Методы случайных лесов генерируют панель деревьев решений. Деревья решений имеют то преимущество, что вы можете рисовать их и интерпретировать (даже имея базовые знания математики и статистики). Таким образом, случайные леса использовались для клинических систем поддержки принятия решений. ^{[ необходима цитата ]}

Приложения

Здравоохранение

Общественное здравоохранение , включая эпидемиологию , исследования служб здравоохранения , питание , гигиену окружающей среды и политику и управление здравоохранением. В этих медицинских содержаниях важно учитывать дизайн и анализ клинических испытаний . В качестве одного из примеров можно привести оценку тяжести состояния пациента с прогнозом исхода заболевания.

С новыми технологиями и генетическими знаниями биостатистика теперь также используется для системной медицины , которая заключается в более персонализированной медицине. Для этого делается интеграция данных из разных источников, включая обычные данные пациентов, клинико-патологические параметры, молекулярные и генетические данные, а также данные, полученные с помощью дополнительных новых технологий омики. ^[29]

Количественная генетика

Изучение популяционной генетики и статистической генетики с целью связать вариацию генотипа с вариацией фенотипа . Другими словами, желательно обнаружить генетическую основу измеримого признака, количественного признака, который находится под полигенным контролем. Область генома, которая отвечает за непрерывный признак, называется локусом количественного признака (QTL). Изучение QTL становится возможным с помощью молекулярных маркеров и измерения признаков в популяциях, но их картирование требует получения популяции из экспериментального скрещивания, такого как F2 или рекомбинантные инбредные штаммы /линии (RIL). Для сканирования областей QTL в геноме необходимо построить карту генов , основанную на сцеплении. Некоторые из наиболее известных алгоритмов картирования QTL — это картирование интервалов, картирование составных интервалов и картирование множественных интервалов. ^[30]

Однако разрешение картирования QTL ухудшается из-за количества анализируемой рекомбинации, что является проблемой для видов, у которых сложно получить большое потомство. Кроме того, разнообразие аллелей ограничено особями, происходящими от контрастных родителей, что ограничивает исследования разнообразия аллелей, когда у нас есть панель особей, представляющих естественную популяцию. ^[31] По этой причине было предложено исследование ассоциаций по всему геному для идентификации QTL на основе неравновесия сцепления , то есть неслучайной ассоциации между признаками и молекулярными маркерами. Оно было усилено разработкой высокопроизводительного генотипирования SNP . ^[32]

В селекции животных и растений использование маркеров в селекции, направленной на селекцию, в основном молекулярных, способствовало развитию селекции с помощью маркеров . В то время как картирование QTL ограничено из-за разрешения, GWAS не обладает достаточной мощностью, когда редкие варианты с небольшим эффектом также подвержены влиянию окружающей среды. Таким образом, концепция геномного отбора (GS) возникает для того, чтобы использовать все молекулярные маркеры в отборе и позволить предсказать эффективность кандидатов в этом отборе. Предложение состоит в том, чтобы генотипировать и фенотипировать обучающую популяцию, разработать модель, которая может получить геномные оценочные племенные ценности (GEBV) особей, принадлежащих к популяции генотипа, но не фенотипа, называемой тестовой популяцией. ^[33] Этот вид исследования может также включать в себя проверочную популяцию, думая в концепции перекрестной проверки , в которой реальные результаты фенотипа, измеренные в этой популяции, сравниваются с результатами фенотипа, основанными на прогнозе, что используется для проверки точности модели.

Подводя итог, можно отметить некоторые моменты, касающиеся применения количественной генетики:

Это использовалось в сельском хозяйстве для улучшения сельскохозяйственных культур ( селекция растений ) и животноводства ( разведение животных ).
В биомедицинских исследованиях эта работа может помочь в поиске аллелей генов- кандидатов , которые могут вызывать или влиять на предрасположенность к заболеваниям в генетике человека.

Данные по выражению

Исследования дифференциальной экспрессии генов из данных РНК-Seq , как и для ОТ-ПЦР и микрочипов , требуют сравнения условий. Цель состоит в том, чтобы идентифицировать гены, которые имеют значительное изменение в распространенности между различными условиями. Затем эксперименты разрабатываются соответствующим образом, с повторениями для каждого условия/лечения, рандомизацией и блокировкой, когда это необходимо. В РНК-Seq количественная оценка экспрессии использует информацию картированных считываний, которые суммируются в некоторой генетической единице, как экзоны , которые являются частью последовательности гена. Поскольку результаты микрочипов могут быть аппроксимированы нормальным распределением, данные подсчетов РНК-Seq лучше объясняются другими распределениями. Первым использованным распределением было распределение Пуассона , но оно недооценивает ошибку выборки, что приводит к ложноположительным результатам. В настоящее время биологическая изменчивость рассматривается методами, которые оценивают параметр дисперсии отрицательного биномиального распределения . Обобщенные линейные модели используются для выполнения тестов на статистическую значимость, и поскольку количество генов велико, необходимо учитывать поправку на множественные тесты. ^[34] Некоторые примеры другого анализа геномных данных получены из экспериментов с микрочипами или протеомикой . ^[35]^[36] Часто они касаются заболеваний или стадий заболеваний. ^[37]

Другие исследования

Экология , экологическое прогнозирование
Анализ биологической последовательности ^[38]
Системная биология для вывода генных сетей или анализа путей. ^[39]
Клинические исследования и фармацевтические разработки
Динамика численности населения , особенно в отношении рыбохозяйственной науки .
Филогенетика и эволюция
Фармакодинамика
Фармакокинетика
Нейровизуализация

Инструменты

Существует множество инструментов, которые можно использовать для статистического анализа биологических данных. Большинство из них полезны в других областях знаний, охватывая большое количество приложений (в алфавитном порядке). Вот краткие описания некоторых из них:

ASReml : Еще одно программное обеспечение, разработанное VSNi ^[40] , которое также может использоваться в среде R в качестве пакета. Оно разработано для оценки компонентов дисперсии в рамках общей линейной смешанной модели с использованием ограниченного максимального правдоподобия (REML). Разрешены модели с фиксированными и случайными эффектами, а также вложенные или перекрестные. Дает возможность исследовать различные структуры матриц дисперсии-ковариации .
CycDesigN: ^[41] Компьютерный пакет, разработанный VSNi ^[40] , который помогает исследователям создавать экспериментальные проекты и анализировать данные, поступающие из проекта, представленного в одном из трех классов, обрабатываемых CycDesigN. Эти классы — разрешимые, неразрешимые, частично реплицированные и кроссоверные проекты . Он включает в себя менее используемые проекты, латинизированные, такие как t-латинизированный проект. ^[42]
Orange : Программный интерфейс для высокоуровневой обработки данных, добычи данных и визуализации данных. Включает инструменты для экспрессии генов и геномики. ^[22]
R : Среда с открытым исходным кодом и язык программирования, предназначенные для статистических вычислений и графики. Это реализация языка S , поддерживаемая CRAN. ^[43] В дополнение к его функциям чтения таблиц данных, получения описательной статистики, разработки и оценки моделей, его репозиторий содержит пакеты, разработанные исследователями по всему миру. Это позволяет разрабатывать функции, написанные для работы со статистическим анализом данных, поступающих из определенных приложений. ^[44] В случае биоинформатики, например, есть пакеты, расположенные в главном репозитории (CRAN) и в других, как Bioconductor . Также можно использовать пакеты, находящиеся в разработке, которые размещены в хостинговых сервисах, как GitHub .
SAS : Программное обеспечение для анализа данных, широко используемое в университетах, сфере услуг и промышленности. Разработано компанией с таким же названием ( Институт SAS ), использует язык программирования SAS.
PLA 3.0: ^[45] Это программное обеспечение для биостатистического анализа для регулируемых сред (например, тестирование на наркотики), которое поддерживает количественные анализы отклика (параллельные линейные, параллельные логистические, коэффициент наклона) и дихотомические анализы (квантантный отклик, бинарные анализы). Оно также поддерживает методы взвешивания для комбинированных расчетов и автоматическую агрегацию данных независимых анализов.
Weka : программное обеспечение Java для машинного обучения и добычи данных , включая инструменты и методы для визуализации, кластеризации, регрессии, правила ассоциации и классификации. Есть инструменты для перекрестной проверки, самозагрузки и модуль сравнения алгоритмов. Weka также может быть запущена на других языках программирования, таких как Perl или R. ^[22]
Python (язык программирования) анализ изображений, глубокое обучение, машинное обучение
базы данных SQL
NoSQL
NumPy числовой питон
SciPy
SageMath
LAPACK линейная алгебра
МАТЛАБ
Apache Hadoop
Apache Spark
Веб-сервисы Amazon

Область применения и программы обучения

Почти все образовательные программы по биостатистике находятся на уровне аспирантуры . Чаще всего они встречаются в школах общественного здравоохранения, связанных со школами медицины, лесного хозяйства или сельского хозяйства, или как прикладные направления в департаментах статистики.

В Соединенных Штатах, где несколько университетов имеют специализированные кафедры биостатистики, многие другие ведущие университеты интегрируют факультет биостатистики в статистические или другие кафедры, такие как эпидемиология . Таким образом, кафедры, носящие название «биостатистика», могут существовать в совершенно разных структурах. Например, относительно новые кафедры биостатистики были основаны с упором на биоинформатику и вычислительную биологию , тогда как старые кафедры, как правило, связанные со школами общественного здравоохранения , будут иметь более традиционные направления исследований, включающие эпидемиологические исследования и клинические испытания , а также биоинформатику. В крупных университетах по всему миру, где существуют как кафедры статистики, так и биостатистики, степень интеграции между двумя кафедрами может варьироваться от абсолютного минимума до очень тесного сотрудничества. В целом, разница между статистической программой и программой по биостатистике двоякая: (i) статистические отделы часто проводят теоретические/методологические исследования, которые менее распространены в программах по биостатистике, и (ii) статистические отделы имеют направления исследований, которые могут включать биомедицинские приложения, а также другие области, такие как промышленность ( контроль качества ), бизнес и экономика , а также биологические области, отличные от медицины.

Специализированные журналы

Биостатистика ^[46]
Международный журнал биостатистики ^[47]
Журнал эпидемиологии и биостатистики ^[48]
Биостатистика и общественное здравоохранение ^[49]
Биометрия ^[50]
Биометрика ^[51]
Биометрический журнал ^[52]
Коммуникации в области биометрии и растениеводства ^[53]
Статистические приложения в генетике и молекулярной биологии ^[54]
Статистические методы в медицинских исследованиях ^[55]
Фармацевтическая статистика ^[56]
Статистика в медицине ^[57]

Смотрите также

Ссылки

^ Центр трансформационных инноваций, Технологический университет Суинберна. "Аллан, Фрэнсис Элизабет (Бетти) - Персона - Энциклопедия австралийской науки и инноваций". www.eoas.info . Получено 26.10.2022 .
^ Гантер, Крис (10 декабря 2008 г.). «Количественная генетика». Nature . 456 (7223): 719. Bibcode :2008Natur.456..719G. doi : 10.1038/456719a . PMID 19079046.
^ Чарльз Т. Мангер (2003-10-03). "Академическая экономика: сильные стороны и недостатки после рассмотрения междисциплинарных потребностей" (PDF) . Архивировано (PDF) из оригинала 2022-10-09.
^ abc Низамуддин, Сара Л.; Низамуддин, Джунаид; Мюллер, Ариэль; Рамакришна, Хариш; Шахул, Саджид С. (октябрь 2017 г.). «Разработка гипотезы и статистическое планирование». Журнал кардиоторакальной и сосудистой анестезии . 31 (5): 1878–1882. дои : 10.1053/j.jvca.2017.04.020. ПМИД 28778775.
^ abcd Оверхолсер, Брайан Р.; Совински, Кевин М. (2017). «Биостатистика для начинающих: Часть I». Питание в клинической практике . 22 (6): 629–35. doi :10.1177/0115426507022006629. PMID 18042950.
^ Щех, Линда Энн; Коладонато, Джозеф А.; Оуэн, Уильям Ф. (4 октября 2002 г.). «Ключевые концепции биостатистики: использование статистики для ответа на вопрос «Есть ли разница?»". Семинары по диализу . 15 (5): 347–351. doi :10.1046/j.1525-139X.2002.00085.x. PMID 12358639. S2CID 30875225.
^ Санделовски, Маргарет (2000). «Объединение качественной и количественной выборки, сбора данных и методов анализа в исследованиях со смешанными методами». Исследования в области сестринского дела и здравоохранения . 23 (3): 246–255. CiteSeerX 10.1.1.472.7825 . doi :10.1002/1098-240X(200006)23:3<246::AID-NUR9>3.0.CO;2-H. PMID 10871540. S2CID 10733556.
^ Математика, Сангаку. «Абсолютные, относительные, кумулятивные частоты и статистические таблицы – Вероятность и статистика». www.sangakoo.com . Получено 10.04.2018 .
^ ab «DATASUS: TabNet Win32 3.0: Nascidos vivos – Бразилия». ДАННЫЕ: Технологии информирования и обслуживания SUS .
^ abcd Фортхофер, Рональд Н.; Ли, Ын Сул (1995). Введение в биостатистику. Руководство по проектированию, анализу и открытию . Academic Press. ISBN 978-0-12-262270-0.
↑ Пирсон, Карл (1895-01-01). «X. Вклад в математическую теорию эволюции.—II. Косая вариация в однородном материале». Phil. Trans. R. Soc. Lond. A. 186 : 343–414. Bibcode :1895RSPTA.186..343P. doi : 10.1098/rsta.1895.0010 . ISSN 0264-3820.
^ Utts, Jessica M. (2005). Видение сквозь статистику (3-е изд.). Belmont, CA: Thomson, Brooks/Cole. ISBN 978-0534394028. OCLC 56568530.
^ Джаррелл, Стивен Б. (1994). Базовая статистика . Дубьюк, Айова: Wm. C. Brown Pub. ISBN 978-0697215956. OCLC 30301196.
^ Гуджарати, Дамодар Н. (2006). Эконометрика . McGraw-Hill Irwin.
^ Уотсон, Линдси (2009). «Основы биостатистики в общественном здравоохранении и рабочая тетрадь по основам биостатистики: статистические вычисления с использованием Excel». Австралийский и новозеландский журнал общественного здравоохранения . 33 (2): 196–197. doi : 10.1111/j.1753-6405.2009.00372.x . ISSN 1326-0200.
^ Бейкер, Монья (2016). «Статистики предупреждают о неправильном использовании значений P». Nature . 531 (7593): 151. Bibcode :2016Natur.531..151B. doi : 10.1038/nature.2016.19503 . PMID 26961635.
^ Бенджамини, И. и Хохберг, И. Управление частотой ложных открытий: практический и эффективный подход к множественному тестированию. Журнал Королевского статистического общества. Серия B (методическая) 57, 289–300 (1995).
^ "Нулевая гипотеза". www.statlect.com . Получено 2018-05-08 .
^ Хейден, Эрика Чек (8 февраля 2012 г.). «Биостатистика: анализ выявления». Nature . 482 (7384): 263–265. doi : 10.1038/nj7384-263a . PMID 22329008.
^ Эфрон, Брэдли (февраль 2008 г.). «Микроматрицы, эмпирический Байес и модель двух групп». Статистическая наука . 23 (1): 1–22. arXiv : 0808.0572 . doi : 10.1214/07-STS236. S2CID 8417479.
^ Subramanian, A.; Tamayo, P.; Mootha, VK; Mukherjee, S.; Ebert, BL; Gillette, MA; Paulovich, A.; Pomeroy, SL; Golub, TR; Lander, ES; Mesirov, JP (30 сентября 2005 г.). "Анализ обогащения набора генов: основанный на знаниях подход к интерпретации профилей экспрессии по всему геному". Труды Национальной академии наук . 102 (43): 15545–15550. Bibcode : 2005PNAS..10215545S. doi : 10.1073/pnas.0506580102 . PMC 1239896. PMID 16199517 .
^ abcde Мур, Джейсон Х (2007). «Биоинформатика». Журнал клеточной физиологии . 213 (2): 365–9. doi : 10.1002/jcp.21218 . PMID 17654500. S2CID 221831488.
^ "ТАИР - Домашняя страница". www.arabidopsis.org .
^ "Фитозом". phytozome.jgi.doe.gov .
^ «Международное сотрудничество в области баз данных последовательностей нуклеотидов — INSDC». www.insdc.org .
^ "Вверх". www.ddbj.nig.ac.jp . 11 января 2024 г.
^ "Европейский институт биоинформатики < EMBL-EBI". www.ebi.ac.uk .
^ "Национальный центр биотехнологической информации". www.ncbi.nlm.nih.gov . Национальная медицинская библиотека США –.
^ Апвайлер, Рольф и др. (2018). «Куда идет системная медицина?». Экспериментальная и молекулярная медицина . 50 (3): e453. doi :10.1038/emm.2017.290. PMC 5898894. PMID 29497170 .
^ Цзэн, Чжао-Бан (2005). «Картирование QTL и генетическая основа адаптации: последние разработки». Genetica . 123 (1–2): 25–37. doi :10.1007/s10709-004-2705-0. PMID 15881678. S2CID 1094152.
^ Корте, Артур; Фарлоу, Эшли (2013). «Преимущества и ограничения анализа признаков с помощью GWAS: обзор». Plant Methods . 9 : 29. doi : 10.1186/1746-4811-9-29 . PMC 3750305. PMID 23876160.
^ Чжу, Чэнсонг; Гор, Майкл; Баклер, Эдвард С.; Ю, Цзяньмин (2008). «Состояние и перспективы картирования ассоциаций у растений». Геном растений . 1 : 5–20. doi : 10.3835/plantgenome2008.02.0089 .
^ Кросса, Хосе; Перес-Родригес, Паулино; Куэвас, Хайме; Монтесинос-Лопес, Осваль; Харкин, Диего; Де Лос Кампос, Густаво; Бургеньо, Хуан; Гонсалес-Камачо, Хуан М; Перес-Элисальде, Серхио; Бейене, Йозеф; Дрейзигакер, Сюзанна; Сингх, Рави; Чжан, Сюэцай; Гауда, Мандже; Руркивал, Маниш; Руткоски, Джессика; Варшни, Раджив К. (2017). «Геномная селекция в селекции растений: методы, модели и перспективы» (PDF) . Тенденции в науке о растениях . 22 (11): 961–975. Bibcode :2017TPS....22..961C. doi :10.1016/j.tplants.2017.08.011. PMID 28965742. Архивировано (PDF) из оригинала 2022-10-09.
^ Ошлак, Алисия; Робинсон, Марк Д.; Янг, Мэтью Д. (2010). «От прочтений РНК-секвенирования до результатов дифференциальной экспрессии». Genome Biology . 11 (12): 220. doi : 10.1186/gb-2010-11-12-220 . PMC 3046478. PMID 21176179 .
^ Хелен Каустон; Джон Квакенбуш; Элвис Бразма (2003). Статистический анализ данных микрочипов экспрессии генов . Wiley-Blackwell.
^ Терри Спид (2003). Анализ данных экспрессии генов на микрочипах: руководство для начинающих . Chapman & Hall/CRC.
^ Франк Эммерт-Штрайб; Маттиас Демер (2010). Медицинская биостатистика для сложных заболеваний . Wiley-Blackwell. ISBN 978-3-527-32585-6.
^ Уоррен Дж. Юэнс; Грегори Р. Грант (2004). Статистические методы в биоинформатике: Введение . Springer.
^ Маттиас Демер; Франк Эммерт-Штрайб; Армин Грабер; Арминдо Сальвадор (2011). Прикладная статистика для сетевой биологии: методы в системной биологии . Wiley-Blackwell. ISBN 978-3-527-32750-8.
^ ab "Главная - VSN International". www.vsni.co.uk .
^ "CycDesigN - VSN International". www.vsni.co.uk .
^ Пьефо, Ханс-Питер; Уильямс, Эмлин Р.; Мишель, Фолькер (2015). «За пределами латинских квадратов: краткий обзор конструкций строк и столбцов». Agronomy Journal . 107 (6): 2263. Bibcode : 2015AgrJ..107.2263P. doi : 10.2134/agronj15.0144.
^ «Комплексная сеть архивов R». cran.r-project.org .
^ Ренганатан В. (2021). Биостатистика, исследованная с помощью программного обеспечения R: обзор . Vinaitheerthan Renganathan. ISBN 9789354936586.
^ Stegmann, Dr Ralf (2019-07-01). "PLA 3.0". PLA 3.0 – Программное обеспечение для биостатистического анализа . Получено 2019-07-02 .
^ "Биостатистика - Oxford Academic". OUP Academic .
^ «Международный журнал биостатистики».
^ "Журналы PubMed будут закрыты". 15 июня 2018 г.
^ https://ebph.it/ Эпидемиология
^ «Биометрия». onlinelibrary.wiley.com . doi :10.1111/(ISSN)1541-0420.
^ "Биометрика - Оксфордский академический". OUP Academic .
^ «Биометрический журнал». onlinelibrary.wiley.com . doi :10.1002/(ISSN)1521-4036.
^ «Сообщения в области биометрии и растениеводства». agrobiol.sggw.waw.pl .
^ «Статистические приложения в генетике и молекулярной биологии». www.degruyter.com . 1 мая 2002 г.
^ «Статистические методы в медицинских исследованиях». Журналы SAGE .
^ «Фармацевтическая статистика». onlinelibrary.wiley.com .
^ «Статистика в медицине». onlinelibrary.wiley.com . doi :10.1002/(ISSN)1097-0258.

Внешние ссылки

Медиа, связанные с биостатистикой на Wikimedia Commons

Международное биометрическое общество
Коллекция архива биостатистических исследований
Руководство по биостатистике (MedPageToday.com) Архивировано 22.05.2012 на Wayback Machine
Биомедицинская статистика