stringtranslate.com

Анализ первопричин

В науке и технике анализ первопричин (RCA) — это метод решения проблем , используемый для выявления первопричин неисправностей или проблем. [1] Он широко используется в ИТ-операциях , производстве , телекоммуникациях , управлении промышленными процессами , анализе аварий (например, в авиации , [2] железнодорожном транспорте или на атомных электростанциях ), медицинской диагностике , здравоохранении (например, в эпидемиологии ) и т. д. Анализ первопричин — это форма индуктивного вывода (сначала создайте теорию, или корень , на основе эмпирических доказательств или причин ) и дедуктивного вывода (проверьте теорию, т. е. основные причинные механизмы, с помощью эмпирических данных).

RCA можно разложить на четыре этапа:

  1. Четко определите и опишите проблему
  2. Установите временную шкалу от нормальной ситуации до возникновения проблемы.
  3. Различать первопричину и другие причинные факторы (например, посредством корреляции событий )
  4. Создайте причинно-следственную связь между первопричиной и проблемой.

RCA обычно служит в качестве входных данных для процесса исправления, в ходе которого предпринимаются корректирующие действия для предотвращения повторения проблемы. Название этого процесса различается в зависимости от области применения. Согласно ISO/IEC 31010 , RCA может включать следующие методы: Пять почему , Анализ характера и последствий отказов (FMEA), Анализ дерева отказов , Диаграммы Ишикавы и Анализ Парето .

Определения

По сути, существует два способа устранения неисправностей и решения проблем в науке и технике.

Реактивное управление

Реактивное управление заключается в быстром реагировании после возникновения проблемы путем лечения симптомов. Этот тип управления реализуется реактивными системами, [3] [4] самоадаптирующимися системами, [5] самоорганизующимися системами и сложными адаптивными системами . Цель здесь — быстро отреагировать и как можно скорее смягчить последствия проблемы.

Проактивное управление

Проактивное управление, наоборот, заключается в предотвращении возникновения проблем. Для этой цели можно использовать множество методов, начиная от надлежащей практики в проектировании и заканчивая подробным анализом уже возникших проблем и принятием мер, чтобы они никогда не повторились. Скорость здесь не так важна, как точность и правильность диагностики. Основное внимание уделяется устранению реальной причины проблемы, а не ее последствий.

Анализ первопричин часто используется в проактивном управлении для определения первопричины проблемы, то есть фактора, который был ведущей причиной. Обычно «первопричину» называют в единственном числе, но один или несколько факторов могут составлять первопричину (ы) изучаемой проблемы.

Фактор считается «первопричиной» проблемы, если его устранение предотвращает повторное возникновение проблемы. Наоборот, «причинный фактор» — это способствующее действие, которое влияет на результат инцидента/события, но не является первопричиной. Хотя устранение причинного фактора может принести пользу результату, оно не предотвращает его повторение с уверенностью.

Отличный способ взглянуть на картину проактивного/реактивного реагирования — рассмотреть модель оценки риска Bowtie. В центре модели находится событие или несчастный случай. Слева — ожидаемые опасности и линия защиты, установленная для предотвращения этих опасностей от возникновения событий. Линия защиты — это нормативные требования, применимые процедуры, физические барьеры и кибербарьеры, которые установлены для управления операциями и предотвращения событий. Отличный способ использования анализа первопричин — это проактивная оценка эффективности этих защит путем сравнения фактической производительности с применимыми требованиями, выявления пробелов в производительности и последующего устранения пробелов для усиления этих защит. Если происходит событие, то мы находимся на правой стороне модели, реактивной стороне, где акцент делается на выявлении первопричин и смягчении ущерба.

Пример

Представьте себе расследование машины, которая остановилась из-за перегрузки и перегорания предохранителя. [6] Расследование показывает, что машина была перегружена, потому что у нее был подшипник, который недостаточно смазывался. Расследование продолжается и обнаруживает, что в механизме автоматической смазки был насос, который недостаточно качал, отсюда и отсутствие смазки. Расследование насоса показывает, что у него изношен вал. Расследование того, почему вал был изношен, обнаруживает, что нет адекватного механизма, предотвращающего попадание металлического лома в насос. Это позволило лому попасть в насос и повредить его.

Очевидная первопричина проблемы заключается в том, что металлический лом может загрязнять систему смазки. Устранение этой проблемы должно предотвратить повторение всей последовательности событий. Настоящая первопричина может заключаться в проблеме конструкции, если нет фильтра, предотвращающего попадание металлического лома в систему. Или если фильтр засорился из-за отсутствия планового осмотра, то настоящая первопричина — проблема технического обслуживания.

Сравните это с расследованием, которое не находит первопричину: замена предохранителя, подшипника или смазочного насоса, вероятно, позволит машине вернуться в эксплуатацию на некоторое время. Однако существует риск, что проблема просто повторится, пока не будет устранена первопричина.

Вышеизложенное не включает анализ затрат/выгод : превышает ли стоимость замены одного или нескольких станков стоимость простоя до замены предохранителя? Эту ситуацию иногда называют « лекарство хуже болезни» . [7] [8]

В качестве несвязанного примера выводов, которые можно сделать при отсутствии анализа затрат и выгод, рассмотрим компромисс между некоторыми заявленными выгодами от сокращения населения: в краткосрочной перспективе будет меньше плательщиков в пенсионные/пенсионные системы; в то время как остановка населения потребует более высоких налогов для покрытия расходов на строительство большего количества школ. Это может помочь объяснить проблему того, что лекарство хуже болезни. [9]

Расходы, которые следует учитывать, выходят за рамки финансов при рассмотрении персонала, который управляет оборудованием. В конечном счете, цель состоит в том, чтобы предотвратить простои; но еще больше — предотвратить катастрофические травмы. Профилактика начинается с проактивности.

Общие принципы

Пример метода анализа первопричин

Несмотря на различные подходы различных школ анализа первопричин и специфику каждой прикладной области, RCA обычно следует одним и тем же четырем шагам:

  1. Идентификация и описание: Эффективные формулировки проблем и описания событий (например, отказов) полезны и обычно требуются для обеспечения выполнения соответствующих анализов первопричин. Формулировки проблем — это Полярная звезда RCA, поскольку они позволяют команде сосредоточиться на том, что они расследуют, и не дают им сбиться с пути.
  2. Сбор, организация и анализ информации: большинство RCA начинаются с сеанса установления фактов для сбора доступной информации, такой как заявления свидетелей, хронология событий и применимые требования к эволюциям, которые имели место во время события. Информацию можно использовать для установления последовательности событий или временной шкалы для события, а также для определения линии защиты, которая должна была предотвратить событие (т. е. административные требования, физические и кибербарьеры). Также следует запрашивать и анализировать имеющиеся базы данных (например, базы данных программ корректирующих действий и программ безопасности), а также инструменты анализа данных, такие как диаграммы Парето, карты процессов, деревья неисправностей и другие инструменты, которые дают нам представление о пробелах в производительности. Можно использовать любое количество инструментов анализа данных, включая инструменты анализа данных из Lean Six Sigma, инструменты статистического анализа и другие, такие как иерархическая кластеризация и решения по добыче данных (например, добыча данных на основе теории графов ). Другой метод заключается в сравнении расследуемой ситуации с прошлыми ситуациями, хранящимися в библиотеках случаев, с использованием инструментов рассуждения на основе случаев и может включать анализ изменений, сравнительный анализ временной шкалы и анализ задач.
  3. Анализ защит: После определения имеющихся защит, которые должны были предотвратить событие или несчастный случай, настоятельно рекомендуется провести анализ защит (традиционно называемый анализом барьеров ) в каждом случае, включая расследования, не связанные с RCA. Один из методов — перечислить защиты на схеме или виртуальной доске. Затем для каждой защиты просмотрите информацию и данные, которые были собраны для подтверждения эффективности этой защиты. На самом деле мы ищем недостатки или пробелы в работе, где не были выполнены административные требования или где были обойдены физические или кибербарьеры. Эти первоначальные пробелы в работе являются всего лишь симптомами более глубоких причин. Мы используем эти симптоматические пробелы в работе для разработки вопросов по направлениям расследования, как описано ниже, чтобы проследить симптомы до их точек происхождения (т. е. первопричин) с помощью причинно-следственного анализа.
  4. Создание целенаправленных, беспристрастных вопросов по направлениям расследования: После сбора доступной информации, организации ее в диаграммы с временными шкалами и другими данными, после анализа доступных данных и после проведения анализа наших защит мы используем эти идеи для создания отличных вопросов. Эти вопросы станут нашими линиями расследования для причинно-следственного анализа. Вопросы должны быть беспристрастными, и чтобы предотвратить любое предвзятое отношение со стороны команды RCA к расследованию, вопросы должны быть привязаны к конкретной защите или к конкретному пониманию из нашего анализа данных (например, диаграммы Парето , карты процессов , деревья неисправностей , контрольные диаграммы ) и другие инструменты, которые дают нам представление о пробелах в производительности. Не должно быть никаких вопросов из любопытства, вопросов, которые отражают «предвзятость подтверждения» (т. е. задают наводящий вопрос, чтобы они ответили на то, что команда RCA считает причинами), или вопросов, которые носят обвинительный характер, из-за которых те, кто помогает расследованию, закроются и отступят.
  5. Анализ причин и следствий: как только мы разработаем надежный набор вопросов по направлениям расследования из собранных фактических доказательств, применимых требований и анализа имеющихся данных, мы можем передать эти вопросы экспертам по предметной области организации. Это начинает процесс анализа причин и следствий. Как только мы задаем вопрос затронутой организации, мы используем их ответ, чтобы задать последующие сократовские вопросы . Сократовские вопросы позволяют исследованию переходить к следующим более глубоким причинным факторам до тех пор, пока у организации не закончатся ответы или пока последний причинный фактор не выйдет из-под контроля организации. Для проведения эффективного анализа причин и следствий требуется множество навыков, включая навыки фасилитации, навыки общения и сократовские вопросы. При правильном проведении это позволит довести RCA до самых глубоких первопричин. Предостережение: методы Ишикавы или диаграммы «рыбьей кости», а также 5 «почему» недостаточно строги для проведения анализа первопричин. Fishbone из 1940-х, а 5-Whys из 1930-х, и есть гораздо более продвинутые методы. Ищите методы, которые были разработаны в этом столетии (2000 год и позже), поскольку они с большей вероятностью учитывают новую динамику современных социотехнических рабочих сред.
  6. Диаграмма результатов RCA: Лучший способ диаграммы результатов расследования RCA — начать заполнять окончательную диаграмму с самого начала. Этот процесс стал намного проще с появлением виртуальных досок. На одной виртуальной доске мы можем отображать временные шкалы, линии защиты, анализ данных, линии вопросов расследования, анализ причин и следствий, первопричины и план корректирующих действий.
  7. Корректирующие действия для предотвращения повторения: С точки зрения управления усилия RCA не будут полными без всеобъемлющего плана корректирующих действий для устранения коренных причин, способствующих факторов и «степени причин». План корректирующих действий должен быть разработан владельцами проблем и не требует участия команды RCA, хотя команда является отличным источником руководства для владельцев проблем. Обзоры степени причин проводятся для определения степени ущерба или воздействия, которое коренные причины и способствующие факторы оказали на людей, оборудование или объекты. Обзоры степени причин являются ахиллесовой пятой в подавляющем большинстве организаций и основной причиной того, что RCA и планы корректирующих действий не могут предотвратить повторение. Кроме того, необходимо проявлять осторожность, чтобы избегать планов корректирующих действий, которые просто добавляют больше административных требований и больше обучения для организации. Чтобы избежать этого, используйте Иерархию контроля опасностей и Бережливую защиту от ошибок в качестве руководящих принципов для разработки эффективных корректирующих действий, которые имеют гораздо более высокую вероятность предотвращения повторения.
  8. Обзоры эффективности: После заранее определенного периода после внедрения плана корректирующих действий планируется обзор эффективности для оценки эффективности этих корректирующих действий. Для этого требуется указать набор показателей или индикаторов, которые будут отслеживаться до и после внедрения корректирующих действий, чтобы мы могли измерить их воздействие. Если желаемые результаты не достигнуты, что в большинстве случаев является значительным снижением масштаба или частоты события или проблемы, то RCA необходимо открыть заново, поскольку он не был эффективным.

Чтобы быть эффективным, анализ первопричин должен проводиться систематически. Этот процесс дает возможность не упустить ни одной важной детали. Обычно требуются командные усилия, и в идеале все вовлеченные лица должны прийти к одному и тому же выводу. Например, при анализе авиакатастроф выводы расследования и выявленные первопричины должны быть подкреплены документированными доказательствами. [10]

Переход к корректирующим действиям

Цель RCA — определить первопричину проблемы с намерением не допустить ее повторения или ухудшения. Следующий шаг — инициировать долгосрочные корректирующие действия для устранения первопричины, выявленной во время RCA, и убедиться, что проблема не возникнет снова. Однако исправление проблемы формально не является частью RCA; это разные шаги в процессе решения проблем, известном как управление неисправностями в ИТ и телекоммуникациях, ремонт в машиностроении, восстановление в авиации, восстановление окружающей среды в экологии , терапия в медицине и т. д.

Домены приложений

Анализ первопричин используется во многих прикладных областях. RCA специально упоминается в Кодексе федеральных правил США во многих Заголовках. Например:

  1. РАЗДЕЛ 10 - ЭНЕРГИЯ >>> 10CFR Часть 50, Приложение B, Критерий XVI, «Корректирующие действия» (также принят NQA-1)
    • «Необходимо принять меры для обеспечения того, чтобы условия, неблагоприятные для качества, такие как отказы, неисправности, недостатки, дефектные материалы и оборудование, а также несоответствия, оперативно выявлялись и устранялись.
    • В случае существенных условий, неблагоприятных для качества, меры должны гарантировать определение причины состояния и принятие корректирующих мер для предотвращения повторения».
  2. РАЗДЕЛ 14 - АЭРОНАВТИКА И КОСМОС >>> 14 CFR Глава III, Подраздел C, Часть 437, Подраздел C, §437.73 Регистрация аномалий, сообщение о них и реализация корректирующих действий.
    1. Получатель разрешения должен регистрировать каждую аномалию, которая влияет на критически важную для безопасности систему, подсистему, процесс, объект или вспомогательное оборудование.
    2. Получатель разрешения должен определить все основные причины каждой аномалии и выполнить все корректирующие действия для каждой аномалии.
  3. РАЗДЕЛ 21 - ПИЩЕВЫЕ ПРОДУКТЫ И ЛЕКАРСТВА >>> 21 CFR Подраздел J: 21CFR820.100(a) – Исправление/Профилактическое действие: (A) Каждый производитель должен установить и поддерживать процедуры для внедрения корректирующих и профилактических действий. Процедуры должны включать требования к:
    1. Расследование причин несоответствий, связанных с продукцией, процессами и системой качества;
    2. Определение действий, необходимых для исправления и предотвращения повторного возникновения несоответствующей продукции и других проблем с качеством;
    3. Проверка или подтверждение корректирующих и профилактических действий для обеспечения их эффективности и отсутствия негативного влияния на готовое устройство;
  4. РАЗДЕЛ 42 — ОБЩЕСТВЕННОЕ ЗДРАВООХРАНЕНИЕ >>> 42 CFR ЧАСТЬ 488, ПРОЦЕДУРЫ ОБСЛЕДОВАНИЯ, СЕРТИФИКАЦИИ И ИСПОЛНЕНИЯ > Подраздел E — Обследование и сертификация учреждений долгосрочного ухода
    1. §488.61 Особые процедуры утверждения и повторного утверждения программ трансплантации органов.
    2. ...Анализ первопричин смерти пациентов и отторжения трансплантатов, включая факторы, которые программа определила как вероятные причинные или способствующие факторы смерти пациентов и отторжения трансплантатов;

Управление производством и промышленными процессами

Приведенный выше пример иллюстрирует, как RCA может использоваться в производстве . RCA также обычно используется в контроле промышленных процессов , например, для контроля производства химикатов ( контроль качества ).

RCA также используется для анализа отказов в проектировании и обслуживании .

ИТ и телекоммуникации

Анализ первопричин часто используется в ИТ и телекоммуникациях для обнаружения первопричин серьезных проблем. Например, в структуре управления услугами ITIL целью управления инцидентами является возобновление неисправной ИТ-услуги как можно скорее (реактивное управление), тогда как управление проблемами занимается решением повторяющихся проблем навсегда путем устранения их первопричин (проактивное управление).

Другим примером является процесс управления инцидентами компьютерной безопасности , где анализ первопричин часто используется для расследования нарушений безопасности. [11]

RCA также используется в сочетании с мониторингом деловой активности и комплексной обработкой событий для анализа сбоев в бизнес-процессах .

Его использование в ИТ-индустрии не всегда можно сравнить с его использованием в отраслях, критически важных для безопасности, поскольку в норме использование RCA в ИТ-индустрии не поддерживается уже существующими деревьями неисправностей или другими спецификациями проектирования. Вместо этого смесь отладки, обнаружения на основе событий и систем мониторинга (где службы моделируются индивидуально) обычно поддерживает анализ. Обучающих и вспомогательных инструментов, таких как моделирование или различные углубленные руководства по запуску для всех ожидаемых сценариев, не существует, вместо этого они создаются постфактум на основе проблем, которые рассматриваются как «достойные». В результате анализ часто ограничивается теми вещами, которые имеют интерфейсы мониторинга/наблюдения, а не фактической запланированной/увиденной функцией с упором на проверку входов и выходов. Следовательно, поговорка «нет первопричины» стала общепринятой в ИТ-индустрии.

Здоровье и безопасность

В области охраны здоровья и безопасности RCA обычно используется в медицине (диагностика) и эпидемиологии (например, для определения источника инфекционного заболевания), где методы причинно-следственной связи часто требуют как клинической, так и статистической экспертизы для понимания сложности процессов. [12]

RCA используется в науке об окружающей среде (например, для анализа экологических катастроф), анализе аварий (авиационная и железнодорожная промышленность), а также в охране труда и технике безопасности . [13] При производстве медицинских приборов, [14] фармацевтических препаратов, [15] продуктов питания [16] и диетических добавок [17] анализ первопричин является нормативным требованием.

Системный анализ

RCA также используется в управлении изменениями , управлении рисками и системном анализе .

Вызовы

Не вдаваясь в особенности конкретных проблем, можно сказать, что ряд общих условий может сделать RCA более трудным, чем это может показаться на первый взгляд.

Во-первых, важная информация часто отсутствует, поскольку на практике, как правило, невозможно контролировать все и хранить все данные мониторинга в течение длительного времени.

Во-вторых, сбор данных и доказательств, а также их классификация по временной шкале событий до конечной проблемы, может быть нетривиальной задачей. Например, в телекоммуникациях распределенные системы мониторинга обычно обрабатывают от миллиона до миллиарда событий в день. Поиск нескольких релевантных событий в такой массе нерелевантных событий — это попытка найти иголку в стоге сена.

В-третьих, у одной и той же проблемы может быть несколько основных причин, и эта множественность может сильно затруднить построение причинно-следственной связи.

В-четвертых, причинно-следственные графики часто имеют много уровней, и анализ первопричины заканчивается на уровне, который является «корневым» для исследователя. Если снова взглянуть на пример выше в управлении промышленным процессом, более глубокое расследование может показать, что процедуры обслуживания на заводе включали периодический осмотр подсистемы смазки каждые два года, в то время как текущий поставщик подсистемы смазки указал 6-месячный период. Смена поставщиков могла быть вызвана желанием руководства сэкономить деньги и нежеланием консультироваться с инженерным персоналом о последствиях изменения процедур обслуживания. Таким образом, хотя «первопричина», показанная выше, могла предотвратить указанное повторение, она не предотвратила бы другие — возможно, более серьезные — отказы, влияющие на другие машины.

Смотрите также

Примечания

  1. См. Уилсон, Делл и Андерсон 1993, стр. 8–17.
  2. ^ См. IATA 2016 и Sofema 2017.
  3. См. Манна и Пнуэли, 1995.
  4. ^ См. Леверенц и Линднер, 1995.
  5. ^ См. Бабаоглу и др. 2005.
  6. ↑ См . Оно 1988.
  7. «Лекарство хуже болезни». The New York Times . 5 ноября 1927 г.
  8. Эндрю С. Ревкин (7 декабря 2000 г.). «GE настаивает, что удаление ПХБ из рек может стать лекарством, которое хуже болезни». The New York Times .
  9. Филлип Лонгман (9 июня 2004 г.). «Глобальный детский кризис». The New York Times .
  10. ^ См. ИАТА 2016.
  11. ^ См. Абубакар и др. 2016 г.
  12. ^ Ландситтель, Дуглас; Шривастава, Авантика; Кропф, Кристин (2020). «Обзор методов причинно-следственной связи и связанных с ними образовательных ресурсов». Управление качеством в здравоохранении . 29 (4): 260–269. doi :10.1097/QMH.00000000000000276. ISSN  1063-8628. PMID  32991545. S2CID  222146291.
  13. ^ См. OSHA 2019.
  14. ^ Управление по вопросам регулирования (26 декабря 2019 г.). «Корректирующие и превентивные действия (CAPA)». FDA .
  15. ^ US-FDA. "ТЕКУЩАЯ НАДЛЕЖАЩАЯ ПРОИЗВОДСТВЕННАЯ ПРАКТИКА ДЛЯ ГОТОВЫХ ФАРМАЦЕВТИЧЕСКИХ ПРЕПАРАТОВ". Электронный свод федеральных правил (eCFR) . Получено 28 декабря 2020 г.
  16. ^ US-FDA. "ТЕКУЩАЯ НАДЛЕЖАЩАЯ ПРОИЗВОДСТВЕННАЯ ПРАКТИКА, АНАЛИЗ ОПАСНОСТИ И ПРОФИЛАКТИЧЕСКИЙ КОНТРОЛЬ НА ОСНОВЕ РИСКА ДЛЯ ПИЩЕВЫХ ПРОДУКТОВ ДЛЯ ЧЕЛОВЕКА". Электронный кодекс федеральных правил (eCFR) . Получено 28 декабря 2020 г.
  17. ^ US-FDA. "ТЕКУЩАЯ НАДЛЕЖАЩАЯ ПРОИЗВОДСТВЕННАЯ ПРАКТИКА ПРИ ИЗГОТОВЛЕНИИ, УПАКОВКЕ, МАРКИРОВКЕ ИЛИ ХОЛДИНГЕ ОПЕРАЦИЙ ДЛЯ ПИЩЕВЫХ ДОБАВОК". Электронный свод федеральных правил (eCFR) . Получено 28 декабря 2020 г.

Ссылки

Внешние ссылки