Системная авария (или обычная авария ) — это «непредвиденное взаимодействие множественных отказов» в сложной системе . [1] Эта сложность может быть связана либо с технологией, либо с человеческими организациями, а часто и с тем, и с другим. Системную аварию легко увидеть задним числом, но крайне сложно предвидеть, поскольку существует слишком много путей действий, чтобы все их серьезно рассмотреть. Чарльз Перроу впервые разработал эти идеи в середине 1980-х годов. [2] Системы безопасности сами по себе иногда являются дополнительной сложностью, которая приводит к этому типу аварии. [3]
Пилот и автор Уильям Лангевиш использовал концепцию Перроу в своем анализе факторов, участвовавших в авиакатастрофе 1996 года. Он написал в The Atlantic в 1998 году: «контроль и эксплуатация некоторых из самых рискованных технологий требуют настолько сложных организаций, что серьезные сбои практически гарантированы». [4] [a]
В 2012 году Чарльз Перроу написал: «Обычная авария [системная авария] — это когда все очень стараются играть безопасно, но неожиданное взаимодействие двух или более отказов (из-за интерактивной сложности) вызывает каскад отказов (из-за тесной связи)». Перроу использует термин « обычная авария » , чтобы подчеркнуть, что, учитывая текущий уровень технологий, такие аварии весьма вероятны в течение ряда лет или десятилетий. [5] Джеймс Ризон расширил этот подход, добавив человеческую надежность [6] и модель швейцарского сыра , которая теперь широко принята в области авиационной безопасности и здравоохранения.
Эти несчастные случаи часто напоминают устройства Руба Голдберга , в которых небольшие ошибки в суждениях, недостатки в технологии и незначительные повреждения объединяются, чтобы сформировать внезапную катастрофу. Лангевише пишет о «целой мнимой реальности, которая включает в себя неработающие цепочки команд, не поддающиеся обучению программы обучения, нечитаемые руководства и фикцию правил, проверок и контроля». [4] Чем больше формальности и усилий, чтобы сделать все точно правильно, тем больше вероятность неудачи. [4] [b] Например, сотрудники с большей вероятностью будут откладывать сообщения о любых изменениях, проблемах и неожиданных условиях, когда организационные процедуры, связанные с адаптацией к изменяющимся условиям, сложны, трудны или трудоемки.
Контрастная идея — это организация высокой надежности . [7] Например, в своей оценке уязвимостей сложных систем Скотт Саган в многочисленных публикациях обсуждает их высокую надежность, особенно в отношении ядерного оружия. В «Пределах безопасности» (1993) представлен обширный обзор близких ситуаций во время Холодной войны , которые могли бы случайно привести к ядерной войне. [8]
Комиссия по обзору миссии «Аполлон-13» заявила во введении к пятой главе своего отчета: [выделено мной] [9]
... Было установлено, что авария не была результатом случайной неисправности в статистическом смысле, а скорее стала результатом необычного сочетания ошибок в сочетании с несколько несовершенной и неумолимой конструкцией ...
- (g): При рассмотрении этих процедур перед полетом должностные лица NASA, ER и Beech не распознали возможность повреждения из-за перегрева. Многие из этих должностных лиц не знали о длительной работе нагревателя. В любом случае, можно было бы ожидать, что адекватные термостатические переключатели защитят бак.
Перроу считал аварию на Три-Майл-Айленде нормальной : [10]
Это напоминало другие аварии на атомных станциях и в других высокорисковых, сложных и взаимозависимых системах оператор-машина; ни одна из аварий не была вызвана некомпетентностью руководства или оператора или плохим государственным регулированием, хотя эти характеристики существовали и должны были быть ожидаемы. Я утверждал, что авария была нормальной, потому что в сложных системах обязательно будет множество ошибок, которых нельзя избежать планированием и которые операторы не могут сразу понять.
11 мая 1996 года рейс Valujet Flight 592 , регулярный рейс ValuJet Airlines из Майами Интернешнл в Хартсфилд-Джексон Атланта, потерпел крушение примерно через 10 минут после взлета в результате пожара в грузовом отсеке, вызванного неправильно хранившимся и маркированным опасным грузом. Все 110 человек на борту погибли. До крушения у авиакомпании были плохие показатели безопасности. Авария привлекла всеобщее внимание к проблемам управления авиакомпании, включая недостаточную подготовку сотрудников по правильному обращению с опасными материалами. Руководство по техническому обслуживанию самолета MD-80 документировало необходимые процедуры и было в определенном смысле «правильным». Однако оно было настолько огромным, что не было ни полезным, ни информативным. [4]
В монографии 2014 года экономист Алан Блиндер заявил, что сложные финансовые инструменты затрудняют для потенциальных инвесторов оценку разумности цены. В разделе под названием «Урок № 6: Чрезмерная сложность не просто антиконкурентна, она опасна», он далее заявил: «Но большую опасность может представлять непрозрачность. Когда инвесторы не понимают рисков, присущих ценным бумагам, которые они покупают (примеры: мезонинный транш CDO -Squared ; CDS на синтетическом CDO ...), можно совершить большие ошибки, особенно если рейтинговые агентства говорят вам, что они имеют рейтинг «ААА», то есть достаточно безопасны для бабушки. Когда наступает крах, потери могут быть намного больше, чем инвесторы могли себе представить. Рынки могут иссякнуть, поскольку никто не знает, сколько на самом деле стоят эти ценные бумаги. Может начаться паника. Таким образом, сложность сама по себе является источником риска». [11]
Несмотря на значительное повышение безопасности полетов с 1980-х годов, существует обеспокоенность тем, что автоматизированные системы полета стали настолько сложными, что они одновременно увеличивают риски, возникающие из-за чрезмерного усложнения, и непонятны экипажам, которые должны с ними работать. В качестве примера специалисты в авиационной отрасли отмечают, что такие системы иногда переключаются или включаются сами по себе; экипаж в кабине не обязательно посвящен в обоснование их автоматического включения, что вызывает недоумение. Лангевише цитирует промышленного инженера Надин Сартер , которая пишет о «сюрпризах автоматизации», часто связанных с режимами системы, которые пилот не полностью понимает или на которые система переключается сама по себе. Фактически, один из наиболее распространенных вопросов, которые задают в кабинах сегодня, это: «Что она делает сейчас?» В ответ на это Лангевише указывает на пятикратное увеличение безопасности полетов и пишет: «Никто не может рационально отстаивать возвращение к гламуру прошлого». [12]
В статье под названием «Человеческий фактор» Лангевиш обсуждает крушение рейса 447 авиакомпании Air France в 2009 году над Средней Атлантикой. Он отмечает, что с 1980-х годов, когда начался переход на автоматизированные системы кабины, безопасность улучшилась в пять раз. Лангевиш пишет: «В уединении кабины и за пределами общественного внимания пилоты были низведены до мирских ролей системных менеджеров». Он цитирует инженера Эрла Винера, который берет юмористическое высказывание, приписываемое герцогине Виндзорской, о том, что никто не может быть слишком богатым или слишком худым, и добавляет «или слишком осторожным в отношении того, что вы вкладываете в цифровую систему управления полетом». Винер говорит, что эффект автоматизации обычно заключается в снижении рабочей нагрузки, когда она легкая, и в ее увеличении, когда она тяжелая.
Инженер Boeing Делмар Фадден сказал, что как только мощности добавляются к системам управления полетом, их становится невозможно дорого удалить из-за требований сертификации. Но если они не используются, то могут в некотором смысле таиться в невидимых глубинах. [12]
Человеческий фактор при внедрении процедур безопасности играет роль в общей эффективности систем безопасности. Проблемы с обслуживанием являются обычным явлением для резервных систем. Бригады по обслуживанию могут не восстановить резервную систему до активного состояния. Они могут быть перегружены работой или обслуживание может быть отложено из-за сокращения бюджета, поскольку менеджеры знают, что система будет продолжать работать без исправления резервной системы. [3] Шаги в процедурах могут быть изменены и адаптированы на практике, исходя из формальных правил безопасности, часто способами, которые кажутся уместными и рациональными, и могут быть существенными для соблюдения временных ограничений и рабочих требований. В статье Safety Science 2004 года , сообщающей об исследовании, частично поддержанном Национальным научным фондом и NASA, Нэнси Левесон пишет: [13]
Однако инструкции и письменные процедуры почти никогда не соблюдаются в точности, поскольку операторы стремятся стать более эффективными и производительными и справляться с дефицитом времени ... даже в таких крайне ограниченных и высокорисковых условиях, как атомные электростанции, неоднократно обнаруживается изменение инструкций, а нарушение правил кажется вполне рациональным, учитывая фактическую рабочую нагрузку и временные ограничения, в которых операторы должны выполнять свою работу. В этих ситуациях существует основной конфликт между ошибкой, рассматриваемой как отклонение от нормативной процедуры , и ошибкой, рассматриваемой как отклонение от рациональной и обычно используемой эффективной процедуры .
Пилотам вроде меня сложнее принять идею Чарльза Перроу. Перроу непреднамеренно пришел к своей теории о нормальных авариях после изучения неудач крупных организаций. Его точка зрения не в том, что некоторые технологии более рискованны, чем другие, что очевидно, а в том, что управление и эксплуатация некоторых из самых рискованных технологий требуют настолько сложных организаций, что серьезные неудачи практически гарантированы . Эти неудачи будут время от времени объединяться непредсказуемым образом, и если они вызовут дальнейшие неудачи в рабочей среде тесно взаимосвязанных процессов, неудачи выйдут из-под контроля, сводя на нет все вмешательства.
— Уильям Лангевиш (март 1998 г.), «Уроки Валюже 592», стр. 23 [Раздел: «Обычная случайность » ], The Atlantic
... пилоты были низведены до рутинных ролей системных менеджеров
... С 1980-х годов, когда начался этот сдвиг, показатели безопасности улучшились в пять раз, до нынешнего показателя в один смертельный случай на каждые пять миллионов вылетов. Никто не может рационально отстаивать возвращение к гламуру прошлого.
... Фактически, распространенным способом для рабочих оказать давление на руководство без фактической забастовки является «работа по правилам», что может привести к снижению производительности и даже хаосу
...
Аварии в Чернобыле и Три-Майл-Айленде были вызваны отказавшими системами безопасности.Прямая загрузка статьи
Normal Accidents — сегодня это обязательная книга для промышленных менеджеров, социологов организаций, историков технологий и заинтересованных неспециалистов, поскольку она показывает, что основная стратегия, которую инженеры использовали в этом столетии для удержания опасных технологий под контролем — несколько уровней «отказоустойчивых» резервных устройств — часто добавляет опасный уровень непредсказуемости к системе в целом ...