Каскадный отказ — это отказ в системе взаимосвязанных частей , при котором отказ одной или нескольких частей приводит к отказу других частей, прогрессивно нарастающему в результате положительной обратной связи . Это может произойти, когда выходит из строя одна часть, увеличивая вероятность выхода из строя других частей системы. [1] [2] Такой сбой может произойти во многих типах систем, включая передачу энергии, компьютерные сети, финансы, транспортные системы, организмы, человеческое тело и экосистемы.
Каскадные сбои могут возникать при выходе из строя одной части системы. Когда это происходит, другие детали должны компенсировать неисправный компонент. Это, в свою очередь, перегружает эти узлы, вызывая их сбой, что приводит к сбою дополнительных узлов один за другим.
Каскадный отказ распространен в электрических сетях , когда один из элементов выходит из строя (полностью или частично) и нагрузка переносится на близлежащие элементы системы. Затем эти близлежащие элементы выходят за пределы своих возможностей, поэтому они перегружаются и перекладывают свою нагрузку на другие элементы. Каскадный отказ — это распространенный эффект, наблюдаемый в системах высокого напряжения , где единственная точка отказа (SPF) в полностью или слегка перегруженной системе приводит к внезапному скачку напряжения во всех узлах системы. Этот импульсный ток может привести к выходу из строя уже перегруженных узлов, вызывая новые перегрузки и тем самым выводя из строя всю систему за очень короткое время.
Этот процесс отказа распространяется по элементам системы, как рябь по пруду, и продолжается до тех пор, пока практически все элементы системы не будут скомпрометированы и/или система не станет функционально отключена от источника своей нагрузки. Например, при определенных условиях крупная электросеть может разрушиться после выхода из строя одного трансформатора.
Мониторинг работы системы в режиме реального времени и разумное отключение частей могут помочь остановить каскад. Другой распространенный метод заключается в расчете запаса безопасности системы путем компьютерного моделирования возможных сбоев, установлении безопасных рабочих уровней, ниже которых, по прогнозам, ни один из рассчитанных сценариев не приведет к каскадному сбою, и определении частей сети, которые наиболее вероятны. вызвать каскадные сбои. [3]
Одна из основных проблем предотвращения сбоев в электрической сети заключается в том, что скорость управляющего сигнала не превышает скорость распространения перегрузки по мощности, т. е. поскольку и управляющий сигнал, и электрическая мощность движутся с одинаковой скоростью, это недопустимо. можно изолировать сбой, заранее отправив предупреждение для изоляции элемента.
Каскадный сбой привел к следующим отключениям электроэнергии :
Каскадные сбои также могут возникать в компьютерных сетях (таких как Интернет ), в которых сетевой трафик серьезно нарушен или остановлен в больших участках сети или между ними из-за сбоя или отключения оборудования или программного обеспечения. В этом контексте каскадный отказ известен под термином « каскадный отказ» . Каскадный сбой может повлиять на большие группы людей и системы.
Причиной каскадного сбоя обычно является перегрузка одного важного маршрутизатора или узла, что приводит к выходу узла из строя, даже на короткое время. Это также может быть вызвано отключением узла для обслуживания или обновления. В любом случае трафик направляется по другому (альтернативному) пути или через него. В результате этот альтернативный путь оказывается перегруженным, что приводит к его сбою и так далее. Это также повлияет на системы, регулярная работа которых зависит от узла.
К симптомам каскадного сбоя относятся: потеря пакетов и высокая задержка в сети не только для отдельных систем, но и для целых участков сети или Интернета. Высокая задержка и потеря пакетов вызваны тем, что узлы не работают из-за коллапса перегрузки , из-за чего они все еще присутствуют в сети, но без какой-либо полезной связи, проходящей через них. В результате маршруты по-прежнему можно считать действительными, хотя они фактически не обеспечивают связь.
Если из-за каскадного сбоя выйдет из строя достаточное количество маршрутов, весь участок сети или Интернета может стать недоступным. Хотя это и нежелательно, это может помочь ускорить восстановление после этого сбоя, поскольку время соединения истечет, и другие узлы откажутся от попыток установить соединения с разделом(ами), которые были отключены, что снизит нагрузку на задействованные узлы.
Распространенным явлением во время каскадного отказа является ходячий отказ , при котором секции выходят из строя, что приводит к выходу из строя следующей секции, после чего первая секция снова поднимается. Эта пульсация может совершить несколько проходов по одним и тем же участкам или соединительным узлам, прежде чем стабильность восстановится.
Каскадные сбои появились сравнительно недавно, в связи с массовым увеличением трафика и высокой степенью взаимосвязи между системами и сетями. Этот термин был впервые применен в этом контексте в конце 1990-х годов голландским ИТ-специалистом и постепенно стал относительно распространенным термином для обозначения такого рода крупномасштабных сбоев. [ нужна цитата ]
Сбои в сети обычно начинаются с выхода из строя одного узла сети. Первоначально трафик, который обычно проходит через узел, останавливается. Системы и пользователи получают ошибки о невозможности связаться с хостами. Обычно резервные системы интернет-провайдера реагируют очень быстро, выбирая другой путь через другую магистраль. Путь маршрутизации по этому альтернативному маршруту длиннее, с большим количеством переходов и, следовательно, через большее количество систем, которые обычно не обрабатывают внезапно предлагаемый объем трафика.
Это может привести к выходу из строя одной или нескольких систем на альтернативном маршруте, что создаст аналогичные проблемы.
В этом случае также затрагиваются связанные системы. Например, разрешение DNS может дать сбой, и то, что обычно приводит к взаимодействию систем, может привести к разрыву соединений, которые даже не участвуют напрямую в реальных вышедших из строя системах. Это, в свою очередь, может привести к возникновению проблем на, казалось бы, несвязанных узлах, которые сами по себе могут вызвать еще один каскадный сбой.
В декабре 2012 года во всем мире произошла частичная потеря (40%) службы Gmail на 18 минут. Эта потеря обслуживания была вызвана регулярным обновлением программного обеспечения балансировки нагрузки, которое содержало ошибочную логику — в данном случае ошибка была вызвана логикой, использующей неподходящее «все» вместо более подходящего «некоторые». [4] Ошибка каскадирования была исправлена путем полного обновления одного узла в сети вместо частичного обновления всех узлов одновременно.
Некоторые несущие конструкции с отдельными структурными компонентами могут подвергаться «эффекту молнии», когда выход из строя одного элемента конструкции увеличивает нагрузку на соседние элементы. В случае обрушения дорожки Hyatt Regency подвесная дорожка (которая уже была перенапряжена из-за ошибки в конструкции) вышла из строя, когда вышел из строя один вертикальный подвесной стержень, перегружая соседние стержни, которые выходили из строя последовательно (т.е. как застежка- молния ). Мост, который может иметь такое разрушение, называется критическим изломом, и многочисленные обрушения мостов были вызваны выходом из строя одной части. Правильно спроектированные конструкции используют адекватный коэффициент безопасности и/или альтернативные пути нагрузки для предотвращения каскадного механического отказа этого типа. [5]
Каскад трещин — это явление в контексте геологии, описывающее запуск цепной реакции последующих трещин в результате одной трещины. [6] Первоначальный перелом приводит к распространению дополнительных трещин, вызывая каскадный эффект по всему материалу.
Каскадные разрушения могут возникать в различных материалах, включая камни, лед, металлы и керамику. [7] Распространенным примером является изгиб сухих спагетти , которые в большинстве случаев распадаются более чем на 2 части, как впервые заметил Ричард Фейнман . [7]
В контексте остеопороза каскад переломов представляет собой повышенный риск последующих переломов костей после первоначального. [8]
Биохимические каскады существуют в биологии, где даже небольшая реакция может иметь общесистемные последствия. Одним из негативных примеров является ишемический каскад , при котором небольшая ишемическая атака высвобождает токсины , которые убивают гораздо больше клеток, чем первоначальное повреждение, в результате чего выделяется больше токсинов. Текущие исследования направлены на то, чтобы найти способ заблокировать этот каскад у пациентов, перенесших инсульт , чтобы минимизировать ущерб.
При изучении вымирания иногда исчезновение одного вида приводит к исчезновению многих других видов. Такой вид известен как краеугольный вид .
Другим примером является генератор Кокрофта-Уолтона , который также может испытывать каскадные сбои, при которых один неисправный диод может привести к выходу из строя всех диодов за долю секунды.
Еще одним примером этого эффекта в научном эксперименте стал взрыв в 2001 году нескольких тысяч хрупких стеклянных фотоумножителей, использованных в эксперименте Супер-Камиоканде , где ударная волна, вызванная отказом одного детектора, по-видимому, вызвала взрыв другие детекторы в цепной реакции.
В финансах риск каскадных банкротств финансовых учреждений называется системным риском : банкротство одного финансового учреждения может привести к банкротству других финансовых учреждений (его контрагентов ), каскадно распространяясь по всей системе. Институты, которые, как считается, представляют собой системный риск, считаются либо « слишком большими, чтобы обанкротиться » (TBTF), либо «слишком взаимосвязанными, чтобы обанкротиться» (TICTF), в зависимости от того, почему они представляют угрозу.
Однако обратите внимание, что системный риск возникает не из-за отдельных институтов как таковых, а из-за их взаимосвязей. В исследовательской литературе были разработаны основы для изучения и прогнозирования последствий каскадных отказов. [9] [10] [11]
Похожий (хотя и отдельный) тип каскадных неудач в финансах происходит на фондовом рынке, примером которого является внезапный крах 2010 года . [11]
Различные инфраструктуры , такие как водоснабжение , транспорт , топливные и электростанции , связаны между собой и зависят друг от друга в функционировании, см. рис. 1. Из-за этой связи взаимозависимые сети чрезвычайно чувствительны к случайным сбоям и, в частности, к целенаправленным атакам . так что отказ небольшой части узлов в одной сети может вызвать итеративный каскад отказов в нескольких взаимозависимых сетях. [12] [13] Отключения электроэнергии часто возникают в результате каскада сбоев между взаимозависимыми сетями, и эта проблема ярко иллюстрируется несколькими крупномасштабными отключениями электроэнергии, которые произошли в последние годы. Отключения электроэнергии — это увлекательная демонстрация той важной роли, которую играют зависимости между сетями. Например, отключение электроэнергии в Италии в 2003 году привело к повсеместному выходу из строя железнодорожной сети , систем здравоохранения и финансовых услуг и, кроме того, серьезно повлияло на телекоммуникационные сети . Частичный отказ системы связи, в свою очередь, еще больше ухудшил работу системы управления электросетями , что вызвало положительную обратную связь в энергосистеме. [14] Этот пример подчеркивает, как взаимозависимость может значительно увеличить ущерб во взаимодействующей сетевой системе.
Моделью каскадных отказов из-за распространения перегрузки является модель Моттера – Лая. [15]
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )