Процесс Управления Непрерывностью ИТ-сервисов взаимодействует со всеми другими процессами ИТ Сервис-менеджмента, особенно с такими как:
   ? Управление Уровнем Сервиса: предоставляет информацию об обязательствах во предоставлению ИТ-услуг.
   ? Управление Доступностью: поддерживает процесс ITSCM в части разработки и внедрения пре­вентивных мер.
   ? Управление Конфигурациями: определяет базисные конфигурации и элементы ИТ-инфраструк­туры, информация о которых используется при восстановлении после чрезвычайной ситуации.
   ? Управление Возможностями: гарантирует поддержку требований бизнеса соответствующими ИТ-ресурсами.
   ? Управление Изменениями: обеспечивает правильность и актуальность всех планов в рамках про­цесса ITSCM благодаря вовлечению ITSCM в работу над всеми изменениями, которые могут по­влиять на превентивные меры и Планы восстановления.
    13.4. Виды деятельности
   На рис 13.1 показаны виды работ, выполняемые в рамках процесса ITSCM. Цифры обозначают под­разделы раздела 13.4, в которых описывается тот или иной вид деятельности.
 
   
   Рис. 13.1. Модель Процесса Управления Непрерывностью ИТ-Сервисов (на основе модели OGC)
 
    13.4.1. Определение охвата (области действия) [212] Процесса Управления Непрерывностью ИТ-сервисов
   При инициализации процесса ITSCM необходимо рассмотрение всей организации в целом и выпол­нение следующих действий:
   ? Определение политики – определение политики организации в отношении Управления Непре­рывностью ИТ-сервисов следует осуществить по возможности быстрее и довести ее до сведения каждого сотрудника организации, чтобы все знали о необходимости процесса ITSCM. Руководст­во должно продемонстрировать свое твердое намерение реализовать данный процесс.
   ? Определение области действия процесса и других важных для процесса областей – при выборе подхода к оценке риска и Анализу воздействия на бизнес (Business Impact Analysis) и методов их выполнения используются страховые требования, стандарты качества, такие как серия ISO-9000, стандарты Управления Безопасностью, например, BS7799 и общие принципы определения поли­тики в области бизнеса. На этом этапе также определяются соответствующая структура менедж­мента и процессов на случай чрезвычайной ситуации.
   ? Выделение ресурсов – развертывание ИТ-среды на случай чрезвычайных обстоятельств потре­бует значительных затрат на персонал и ресурсы. Должно быть проведено обучение персонала для подготовки к выполнению второго этапа процесса ITSCM (Требования и стратегия).
   ? Подготовка проектной организации – рекомендуется использовать формальные методы Управ­ления Проектом, такие как PRINCE 2, совместно с программным обеспечением, предназначенным для целей планирования.
    13.4.2. Анализ воздействия на бизнес [213]
   Перед проведением анализа ИТ-услуг рекомендуется установить причины, почему компании необ­ходимо включать Процесс Управления Непрерывностью ИТ-сервисов в общий Процесс Управле­ния Непрерывностью Бизнеса, и определить потенциальное воздействие серьезных сбоев услуг. В некоторых случаях при возникновении чрезвычайной ситуации бизнес некоторое время еще может функционировать, и тогда основное внимание уделяется восстановлению услуг, в других случаях бизнес не может работать без ИТ-услуг, поэтому основное внимание уделяется предотвращению чрезвычайных ситуаций. В большинстве случаев необходимо найти баланс между этими двумя крайностями.
   Среди возможных причин внедрения этого процесса могут быть следующие:
   ? защита бизнес-процессов;
   ? быстрое восстановление сервиса;
   ? необходимость выдержать конкуренцию;
   ? сохранение позиций на рынке;
   ? сохранение прибыльности;
   ? защита репутации компании.
   Эти причины могут быть комбинированы. В финансовой сфере, например, в торговле валютными средствами, отсутствие информации о рынке ведет к приостановке торговли (основного бизнес-про­цесса), что означает потерю денег. Более того, если существует государственное требование регист­рировать все валютные операции с использованием специализированной системы, то можно про­должать ведение бизнеса даже в случае повреждения этой системы, но рано или поздно это требова­ние все равно будет нарушено, и тогда возможно наложение штрафа. В обоих случаях компания мо­жет потерять заказчиков и свои позиции на рынке.
    Анализ сервисов
   После того, как определена необходимость внедрения Процесса Управления Непрерывностью ИТ-сервисов, следует провести анализ ИТ-услуг, необходимых для бизнеса (например, информацион­ные системы, офисные приложения, бухгалтерские приложения, электронная почта и т. д.), которые должны быть доступны в соответствии Соглашениям об Уровне Сервиса. Для некоторых услуг не­высокой значимости могут быть достигнуты договоренности о предоставлении экстренного сервиса с ограниченными возможностями и доступностью. Уровни Сервиса во время восстановления могут быть изменены только по договоренности с заказчиком. Для критически важных услуг необходимо найти компромисс между превентивными мерами и способами восстановления.
    Инфраструктура
   После анализа сервисов выполняется оценка зависимостей между сервисами и ИТ-ресурсами. Ин­формация из Процесса Управления Доступностью используется для анализа степени критичности ИТ-ресурсов для поддержки описанных ранее ИТ-услуг. Процесс Управления Возможностями пре­доставляет информацию о необходимых мощностях, а также помогает определить, на какое время эти услуги могут быть приостановлены с момента сбоя сервиса до его восстановления. В последст­вии такая информация может быть использована для определения способов восстановления по каж­дой услуге.
   13.4.3. Оценка рисков
   Официальная статистика по чрезвычайным ситуациям отсутствует, но во всем мире известны такие катастрофы, как:
 

Отравление газом Токийское метро, Япония (март 1995)
Отключение электроэнергии Окланд, Новая Зеландия (декабрь 1997)
Землетрясения Лос-Анджелес, США (январь 1994)
Кобе, Япония (январь 1995)
Атаки террористов Всемирный торговый центр, Нью-Йорк, США (февраль 1993)
Бишопсгейт, Лондон, Англия (апрель 1993)
Оклахома-сити, Оклахома, США (апрель 1995)
Доклэндс, Лондон, Англия (февраль 1996)
Манчестер, Англия (июнь 1996)
Всемирный торговый центр, Нью-Йорк, США (сентябрь 2001)
Наводнения Бангладеш (июль 1996)
Пакистан (август 1996)

 
   Анализ рисков способен помочь в определении рисков, угрожающих бизнесу. Такой анализ дает цен­ную информацию руководству, т. к. он позволяет выявить вероятные угрозы и виды уязвимости и определить соответствующие превентивные меры. Поскольку поддержка Плана восстановления по­сле чрезвычайной ситуации является относительно дорогим мероприятием, то сначала можно вос­пользоваться превентивными мерами. После того, как такие меры предприняты против наиболее серьезных рисков, следует определить, остались ли еще риски, для которых необходим План обеспе­чения непрерывности работы (Contingency Plan). На рис. 13.2 показаны связи между Анализом рис­ков и Управлением Рисками; они основываются на методе Анализа и Управления Рисками, разрабо­танного ассоциацией CCTA (CCTA Risk Analysis and Management Method – CRAMM).
 
   
   Рис. 13.2. Метод оценки рисков ассоциации CCTA (источник: OGC)
 
   Данная модель позволяет поддерживать эффективное планирование на случай чрезвычайных обсто­ятельств путем реализации поэтапного подхода.
    Анализ рисков
   ? Во-первых, должны быть определены вовлеченные компоненты (активы), такие как здания, сис­темы, данные и т. д. Эффективная идентификация активов требует определения владельцев и на­значения активов.
   ? Следующий этап – анализ угроз и зависимостей, а также оценка вероятности возникновения чрезвычайной ситуации (высокая, средняя, низкая), например, комбинация ненадежной системы энергоснабжения и района с большим количеством бурь и гроз.
   ? Далее – идентификация и классификация (высокая, средняя, низкая) уязвимостей. Молниеотвод может дать некоторую защиту от ударов молний, но они все же могут серьезно повлиять на работу сети и систем.
   ? И последний этап – оценка угроз и уязвимостей в контексте ИТ-компонентов для получения оценки риска.
   При оценке риска следует учитывать область действия [214]процесса; фактически такая оценка является частью начала внедрения Процесса Управления Непрерывностью ИТ-сервисов (этап 1). Например, незначительные проблемы можно решить с помощью мер, принимаемых Процессом Управления До­ступностью, в то время как другие риски для бизнеса могут выходить за сферу действия процесса ITSCM.
    13.4.4. Стратегия обеспечения непрерывности ИТ-сервисов
   Многие направления бизнеса стараются найти равновесие между сокращением степени риска и пла­нированием работ по восстановлению. Следует понимать разницу между такими понятиями, как со­кращение риска, работы по восстановлению бизнес-деятельности и способы восстановления ИТ. Ниже обсуждается связь между сокращением степени риска (предотвращение) и планированием восстановления (способы восстановления).
   Угрозы никогда нельзя устранить полностью. Например, пожар в соседнем здании может повредить ваше здание. Уменьшение одного вида риска может вызвать повышение другого. Например, аутсор­синг может привести к повышению рисков в области безопасности.
    Превентивные меры
   Превентивные меры можно принимать на основе анализа рисков при тщательном учете затрат и ри­сков. Такие меры могут помочь в уменьшении вероятности непредвиденных обстоятельств или сте­пени их воздействия, и тем самым сократить сферу действия Плана восстановления. Превентивные меры действенны против пыли, чрезвычайно высоких или низких температур, пожаров, утечек во­ды, прекращения энергоснабжения и воровства. Остальные виды рисков будут учтены в Плане вос­становления.
   Метод "Неприступной крепости" [215]является самой дорогой превентивной мерой. Он позволяет уст­ранить большинство видов уязвимости, например, путем строительства бункера с собственным энерго- и водоснабжением. Однако такой подход может привести к появлению других уязвимых мест, например, риску сбоя сети или появлению пробок на дорогах, что только затруднит восстанов­ление. Подход "Неприступной крепости" пригоден для крупных вычислительных центров, которые слишком сложны для разработки для них Плана восстановления. В наше время важно дополнять данный подход возможностью быстрого реагирования [216], т. е. возможностью направляться туда, где есть проблема, и быстро ее решать, пока она не вышла из-под контроля.
    Выбор способов восстановления [217]
   Если остались еще виды рисков, которые не удалось устранить с помощью превентивных мер, тогда для них производится планирование восстановления. Способы восстановления должны включать в себя:
   ? Персонал и размещение – помещение, мебель, транспорт, способ перемещения и т. д.
   ? ИТ-системы и сети – способы восстановления будут обсуждаться ниже.
   ? Вспомогательные службы – электро- и водоснабжение, телефон, почта и курьерская связь.
   ? Архивы – дела, документы, архив на бумажных носителях и справочные материалы.
   ? Услуги сторонних организаций – таких, как поставщиков услуг электронной почты и Интернета.
   Существует несколько способов для быстрого восстановления ИТ-услуг:
   ? Ничего не делать – лишь немногие бизнес-организации могут себе это позволить. Это больше на­поминает стремление уйти от проблем, устраниться от решения. Подразделения, которые думают, что могут обойтись без средств восстановления ИТ-сервиса, создают о себе впечатление, как о структурах, ничего не значащих для целей бизнеса, которые могут не потребоваться в случае чрез­вычайной ситуации. Тем не менее для каждого ИТ-сервиса должна быть рассмотрена такая возможность.
   ? Возврат к ручной (на основе бумажных носителей) системе – этот способ обычно не подходит для услуг, критически важных для бизнеса, поскольку трудно найти достаточное количество пер­сонала, имеющего опыт работы с традиционными системами. Более того, бумажные системы, существовавшие в прошлом, теперь могут уже не существовать. Тем не менее такие системы можно использовать для менее важных, второстепенных услуг. Большинство планов восстановления включают в себя процедуры резервного копирования на бумажные носители. Например, способом восстановления для терминала кредитных карт может быть использование бумажных оттисков (слипов) с кредитных карт.
   ? Взаимные соглашения – этот способ можно использовать в том случае, когда две организации ис­пользуют одинаковое аппаратное обеспечение и между ними существует договоренность о предос­тавлении друг другу необходимых устройств в случае возникновения чрезвычайных обстоятельств. Для данного способа две бизнес-структуры должны заключить соглашение и координи­ровать все изменения, с тем, чтобы сохранить взаимозаменяемость двух сред. Процесс Управления Возможностями должен следить за тем, чтобы зарезервированные возможности не использова­лись для других целей или чтобы их можно было быстро освободить. В настоящее время этот спо­соб не очень привлекателен из-за роста использования онлайновых систем, таких как сети банко­матов (ATM) и онлайновые банковские системы для клиентов, т.к. эти системы должны быть до­ступны круглосуточно в течение всего времени.
   ? Поэтапное восстановление ("холодный" резервный центр [218]) – этот способ можно использо­вать в тех сферах бизнеса, где можно обойтись без ИТ-услуг в течение определенного периода времени, например, 72-х часов. При использовании данного способа заказчику предоставляется свободный компьютерный зал на заранее оговоренной территории, стационарный центр [219]или мобильная компьютерная комната, доставляемая на место расположения компании, - мобиль­ный центр [220]. Такой компьютерный центр должен быть снабжен электропитанием, кондиционером, сетевыми коммуникациями и телефонной связью. Данный способ может быть предостав­лен по договору с внешним поставщиком. Кроме того, необходимо отдельное соглашение с по­ставщиком, гарантирующее быструю доставку ИТ-компонент. Общее преимущество такого под­хода состоит в том, что эти средства восстановления доступны всегда. Кроме того, для стацио­нарного и мобильного компьютерного центра преимущества и недостатки различаются и зави­сят от таких аспектов, как:
   ? Расстояние до центра – обычно существует ограниченное количество поставщиков, предостав­ляющих услуги стационарного центра, и он может находиться на некотором расстоянии от за­казчика. Этот недостаток может быть компенсирован использованием мобильной станции.
   ? Время – стационарные залы доступны лишь на определенное время.
   ? Задержка – в любом случае доставка необходимого компьютерного оборудования занимает оп­ределенное время.
   ? Сеть – часто возникают трудности с предоставлением нужных телекоммуникационных средств. Оборудование передвижной станции можно подсоединить к сети в основном использу­емом здании.
   ? Промежуточное восстановление ("теплый" резерв [221]) – данный способ обеспечивает доступ к ана­логичной операционной среде, в которой можно восстановить обычное предоставление услуг в те­чение короткого промежутка времени (от 24 до 72 часов). Существует три варианта этого способа:
   ? Внутренний (совместное устранение неисправности): применим в тех случаях, когда бизнес рас­полагается на нескольких площадках или имеет выделенную среду тестирования, которую мож­но использовать в качестве рабочей среды. Данный способ обеспечивает полное восстановление при минимальных затратах времени на переключение. В организациях с несколькими распреде­ленными системами часто используется один из вариантов этого подхода, когда на каждой сис­теме резервируется часть требуемых мощностей. Мониторинг таких свободных мощностей осу­ществляется Процессом Управления Мощностями (аналогично варианту использования взаим­ных соглашений – см. выше).
   ? Внешний: некоторые поставщики услуг предлагают этот способ как коммерческую услугу. При этом затраты распределяются между несколькими заказчиками. Расходы по данному варианту зависят от того, какое программное и аппаратное обеспечение потребуется, на какой период вре­мени будут предоставляться средства (например, на 16 недель). Часто этот способ помогает со­хранить работоспособность на период времени, в течение которого активируется "холодный" резервный центр. Данный вариант способа промежуточного восстановления относительно доро­гостоящий и предоставленный центр, скорее всего, будет находиться на некотором удалении от основной территории.
   ? Мобильный: в данном варианте готовая к работе инфраструктура размешается в трейлере, кото­рый используется как компьютерный зал и оборудован устройствами контроля за окружающей средой, такими как кондиционеры. У ИТ-организации должно быть место для парковки такого трейлера. В специально выделенных пунктах на некотором расстоянии от основного здания должны быть предусмотрены источники электропитания, телекоммуникационные каналы и хранилище данных. Преимуществами такой версии являются быстрое время реагирования и близость к месту расположения компании. Данный способ доступен только для ограниченного числа технических платформ. Некоторые крупные поставщики оборудования предлагают не­сколько трейлеров со стандартными конфигурациями аппаратного обеспечения. В согласован­ный момент времени, например, раз в год, такой трейлер направляется к месту расположения бизнеса для проверки Плана восстановления. Кроме того, такая процедура позволяет произве­сти тестирование перехода [222]на новую версию операционной системы.
   ? Немедленное восстановление ("горячий" старт, "горячее" восстановление [223]) – данный способ обеспечивает немедленное или очень быстрое восстановление работы менее чем за 24 часа путем предоставления идентичной рабочей среды и зеркального отображения данных, а возможно, и ра­бочих процессов. Последний вариант обычно разрабатывается при тесном взаимодействии с Про­цессом Управления Доступностью.
   ? Комбинации способов – часто План на случай чрезвычайных обстоятельств [224]включает в себя бо­лее дорогой способ восстановления, который используется до активизации более дешевого вари­анта. Например, трейлер, оборудованный как передвижной вычислительный центр (мобильный "горячий" старт), может служить временным решением до тех пор, пока не приедет мобильный центр и не будут доставлены новые главные сервера [225](передвижной «холодный" старт). Нормаль­ная работа будет возобновлена после восстановления здания и установки в нем новых главных компьютеров.
    13.4.5. Организация процесса и планирование внедрения
   После того, как определена стратегия бизнеса и сделан выбор одного из перечисленных способов восстановления, необходимо переходить к реализации Процесса Управления Непрерывностью ИТ-сервисов и разработки детальных планов для использования выбранных средств восстановления. Реализацией процесса ITSCM должна заниматься специальная группа. Ее организация может вклю­чать в себя назначение руководителя (Руководитель на случай кризисной ситуации [226]), координацию работ и формирование восстановительных команд каждого сервиса.
   На самом высоком уровне должен быть разработан общий план, охватывающий следующие вопросы:
   ? План экстренного реагирования;
   ? План оценки повреждений;
   ? План восстановления работы;
   ? План работы с важными данными (что делать с данными, включая записи на бумажных носителях);
   ? План руководства на случай кризисной ситуации и связь с общественностью (PR).
   Все эти планы используются для оценки экстренных ситуаций и определения мер реагирования на них. После этого можно принимать решение об инициировании процесса восстановления бизнеса, при котором начинают действовать планы следующего уровня, включающие:
   ? План размещения и оказания услуг;
   ? План по вычислительным системам и локальным сетям;
   ? План по телекоммуникациям (доступ и каналы связи);
   ? План обеспечения безопасности (целостность данных и сетей);
   ? План по персоналу;
   ? Финансовые и административные планы.
    13.4.6. Применение превентивных мер и способов восстановления
   Этот этап заключается в практическом воплощении определенных ранее превентивных мер и спосо­бов восстановления. Превентивные меры по уменьшению степени воздействия предпринимаются совместно с деятельностью в рамках Процесса Управления Доступностью и могут включать:
   ? Использование бесперебойных источников питания и резервных источников электропитания;
   ? Использование отказоустойчивых систем [227];
   Использование удаленных систем хранения данных и RAID-массивов и т. д.
   Также должен быть объявлен стартовый срок для активизации резервных соглашений, включающих персонал, здания и телекоммуникации. Даже еще во время действия непредвиденных обстоятельств уже можно начинать работы по восстановлению нормальной деятельности и заказу новых ИТ-ком­понентов. Рамочные неактивированные ("дремлющие") договоры на такой случай могут быть за­ключены с поставщиками заранее. В этом случае уже будут подписаны заказы на поставку компо­нентов по согласованной ранее цене. В случае чрезвычайной ситуации поставщик будет исполнять заказ без необходимости обсуждения его пены. Такие неактивированные ("дремлющие") договоры следует пересматривать каждый год, т. к. цены и модели технических средств могут изменяться. При корректировке договоров следует учитывать базисные конфигурации, зарегистрированные в рамках Процесса Управления Конфигурациями. При подготовке резервных соглашений могут осуществляться следующие виды деятельности:
   ? ведение переговоров со сторонними организациями по вопросам удаленных средств восстановле­ния;
   ? поддержка и оснащение средств восстановления;
   ? закупка и установка резервного аппаратного обеспечения (неактивированные договоры);
   ? управление неактивированными ("дремлющими") договорами.
    13.4.7. Разработка планов и процедур восстановления
   Планы должны быть разработаны в деталях и стать официальными документами, т. к. Планы восста­новления требуют поддержки, и все изменения в них должны согласовываться заинтересованными сторонами. Эта информация также должна доводиться до сведения всех участников. Основные проб­лемы связаны с изменениями в инфраструктуре и Изменениями Уровней Сервиса. Например, пере­ход на новую платформу среднего класса [228]может привести к тому, что не будет эквивалентного обору­дования в резервном центре "теплого", внешнего старта. По этой причине Процесс Управления Кон­фигурациями играет важную роль в мониторинге базисных конфигураций с учетом Плана восстанов­ления. В плане также должны быть определены процедуры, необходимые для его выполнения.
    План восстановления
   План восстановления должен включать все виды деятельности по восстановлению бизнес-активно­сти и ИТ-услуг:
   ? Введение – описание структуры плана и предполагаемых средств восстановления.
   ? Обновление – описание процедур и соглашений по поддержке актуальности плана и отслежива­нию изменений в инфраструктуре.
   ? Маршрутный лист – план делится на разделы, каждый из которых определяет действия, выпол­няемые конкретной группой специалистов. Маршрутный лист показывает, какие разделы плана должны быть направлены в каждую группу.
   ? Начало восстановления – описание времени и условий начала действия плана.
   ? Классификация чрезвычайных обстоятельств – если в плане дается описание процедур на слу­чай различных чрезвычайных обстоятельств, то они должны быть описаны с точки зрения их серьезности (незначительные, среднего уровня серьезности, серьезные), длительности (день, неде­ля, месяцы) и уровня повреждений (незначительные, ограниченные, серьезные).
   ? Разделы для участвующих групп специалистов – план должен быть разделен на шесть разде­лов – по количеству областей действия и закрепленных на за ними групп специалистов:
   ? Администрация – как и когда вводить план в действие, какие руководители и специалисты уча­ствуют в нем, где находиться центр управления?
   ? ИТ-инфраструктура – аппаратное и программное обеспечение, телекоммуникационные сред­ства, включенные в систему восстановления и соответствующие процедуры, а также неактивированные ("дремлющие") договоры на закупку новых ИТ-компонентов.
   ? Персонал – персонал, необходимый для работы в резервном центре, возможно, средства транс­портировки и размещение персонала, если резервный центр расположен удалено от основного месторасположения.