Рис. 4.3. Эскалация инцидента (источник: OGC)
 
    4.2. Цель
   Целью Процесса Управления Инцидентами является скорейшее восстановление нормального Уров­ня Услуг, определенного в Соглашении об Уровне Услуг (Service Level Agreement – SLA), с мини­мальными возможными потерями для бизнес-деятельности организации и пользователей. Кроме то­го, Процесс Управления Инцидентами должен вести точную регистрацию инцидентов для оценки и совершенствования процесса и предоставления необходимой информации для других процессов.
    4.2.1. Преимущества использования процесса
   ? Для бизнеса в целом:
   ? своевременное разрешение инцидентов, ведущее к уменьшению потерь для бизнеса;
   ? повышение производительности работы пользователей;
   ? независимый, ориентированный на потребности заказчика мониторинг инцидентов;
   ? доступность объективной информации о соответствии предоставляемых услуг согласованным договоренностям (SLA).
   ? Для ИТ-организации:
   ? улучшенный мониторинг, позволяющий проводить точное сопоставление уровня производи­тельности ИТ-систем с соглашениями (SLA);
   ? эффективное руководство и мониторинг выполнения соглашений (SLA) на основе достоверной информации;
   ? эффективное использование персонала;
   ? предотвращение потерь инцидентов и Запросов на Обслуживание или их неправильной регистрации;
   ? повышение точности информации в Конфигурационной Базе Данных (Configuration Manage­ment Database – CMDB) за счет ее проверки при регистрации инцидентов в привязке к Конфи­гурационным Единицам (Configuration Item – CI);
   ? повышение удовлетворенности пользователей и заказчиков.
   Отказ от использования Процесса Управления Инцидентами может привести к следующим отрицательным последствиям:
   ? инциденты могут быть потеряны или, наоборот, необоснованно восприняты как чрезвычайно серьезные из-за отсутствия ответственных за мониторинг и эскалацию, что может привести к сни­жению общего уровня обслуживания;
   ? пользователи могут перенаправляться к одним и тем же специалистам "по кругу" без успешного разрешения инцидента;
   ? специалисты могут постоянно отрываться от работы телефонными звонками пользователей, из-за чего им становится трудно эффективно выполнять свою работу;
   ? могут возникать ситуации, когда несколько человек будут работать над одним и тем же инцидентом, непродуктивно теряя время, и примут противоречивые решения;
   ? может ощущаться недостаток информации о пользователях и предоставляемых услугах, необходи­мой для принятия руководящих решений;
   ? из-за указанных выше возможных проблем затраты компании и ИТ-организации на поддержку услуг будут выше, чем реально требуется.
    4.3. Процесс
   На рис. 4.4 показаны входы и выходы процесса, а также виды деятельности, которые охватывает этот процесс.
 
   
 
   Рис. 4.4. Положение Процесса Управления Инцидентами
 
    4.3.1. Входы процесса
   Инциденты могут возникнуть в любой части инфраструктуры. Часто о них сообщают пользовате­ли, но возможно их обнаружение и сотрудниками других отделов, а также автоматическими систе­мами управления, настроенными на регистрацию событий в приложениях и технической инфра­структуре.
    4.3.2. Управление конфигурациями
   Конфигурационная База Данных (Configuration Management Database - CMDB) играет важную роль в Управлении Инцидентами, так как она определяет связь между ресурсами, услугами, пользо­вателями и Уровнями Услуг (сервисов). Например, Управление Конфигурациями показывает, кто является ответственным за компонент инфраструктуры, что делает возможным более эффективное распределение инцидентов по группам специалистов. Кроме того, эта база данных помогает решать оперативные вопросы, например, перенаправление очереди печати или переключение пользователя на другой сервер. При регистрации инцидента в регистрационные данные добавляется связь (link) с соответствующей Конфигурационной Единицей (Configuration Item – CI), позволяющая предоста­вить более подробную информацию об источнике ошибки. В случае необходимости может быть об­новлен статус соответствующей компоненты в CMDB.
    4.3.3. Управление Проблемами
   Эффективное Управление Проблемами требует качественной регистрации инцидентов, что значи­тельно облегчит поиск корневых причин. С другой стороны, Управление Проблемами помогает Процессу Управления Инцидентами, предоставляя информацию о проблемах, известных ошибках, обходных решениях и быстрых исправлениях [66].
    4.3.4. Управление Изменениями
   Инциденты могут быть решены путем внесения изменений, например, заменой монитора. Управле­ние Изменениями предоставляет Процессу Управления Инцидентами информацию о запланиро­ванных изменениях и их статусах. Кроме того, изменения могут вызвать инциденты, если изменения произведены неправильно или содержат ошибки. Процесс Управления Изменениями получает ин­формацию о них из Процесса Управления Инцидентами.
    4.3.5. Управление Уровнем Услуг
   Управление Уровнем Услуг контролирует выполнение договоренностей (соглашений – SLA) с за­казчиком о предоставляемой ему поддержке. Сотрудники, участвующие в Управлении Инцидента­ми должны хорошо знать эти соглашения, чтобы использовать необходимую информацию при кон­тактах с пользователями. Кроме того, регистрационные данные об инцидентах требуются при соста­влении отчетов для проверки выполнения согласованного Уровня Услуг.
    4.3.6. Управление Доступностью
   Для определения показателей доступности услуг Процесс Управления Доступностью использует ре­гистрационные данные об инцидентах и данные мониторинга статуса, предоставляемые Процессом Управления Конфигурациями. Аналогично Конфигурационной Единице (CI) в Конфигурационной Базе Данных (CMDB), сервису (услуге) может быть также назначен статус "не работает" [67]. Это мо­жет быть использовано для проверки действительных показателей доступности услуги и времени реагирования поставщика. При осуществлении такой проверки необходима фиксация времени дей­ствий, произошедших в процессе обработки инцидента, от момента обнаружения и до закрытия.
    4.3.7. Управление мощностями
   Процесс Управления Мощностями получает информацию об инцидентах, связанных с функционированием самих ИТ-систем, например, инцидентах, произошедших в связи с недостатком дискового пространства или медленной скоростью реакции и т.д. В свою очередь, информация об этих инцидентах может поступать в Процесс Управления Инцидентами от системного администратора или от самой системы на основе мониторинга своего состояния.
   Ни рис. 4.5. показаны этапы процесса:
 
   
 
   Рис. 4.5. Процесс Управления Инцидентами
 
   ? Прием и регистрация инцидента (Acceptance and Recording) – принимается сообщение и создается запись об инциденте.
   ? Классификация и начальная поддержка (Classification and Initial Support) – присваиваются тип, статус, степень воздействия, срочность, приоритет инцидента, SLA и т.п. Пользователю может быть предложено возможное решение, даже если оно только временное.
   ? Если вызов касается Запроса на Обслуживание (Service Request), то инициируется соответствующая процедура.
   ? Привязка (или сопоставление – Matching) – проверяется, не является ли инцидент уже извест­ным инцидентом или известной ошибкой, нет ли для него уже открытой проблемы, и нет ли для него известного решения или обходного пути.
   ? Расследование и диагностика (Investigation and Diagnosis) – при отсутствии известного реше­ния производится исследование инцидента с целью как можно быстрее восстановить нормальную работу.
   ? Решение и восстановление (Resolution and Recovery) – если решение найдено, то работа может быть восстановлена.
   ? Закрытие (Closure) – с пользователем связываются, чтобы он подтвердил согласие с предложен­ным решением, после чего инцидент может быть закрыт.
   ? Мониторинг хода работ и отслеживание (Progress monitoring and Tracking) – весь цикл обработ­ки инцидента контролируется, и если инцидент не может быть разрешен вовремя, производится эскалация.
    4.4. Виды деятельности
    4.4.1. Прием и регистрация
   В большинстве случаев инциденты регистрируются Службой Service Desk, куда поступают сообще­ния о них. Регистрация всех инцидентов должна производиться немедленно после поступления со­общения по следующим причинам:
   ? трудно произвести точную регистрацию информации об инциденте, если это не сделано сразу;
   ? мониторинг хода работ по решению инцидента возможен, только если инцидент зарегистрирован;
   ? зарегистрированные инциденты помогают при диагностике новых инцидентов;
   ? Управление Проблемами может использовать зарегистрированные инциденты при работе над по­иском корневых причин;
   ? легче определить степень воздействия, если все сообщения (звонки) зарегистрированы;
   ? без регистрации инцидентов невозможно контролировать исполнение договоренностей (SLA);
   ? немедленная регистрация инцидентов предотвращает ситуации, когда или несколько человек ра­ботают над одним звонком, или никто ничего не делает для разрешения инцидента.
   Место обнаружения инцидента определяется по признаку, откуда пришло сообщение о нем. Инци­денты могут быть обнаружены следующим образом:
   ? Обнаружен пользователем: он докладывает об инциденте в Службу Service Desk.
   ? Обнаружен системой: при обнаружении события в приложении или технической инфраструкту­ре, например, при превышении критического порога, событие регистрируется как инцидент в сис­теме регистрации инцидентов и, при необходимости, направляется в группу поддержки.
   ? Обнаружен сотрудником Службы Service Desk: сотрудник производит регистрацию инцидента.
   ? Обнаружен кем-либо в другом подразделении ИТ: этот специалист регистрирует инцидент в сис­теме регистрации инцидентов или докладывает о нем в Службу Service Desk.
   Необходимо избегать двойной регистрации одного инцидента. Поэтому при регистрации инцидента следует проверить, нет ли аналогичных открытых инцидентов:
   ? Если есть (и они касаются того же инцидента), информация об инциденте обновляется или же инцидент регистрируется отдельно и устанавливается связь (привязка) к главному инциденту; при необходимости изменяется степень воздействия и приоритет, и добавляется информация о новом пользователе.
   ? Если нет (отличается от открытого инцидента), производится регистрация нового инцидента.
   В обоих случаях продолжение процесса одинаково, хотя в первом случае последующие действия го­раздо проще.
   При регистрации инцидента производятся следующие действия:
   ? Назначение номера инцидента: в большинстве случаев система автоматически назначает новый (уникальный) номер инцидента. Часто этот номер сообщается пользователю, чтобы он мог ссылаться на него при дальнейших контактах.
   ? Запись базовой диагностической информации: время, признаки (симптомы), пользователь, сотрудник, принявший вопрос в обработку, место произошедшего инцидента и информация о затро­нутой услуге и/или технических средствах.
   ? Запись дополнительной информации об инциденте: добавляется информация, например, из скрипта (script) или процедуры опроса или из Конфигурационной Базы Данных – CMDB (обычно на основе взаимоотношений Конфигурационных Единиц, определенных в CMDB).
   ? Объявление сигнала тревоги: если происходит инцидент, имеющий высокую степень воздействия, например, сбой важного сервера, производится предупреждение других пользователей и ру­ководства.
    4.4.2. Классификация
   Классификация инцидентов направлена на определение его категории для облегчения мониторинга и составления отчетов. Желательно, чтобы опции классификации были как можно шире, но при этом требуется более высокий уровень ответственности персонала. Иногда пытаются объединить в одном перечне несколько аспектов классификации, таких, как тип, группа поддержки и источник. Это часто вносит путаницу. Лучше использовать несколько коротких перечней. В данном разделе рассматриваются вопросы, относящиеся к классификации.
    Категория
   Прежде всего, инцидентам присваивается категория и подкатегория, например, исходя из предпола­гаемого источника инцидента или соответствующей группы поддержки:
   ? Центральная процессинговая система – подсистема доступа, центральный сервер, приложение.
   ? Сеть – маршрутизаторы, сегменты, концентратор (hub), IP-адреса.
   ? Рабочая станция – монитор, сетевая карта, дисковод, клавиатура.
   ? Использование и функциональность – услуга (сервис), возможности системы, доступность, резервное копирование (back-up), документация.
   ? Организация и процедуры – заказ, запрос, поддержка, оповещение (коммуникации).
   ? Запрос на Обслуживание – запрос пользователя в Службу Service Desk на поддержку, предоставление информации, документации или оказание консультации. Это может быть выделено в отдельную процедуру или обработано таким же образом, как реальный инцидент.
    Приоритет
   После этого назначается приоритет, чтобы быть уверенными, что группа поддержки уделит инциденту необходимое внимание. Приоритет - это номер, определяющийся срочностью (насколько быстро это должно быть исправлено) и степенью воздействия (какой ущерб будет нанесен, если не исправить быстро).
   Приоритет = Срочность х Степень воздействия.
    Услуги (сервисы)
   Для определения услуг, подвергшихся воздействию инцидента, может быть использован перечень существующих договоренностей (соглашений) об Уровне Услуг – SLA. Этот перечень позволит также установить время эскалации для каждой из услуг, определенных в SLA.
    Группа поддержки
   Если Служба Service Desk не может разрешить инцидент незамедлительно, то определяется группа поддержки, которая будет заниматься разрешением инцидента. Основой для распределения (маршрутизации) инцидентов часто является информация о категориях. При определении категорий мо­жет потребоваться рассмотрение структуры групп поддержки. Правильное распределение инциден­тов имеет существенное значение для эффективности Процесса Управления Инцидентами. Поэтому одним из ключевых показателей эффективности [68](KPI) Процесса Управления Инцидентами может быть число неправильно распределенных обращений.
    Сроки решения
   С учетом приоритета и соглашения SLA пользователь информируется о максимальном расчетном времени разрешения инцидента. Эти сроки также фиксируются в системе.
    Идентификационный номер инцидента
   Абонент информируется о номере инцидента для его точной идентификации при последующих об­ращениях.
    Статус
   Статус инцидента указывает на его положение в процессе обработки инцидента. Примерами стату­сов могут быть:
   ? новый;
   ? принят;
   ? запланирован;
   ? назначен;
   ? активный;
   ? отложен;
   ? разрешен;
   ? закрыт.
    4.4.3. Привязка (сопоставление)
   После классификации проводится проверка, не возникал ли аналогичный инцидент ранее и нет ли готового решения или обходного пути. Если инцидент имеет те же признаки, что и открытая пробле­ма или известная ошибка, то может быть установлена связь с ними.
    4.4.4. Расследование и диагностика
   Служба Service Desk или группа поддержки направляет инциденты, не имеющие готового решения или выходящие за пределы компетенции работающего с ним сотрудника, группе поддержки следую­щего уровня с большим опытом и знаниями. Эта группа исследует и разрешает инцидент или напра­вляет его группе поддержки очередного уровня.
   В процессе разрешения инцидента различные специалисты могут обновлять регистрационную за­пись о нем, изменяя текущий статус, информацию о выполненных действиях, пересматривая клас­сификацию и обновляя время и код работавшего сотрудника.
    4.4.5. Решение и восстановление
   После успешного завершения анализа и разрешения инцидента сотрудник записывает решение в сис­тему. В некоторых случаях необходимо направить Запрос на Изменение (RFC) в Процесс Управления Изменениями. В наихудшем случае, если не найдено никакого решения, инцидент остается открытым.
    4.4.6. Закрытие
   После реализации решения, удовлетворяющего пользователя, группа поддержки направляет инцидент обратно в Службу Service Desk. Эта служба связывается с сотрудником, сообщившим об инциденте, с целью получения подтверждения об успешном решении вопроса. Если он это подтверждает, то инци­дент может быть закрыт; в противном случае процесс возобновляется на соответствующем уровне. При закрытии инцидента необходимо обновить данные об окончательной категории, приоритете, сервисах (услугах), подвергшихся воздействию инцидента и Конфигурационной Единице (CI), вызвавшей сбой.
    4.4.7. Мониторинг хода решения и отслеживание
   В большинстве случаев ответственной за мониторинг хода решения является Служба Service Desk, как "владелец" всех инцидентов. Эта служба должна также информировать пользователя о состоянии инцидента. Обратная связь с пользователем может быть уместной после изменения статуса, например, направлении инцидента на следующую линию поддержки, изменении расчет­ного времени решения, эскалации и т. д. Во время мониторинга возможна функциональная эска­лация к другим группам поддержки или иерархическая эскалация для принятия руководящих решений.
    4.5. Контроль процесса
   Основой контроля процесса являются отчеты для различных целевых групп. Руководитель Процес­са Управления Инцидентами является ответственным за эти отчеты, а также за составление списка рассылки и графика составления отчетов. Отчеты могут включать специализированную информацию для следующих функциональных подразделений:
   ? Руководителю Процесса Управления Инцидентами отчет необходим для:
   ? идентификации недостающих звеньев процесса;
   ? идентификации нарушений исполнения соглашений об Уровне Услуг (SLA);
   ? отслеживания хода выполнения процесса;
   ? определения тенденций развития.
   ? Руководство Линейными ИТ-подразделениями – отчет для руководства группы поддержки; он также может быть полезен в Управлении ИТ-подразделениями. Отчет должен содержать следую­щую информацию:
   ? прогресс в решении инцидентов;
   ? время разрешения инцидентов в различных группах поддержки.
   ? Управления Уровнем Сервисов (Услуг) – отчет должен, прежде всего, содержать информацию о качестве предоставляемых услуг. Руководитель Процесса Управления Уровнем Услуг должен получать всю информацию, необходимую для составления Отчетов об Уровне Услуг перед заказчиками. Отчеты для заказчиков должны предоставлять информацию о том, выполняются ли соглаше­ния в отношении Уровня Сервисов (услуг) в рамках Процесса Управления Инцидентами.
   ? Руководителей других процессов ИТ Сервис-менеджмента – отчеты для руководителей других процессов должны быть, в первую очередь, информативными, то есть содержать всю необходимую им информацию. Например, Процесс Управления Инцидентами на основе регистрационных запи­сей об инцидентах может предоставлять следующую информацию:
 
   ? число обнаруженных и зарегистрированных инцидентов;
   ? число разрешенных инцидентов, с разделением по времени разрешения;
   ? статус и число неразрешенных инцидентов;
   ? инциденты с разбивкой по периодам возникновения, группам заказчика, группам поддержки и временем разрешения в соответствии с соглашением (SLA);
   ? инциденты с разбивкой по категориям, приоритетам и группам поддержки и др.
   4.5.1. Критические факторы успеха
   Для успешного Управления Инцидентами необходимо следующее:
   ? Актуальная Конфигурационная База Данных (CMDB), помогающая оценить степень воздействия и срочность инцидентов. Эта информация также может быть получена от пользователя, но в этом случае она, возможно, будет менее полной и достаточно субъективной, что приведет к увеличе­нию времени разрешения инцидентов.
   ? База знаний [69]. Например, актуальная база данных по проблемам/известным ошибкам, описываю­щая способ распознавания инцидентов, имеющиеся решения и обходные пути. Она также может включать аналогичные базы знаний от поставщиков.
   ? Соответствующую автоматизированную систему регистрации, отслеживания и мониторинга ин­цидентов.
   Дополнительно необходимо тесное взаимодействие с Процессом Управления Уровнем Сервисов (Услуг) для определения требуемых приоритетов и времени разрешения инцидентов.
    4.5.2. Показатели эффективности [70]
   Для оценки производительности процесса необходимо четко определить контрольные параметры и измеряемые оценки, часто называемые показателями эффективности. Отчет по этим показателям производится регулярно, например раз в неделю, чтобы получить картину изменений, по которой можно было бы определить тенденции. Примерами таких параметров являются:
   ? общее количество инцидентов;
   ? среднее время разрешения инцидентов;
   ? среднее время разрешения инцидентов по приоритетам;
   ? среднее число инцидентов, разрешенных в рамках соглашений (SLA);
   ? процент инцидентов, разрешенных первой линией поддержки (без направления в другие группы);
   ? средняя стоимость поддержки на инцидент;
   ? число решенных инцидентов на одно рабочее место или на одного сотрудника службы Service Desk;
   ? инциденты, решенные без посещения пользователя (удаленно);
   ? число (или процент) инцидентов с первоначально некорректной классификацией;
   ? число (или процент) инцидентов, неправильно распределенных в группы поддержки.
    4.5.3. Функции и роли
   Реализация процессов проходит в горизонтальной плоскости через иерархическую структуру орга­низации. Это возможно только при четком определении ответственности и полномочий, связанных с реализацией процессов. Для повышения гибкости может быть использован ролевой подход (т.е. определение ролей). В небольших организациях или в целях снижения общих расходов возможно комбинирование ролей, например, совмещение ролей Руководителя Процессов Управления Изме­нениями и Управления Конфигурациями.
    Руководитель Процесса Управления Инцидентами
   Во многих организациях роль Руководителя Управления Инцидентами играет менеджер Службы Service Desk. В сферу ответственности Руководителя Процесса Управления Инцидентами включа­ется следующее:
   ? мониторинг эффективности и рациональности работы [71]процесса;
   ? контроль работы групп поддержки;
   ? составление рекомендаций по совершенствованию работы процесса;
   ? развитие и сопровождение системы Управления Инцидентами.
    Персонал групп поддержки
   ? Первая линия поддержки несет ответственность за регистрацию, классификацию, сопоставление (привязку), распределение по группам поддержки, разрешение и закрытие инцидентов.
   ? Остальные группы поддержки, прежде всего, принимают участие в расследовании, диагностике и разрешении инцидентов в рамках установленных приоритетов.
    4.6. Затраты и проблемы
    4.6.1. Затраты
   Затраты, связанные с Управлением Инцидентами, включают первоначальные затраты на внедрение (например, расходы на разработку процесса, обучение и инструктаж персонала), выбор и закупку инструментальных средств [72]поддержки процесса. Выбор инструментальных средств может занять значительное количество времени. Кроме того, существуют операционные расходы, связанные с оп­латой работы персонала и использованием инструментальных средств. Эти затраты во многом зави­сят от структуры Управления Инцидентами, диапазона видов деятельности, включенных в процесс, сфер ответственности и числа подразделений.
    4.6.2. Проблемы
   При внедрении Управления Инцидентами могут возникнуть следующие проблемы:
   ? Пользователи и ИТ-специалисты работают в обход процедур Управления Инцидентами – если пользователи будут устранять возникающие ошибки сами или напрямую связываться со специа­листами, не следуя установленным процедурам, ИТ-организация не получит информацию о реально предоставляемом Уровне Услуг, числе ошибок и многое другое. Отчеты руководству также не будут адекватно отражать ситуацию.
   ? Перегруженность инцидентами и откладывание "на потом" – при неожиданном росте количест­ва инцидентов для правильной регистрации может не оказаться достаточно времени, т. к. до окон­чания ввода информации об инциденте от одного пользователя возникает необходимость обслу­живать следующего. В этом случае ввод описания инцидентов может производиться недостаточно точно и процедуры по распределению инцидентов по группам поддержки не будут выполняться должным образом. В результате решения получаются некачественными и рабочая нагрузка увели­чивается еще больше. В случаях, если число открытых инцидентов начинает интенсивно расти, процедура экстренного выделения дополнительных ресурсов внутри организации может предотвратить перегрузку персонала.
   ? Эскалация – как известно, в рамках Процесса Управления Инцидентами возможна эскалация ин­цидентов. Слишком большое число эскалаций может оказать отрицательное воздействие на рабо­ту специалистов, которые из-за этого отрываются от своей запланированной работы.