Найти
экспертизу
  SNMP   Cisco   Microsoft   Windows   WMI   IP SLA   Маршрутизатор   Приказ Мининформсвязи №113
Регистрация
 

Красная Кнопка – диагностика инцидентов по-новому

  Сергей Юдицкий  |  04.04.2011  |    Комментарии: 0 к списку статей

Похоже, что восточная мудрость - сколько не говори: "халва, халва", во рту слаще не станет, с появлением НЛП уже не актуальна. Например, если каждый день слышать: "ITIL, ITIL", то через какое-то время начнешь верить, что процессный подход – это панацея от всех бед и как только его внедришь, то сразу наступит счастье. Ничего не имею против ITIL, отличная методология. Проблема в том, что бросив все силы (и средства) на внедрение процессного подхода, мы забываем, что есть и другие, не менее важные задачи. Одной из них является умение быстро диагностировать корневые причины инцидентов и проблем (root cause analysis). Именно диагностировать, а не организовывать процесс диагностики. Казалось бы, очевидный факт, что внедрение процесса управления инцидентами (Incident Management) без умения эти инциденты диагностировать, приносит больше вреда, чем пользы. Тем не менее, это происходит сплошь и рядом (и, кстати, не только в IT).

Предлагаю вашему вниманию эффективную методику диагностики инцидентов и проблем - Красная Кнопка. Уникальность методики в том, что она позволяет по-новому, значительно более эффективно, решать две задачи:

  1. Определять, ЧТО произошло.
  2. Определять, ПОЧЕМУ это произошло, т.е. "связывать" жалобы пользователей ИТ-Сервисов со "здоровьем" ИТ-Инфраструктуры.

Методика поддерживаетая продуктами семейства ProLAN SLA-ON, в том числе, - бесплатным продуктом QuTester Plus.

Как это делается

На компьютерах пользователей устанавливается программа HelpMe Pro. Забегая вперед, скажу, что программа входит в состав бесплатного продукта QuTester Plus. Программа очень проста. Если пользователю нужна помощь или он хочет сообщить о низкой производительности какого-то сервиса, то он должен нажать определенную комбинацию клавиш - Красную Кнопку. В первом случае он нажимает, например, Ctrl+Shift+F1+F1. Во втором случае - Ctrl+Shift+F2+F2. Если пользователю просто нужна помощь, например, у него не получается выполнить какую-то операцию при работе с бизнес-приложением, он нажимает Ctrl+Shift+F3+F3.

Программа HelpMe Pro следит за клавиатурой, и когда пользователь нажимает Красную Кнопку, формирует специальное сообщение HelpMe, которое отправляет в службу тех. поддержки. Это сообщение содержит следующую информацию:

  • причину обращения пользователя (недоступность сервиса, медленная работа сервиса, просто нужна помощь);
  • аккаунт пользователя (включая домен) или имя компьютера пользователя;
  • display name пользователя;
  • название подразделения, где работает пользователь (настраивается в HelpMe Pro);
  • название активного процесса на компьютере пользователя в момент нажатия Красной Кнопки;
  • заголовок активного окна в момент нажатия Красной Кнопки;
  • специальные переменные среды (настраиваются заранее),
  • скриншот в момент нажатия Красной Кнопки.

Если на компьютере пользователя установлена программа SelfTrace ("Фотоаппарат" рабочего дня), то дополнительно передается следующая информация: название бизнес-операции, которую пользователь выполнял в момент нажатия Красной Кнопки, выполняемое в этот момент задание и вид активности (подробнее см. Гамбургский Счет). Транспортом для отправки всей этой информации является SOAP, что позволяет передавать эту информацию через Internet.

Отправленная информация принимается Зондом SLA-ON Probe, который записывает её в базу данных. Полученная информация отображается на карте HelpDesk приложения SLA-ON Operations. (Программы SLA-ON Probe и SLA-ON Operations входят в состав всех продуктов семейства SLA-ON, в том числе в состав бесплатного QuTester Plus). Пример скриншота HelpDesk показан на Рисунке 1.

    Рисунок 1.
Карта HelpDesk
 
  Увеличить

Получив информацию о том, ЧТО произошло, инженер тех. поддержки должен определить, ПОЧЕМУ это произошло. Он может сделать делать это вручную или программа SLA-ON Operations может делать это автоматически. Сначала рассмотрим, как это делается вручную. Задача решается в два хода.

  1. На карте HelpDesk выбирается (подсвечивается) диагностируемое сообщение об инциденте, отправленное программой HelpMe Pro.
  2. Нажимается правая кнопка мыши, выбирается пункт "показать на выбранном светофоре" и программа автоматически перебрасывает вас в карту Соckpit, где маленький синий треугольник указывает "здоровье" различных компонент ИТ-Инфраструктуры (сетевого оборудования, серверов, каналов связи и т.п.) в момент нажатия Красной Кнопки. Если здоровье какого-то компонента окрашено красным цветом, информация в нижней части экрана покажет, какие метрики превысили пороговые значения и насколько. Пример скриншота карты Соckpit с информацией о здоровье ИТ-Инфраструктуры в момент нажатия Красной Кнопки, показан на Рисунке 2.
    Рисунок 2.
Карта Соckpit
 
  Увеличить

Таким образом, инженер тех. поддержки сразу получает подробную информацию о состоянии здоровья ИТ-Инфраструктуры в момент нажатия Красной Кнопки. Чем больше Экспертиз (Оценочных Тестов) в это время работает, тем точнее инженер сможет поставить диагноз. Бесплатный продукт QuTester Plus позволяет одновременно запустить не более трех Оценочных Тестов, один из которых "занят" Красной Кнопкой, а два оставшихся можно использовать для диагностики сбоев.

Диагностика сбоев может выполняться автоматически. Для этого систему оповещения Оценочного Теста нужно настроить таким образом, чтобы при возникновении сбоя в работе ИТ-Инфраструктуры, Оценочный Тест (Зонд SLA-ON Probe) автоматически сообщал, какие пользователи (группа Active Directory) в результате этого сбоя могут пострадать. Это, кстати, еще одно важное преимущество продуктов ProLAN. При возникновении сбоя, Зонд SLA-ON Probe автоматически извлекает из Active Directory реквизиты таких пользователей, прикрепляет эту информацию к сообщению 911, которое по SOAP отправляет в службу тех. поддержки (см. Рисунок 3).

    Рисунок 3.
Архитектура Решения
 
  Увеличить

Зонд SLA-ON Probe, установленный в службе тех. поддержки, принимает сообщение 911 и записывает его содержимое в базу данных. Если после этого какой-то пользователь (из тех, кто мог пострадать в результате сбоя), нажимает Красную Кнопку, то программа SLA-ON Operations автоматически связывает эти события и отображает эту связь на карте HelpDesk. Таким образом, инженер тех. поддержки сразу получает информацию о наиболее вероятной причине инцидента. Вероятность правильного определения корневой причины инцидента в этом случае составляет ~ 80%.

Чтобы попробовать Красную Кнопку, достаточно загрузить с сервера ProLAN бесплатный продукт QuTester Plus. Там же можно найти инструкцию по установке. Одно из ограничений бесплатного продукта QuTester Plus в том, что с его помощью можно получать сообщения HelpMe не более чем от 3-х пользователей. Если вы хотели бы попробовать Красную Кнопку на большем числе пользователей, напишите нам по адресу expert@prolan.ru. С Вами свяжется менеджер ProLAN и сообщит, как это сделать и что для этого надо.

 

обсудить на форуме       Комментариев: 0 к списку статей

Софт + Сервис:
Ты-Эксперт

попробуйте бесплатно

Узнать все о сервисе
 

Управляйте Сетью
Эффективно

продукты ProLAN

Узнать о продуктах

Стать
Экспертом

вступайте в лигу экспертов

Инструкции для Эксперта


Гамбургский счет