Como ir além do monitoramento básico das soluções opensource, como Nagios

Que o Nagios é a plataforma de monitoração de redes e sistemas mais popular do mundo opensource, todo mundo sabe. Mesmo com o surgimento de várias outras soluções tão ou mais completas do que ele, ainda assim o Nagios possui mais de 50% do mercado de instalações deste tipo de plataforma nas infraestruturas de TI.

Em 2003, a OpServices começou a fornecer serviços baseados na plataforma Nagios e, desde então, temos percebido uma série de áreas onde o Nagios OSS (a versão opensource) não atende de forma plena as necessidades dos clientes. Não que isto seja um grande problema para a plataforma, pois esta nunca foi a proposta do Nagios, pois seu foco principal está no desenvolvimento de um núcleo (core) de monitoração de alta performance, flexível e escalável.

 
Dashboards de negócios

 
Embora o software em sua versão standard seja funcional para a grande maioria dos ambientes de TI – e suas necessidades básicas de monitoração – quando aplicado a um ambiente comercial de maior maturidade de governança de TI, o Nagios deixa a desejar. Percebe-se isso especialmente em algumas áreas como:

 

  • Falta de aderência às melhores práticas de gestão de TI, como o ITIL;
  • Carência de relatórios mais complexos sobre disponibilidade, planejamento de capacidades e SLAs;
  • Interface gráfica bastante técnica e simplificada;
  • Falta de uma ferramenta gráfica para configuração da plataforma;
  • Falta de suporte à interface multilinguagem;
  • Falta de um mecanismo de autodiscovery de elementos de rede;
  • Falta de dashboards editáveis de alta qualidade para representação de elementos de negócios.

 

Expertise para desenvolver

Após vários anos instalando o Nagios OSS, muitos dos clientes da OpServices passaram a demandar funcionalidades mais avançadas, as quais a comunidade de software livre não poderia atender na velocidade necessária. Deste modo, iniciamos um projeto de customização da estrutura básica, o que resultou no OpMon, uma plataforma de gerenciamento de redes e sistemas baseada no core do Nagios OSS, mas que também endereçasse as demandas dos clientes nas áreas não atendidas.

Uma das primeiras questões que focamos foi a implementação da multilinguagem. Porém, como não bastava apenas traduzir o Nagios para o português (o que fizemos na primeira implantação do OpMon), seria importante também criar uma nova interface gráfica, baseada em PHP e não mais em CGIs. Para isto, investimos fortemente na usabilidade do software com objetivo de ter uma interface menos tecnicista e mais intuitiva no seu uso, além de possuir o suporte a múltiplas linguagens. Assim, o OpMon criou uma camada de interface absolutamente independente e agregou diversas funcionalidades modernas de uso, como a capacidade de criação de favoritos, atalhos, simplificação da navegação e filtros avançados de pesquisa – possibilitando ao usuário encontrar as informações necessárias mais rapidamente, sem a necessidade de navegar por uma infinidade de páginas.

 
Indo além do Nagios

 
Posteriormente, foram criados módulos de relatórios avançados e de gerenciamento de níveis de serviços (SLA/SLM). Um dos itens mais importantes endereçados nesta fase foi a criação de cortes de tempo na geração de relatórios. Por exemplo, se você desejar um relatório sobre a taxa de utilização da sua internet no último mês, talvez você se surpreenda ao saber que a taxa de esteja em torno de 60%. Como o Nagios contabiliza o tempo em períodos de 24 horas e, durante a madrugada e nos finais de semana a taxa de utilização de sua rede possivelmente seja muito menor, na média mensal ela pode apresentar um valor que não traduz a realidade do uso em horário comercial, momento em que a utilização atinge números próximos a 100%. Na hora de requisitar investimentos para o upgrade de seu link de internet, talvez lhe faltem dados para justificá-los.

Dado isto, no OpMon estabeleceu-se a possibilidade de criar cortes de tempo customizados, permitindo que o usuário ao emita um relatório delimitando o corte de tempo que deseja – por exemplo, apenas durante o horário comercial (das 8h às 18h, de segunda à sexta-feira) – facilitando a visualização da justificativa de investimentos de acordo com a realidade de sua empresa. Devido à impossibilidade de prever todos os tipos de relatórios desejáveis, foi incorporado ao OpMon o suporte ao Jasper Reports. Assim, os usuários podem criar seus próprios relatórios customizados e incorporá-los à plataforma, permitindo ainda que estes compartilhem seus modelos de relatórios com outros clientes.

Com o armazenamento de informações de performance dos itens coletados em uma base dados MySQL, o OpMon permite a geração de complexos relatórios de capacidade, incluindo a geração de previsão futura do esgotamento de recursos (future projection), monitoração de linhas de tendência (trend lines) e a capacidade de prover a geração da monitoração através de linhas de base (baseline). O sistema de documentação do OpMon também é um grande diferencial em relação ao Nagios OSS, pois permite que cada objeto monitorado seja extensamente documentado na própria plataforma, facilitando a busca de informações e procedimentos a serem adotados em caso de problemas. A própria documentação é monitorada pelo OpMon, avisando ao administrador sobre a necessidade de atualização em períodos programados.

Este modelo permite que a monitoração seja feita de forma adaptativa e não somente baseada em thresholds fixos. Em uma monitoração tradicional, o envio de alarmes é baseado em limites estabelecidos de forma estática, por exemplo, ao atingir uma utilização de 80% de CPU, um alarme é gerado de forma automática. Já na monitoração adaptativa, pode-se utilizar dados históricos para que o limite seja estabelecido de forma dinâmica. Assim, pode ser que todas as sextas-feiras, das 18h às 22h, realmente a utilização de CPU esteja acima de 80% em função de algum processamento habitual e absolutamente normal. Na monitoração tradicional, alarmes seriam gerados todas as semanas neste dia/hora; na monitoração adaptativa, baseado nos dados históricos, este comportamento seria considerado normal e nenhum falso alarme seria disparado. É claro que, como nenhum dos approachs é perfeito, mas podem ser combinados com o objetivo de reduzir drasticamente a geração de falsos positivos, o OpMon permite ambos os comportamentos.

 

Correlação de Eventos

O OpMon também possui um módulo auxiliar para a correlação de eventos – o EventGuard – tópico mais avançado que a monitoração adaptativa, pois permite a criação de regras complexas para correlacionar os eventos (e gerar alarmes) que estão centralizados na plataforma. Partindo do pressuposto que o OpMon é um grande repositório de eventos, o EventGuard permite a criação de regras complexas para a correlação de eventos através de uma interface gráfica intuitiva. Uma de suas maiores aplicações está na correlação de eventos de segurança, onde acessos aparentemente desconexos podem na verdade ser correlacionados como um ataque externo à sua rede.

 

Dashboard – a visão do negócio

Outro módulo importante do OpMon é o editor de dashboards, OpMon Dashboards. Foi desenvolvido com o intuito de permitir ao usuário da plataforma criar, de forma gráfica e interativa, painéis (dashboards) representativos dos itens monitorados. Com o OpMon Dashboards é possível elaborar todo tipo de dashboards, assim exibindo em tempo real o status de seus elementos de infraestrutura e, principalmente, de processos de negócios, indo além da monitoração de itens básicos de infraestrutura de TI. Os dashboards são perfeitos para dar visibilidade de seu ambiente de TI e de negócios em grandes monitores de LCD. O módulo permite a criação destes dashboards sem a necessidade de escrever nenhuma linha de código, apenas utilizando sua interface gráfica avançada. Esta aplicação pode ainda ser baixada, adquirida e utilizada em qualquer ambiente Nagios, sem a necessidade de obter o OpMon.

 

 
O OpMon Dashboard Presenter (ODP) é uma aplicação para tablets com iOS que permite aos gestores visualizarem e interagirem com os dashboards criados na plataforma OpMon. Com este app móvel, os gestores de negócios podem obter informações em tempo real sobre indicadores de negócios e de infraestrutura de TI em seus dispositivos móveis, de forma clara e direta.

Um dos pontos fracos do Nagios é seu complicado sistema de configuração, todo baseado em diversos arquivos de textos. Embora abrangente, o Nagios necessita um profundo conhecimento de seus arquivos de configuração para uma manipulação e gerência efetiva da ferramenta (existe uma série de projetos de software livre que preenchem, de uma forma ou outra, esta lacuna). A OpServices desenvolveu para o OpMon uma ferramenta de configuração 100% web que permite controlar e editar os vários arquivos do Nagios sem a necessidade de conhecer toda a complexidade da ferramenta Open Source. Além disso, o armazenamento destas configurações em bases de dados permite uma maior facilidade na gravação e recuperação das configurações.

 

Aderência ITIL

Outro ponto importante de melhoria do OpMon, em relação ao Nagios, é sua aderência as melhores práticas de gestão especificadas pelo ITIL. O OpMon possui ferramentas que permitem a criação de Catálogos de Serviço, a geração e a monitoração de acordos de níveis de serviço (SLA/SLM) de forma nativa, representáveis nos dashboards do OpMon. Deste modo, permite exibir o impacto em um determinado serviço de TI quando há falha de um dos elementos que compõem aquele serviço no Catálogo. Também possui uma forte integração com plataformas de Service Desk e CMDB, agregando as melhores práticas de gerências de TI do ITIL, tais como:

  • cumprimento de requisição de serviço;
  • gerenciamento de problemas;
  • gerenciamento de incidentes;
  • gerenciamento de configuração e ativos;
  • gerenciamento de mudanças;
  • gerenciamento do conhecimento.

 
Quando um servidor de rede é descoberto pelo autodiscovery do OpMon, pode ser importado para o monitoramento tornando-se um item de configuração gerenciado e incluso no CMDB. Assim mantém um vínculo de integração entre os dados coletados no monitoramento, as informações de hardware e software provindas do processo ativo de inventário e ações efetuadas no Service Desk – durante todo o ciclo de vida dos itens de configurações e serviços do OpMon. Desse modo, a qualquer momento é possível consultar no CMDB o histórico de versões deste e outros itens de configuração, que estão ou foram gerenciados pelo OpMon, obtendo conhecimento de informações vinculadas, como:

  • dependências entre os próprios itens de configuração e serviços;
  • requisições atendidas;
  • resolução de incidentes;
  • mudanças efetuadas;
  • resolução de problemas;
  • outras informações disponíveis na base de conhecimento – pois todos estes insumos continuam registrados no CMDB mesmo que os itens de configuração tenham sido removidos do OpMon – provendo informações importantes que irão auxiliar no desenho de novos serviços.

 
Um fator importante em qualquer plataforma de N&SM é a capacidade de descobrir automaticamente novos elementos de redes (sejam eles roteadores, servidores ou aplicações). O OpMon incluiu um módulo específico que permite que novos elementos de rede sejam encontrados e adicionados à plataforma sem a necessidade de configurá-los manualmente. O autodiscovery acelera muito o processo de instalação de novos elementos de rede ou mesmo a inclusão massiva destes elementos na plataforma, comportando-se de forma automatizada.

No OpMon foram implementadas, ao longo dos anos, diversas melhorias nas questões de escalabilidade e performance do Nagios™, sendo que muitas destas foram enviadas como contribuições para a equipe que mantém o core do Nagios™. Algumas estão incorporadas no código final do Nagios OSS™, outras ficaram restritas a plataforma OpMon. A maior melhoria em termos de escala e performance do OpMon, reside na utilização do Gearman (http://gearman.org/) como plataforma de distribuição do processamento do Nagios™. Com a incorporação do Gearman no plataforma OpMon, foi possível obter significativos ganhos de performance na capacidade de gerenciamento dos itens de configuração, além de garantir uma escalabilidade praticamente infinita, muito além do que seria possível com a utilização da plataforma padrão.

 

Monitorando a experiência do usuário

Na área de APM (Application Performance Monitoring) ou CEM (Customer Experience Management), a OpServices desenvolveu um aplicativo para a medição do tempo de resposta de aplicações em tempo real. O OpCEM é um aplicativo integrado ao OpMon que permite a criação, de forma gráfica, de robôs que simulam o acesso à aplicações remotas, replicando todos os passos que um usuário faz ao acessar uma aplicação. Permitindo analisar não somente aplicações web, mas também aplicações legadas, o OpCEM possibilita a observação real do comportamento de uma aplicação, enviando informações para a plataforma OpMon para a geração de alarmes e de dados de performance. O objetivo final fornecer ao gestor a visão real sobre o comportamento da aplicação que os seus usuários utilizam.

 

 
Concluindo, o Nagios OSS é uma excelente plataforma para o gerenciamento de redes e sistemas, mas como todo software ele não é a solução para todas as necessidades das empresas, mesmo com uma imensa variedade de projetos aderentes à plataforma. Com as estruturas de TI cada vez mais enxutas, a necessidade de facilitar as tarefas dos CIOs e administradores de redes fez com que o OpMon se apresente como uma evolução, no sentido de oferecer facilidades de uso, implantação e funcionalidades avançadas e integradas, ainda assim mantendo a compatibilidade com o core do Nagios e com a imensa biblioteca de plugins disponíveis livremente no Nagios Exchange.

 

Conteúdo relacionado

Zabbix ou OpMon para monitoramento de infraestrutura de TI?
Gestão à vista e o monitoramento dos processos de negócios em tempo real
O que é e para que serve o Business Process Management (BPM)
A morte da planilha excel para a gestão de indicadores!
Como monitorar processos de negócios com o OpMon?
O que é gestão à vista e como aplicá-la em sua empresa?

 
Para saber mais, baixe os nossos whitepapers: Catálogo de Dashboards com exemplos reais e o Monitoramento Comportamental do Negócio.