O que é correlação de eventos?

A correlação de eventos é uma tecnologia capaz de tratar e relacionar eventos, aparentemente desconexos, de uma forma capaz de identificar a causa raiz de um problema em um ambiente computacional.

Em ambientes complexos de TI, mas especialmente em ambientes de redes, são gerados milhares ou mesmo milhões de eventos em um curto espaço de tempo, desde eventos informativos até eventos críticos. Se estes eventos são encaminhados a uma plataforma de gerência, torna-se crítico poder tratá-los de forma adequada para identificar rapidamente um problema que esteja acontecendo.

Para que uma rede de telecomunicações possa ser utilizada eficazmente, é indispensável que todos os seus recursos sejam adequadamente gerenciados e que haja integração entre as diversas áreas funcionais, quais sejam falhas, desempenho, configuração, segurança e contabilização e os diferentes níveis de gerência, sendo estes, gerência de elemento de rede, gerência de rede, gerência de serviços e gerência de negócios.

Este tipo de tecnologia é fundamental para poder isolar a causa-raiz de uma falha. Quando uma falha ocorre em um nodo central de uma rede, centenas de eventos relacionados aos equipamentos ligados a este nodo serão gerados, causando uma “tempestade de eventos” (event storm), dificultando aos operadores da rede identificarem que a causa-raiz da falha está no nodo central e não nos equipamentos ligados, direta ou indiretamente, a ele.

Um bom analista de suporte a redes pode, usando o seu conhecimento da topologia e da tecnologia, identificar a causa-raiz da falha. Porém, este conhecimento, via de regra, é difícil e oneroso de obter. A tecnologia de correlação de eventos procura “transferir” este conhecimento, muitas vezes disperso nas organizações, para uma plataforma automatizada e documentada das inter-relações entre os eventos em curso.

Dez motivos para investir em tecnologia de correlação de eventos

01. Determinar em tempo real a causa raiz de falhas/problemas operacionais que podem refletir no negócio;

02. Identificar e parametrizar o impacto de falhas, inclusive nos serviços do negócio;

03. A tecnologia permite que as companhias tenham uma atitude proativa e não reativa;

04. Distinguir os alertas mais comuns daqueles que realmente podem ter algum impacto significativo para as empresas;

05. Permite a criação das regras de forma gráfica numa interface drag-and-drop (do inglês arraste e solte) para os eventos e as condições para a geração de alarmes;

06. Redução de custo operacional: automatiza a criação e a execução de fluxos de trabalho gerando uma grande redução nos alertas relevantes, o que viabiliza economicamente os processos de gerenciamento do ambiente de TI;

07. A tecnologia de correlação de eventos procura “transferir” conhecimento, muitas vezes disperso nas organizações, para uma plataforma automatizada e documentada das inter-relações entre os eventos em curso;

08. Permite a integração do gerenciamento do impacto nos serviços e o processamento automático de eventos, a fim de construir um modelo de serviços que mapeie os componentes de TI aos serviços do negócio;

09. Os eventos são tratados e correlacionados em memória para só depois serem armazenados, em vez de apenas lidos a partir de um banco de dados;

10. Gerencia infraestruturas dinâmicas de empresas de qualquer tamanho e possibilita detectar, isolar e responder proativamente problemas na infraestrutura de TI antes que eles afetem os clientes e os serviços da empresa.

Diversos tipos de correlação podem ser identificadas em função das operações executadas sobre os alarmes disponíveis. As mais importantes destas operações são detalhadas [Jakobson e Weissman, 1995]:

Compressão

Consiste em detectar, a partir da observação dos eventos recebidos em uma dada janela de tempo, múltiplas ocorrências de um mesmo evento, substituindo os eventos correspondentes por um único evento, possivelmente indicando quantas vezes o evento ocorreu durante o período de observação.

Supressão Seletiva

Trata-se da inibição temporária dos alarmes referentes a um dado evento, segundo critérios – continuamente avaliados pelo sistema de correlação – relacionado ao contexto dinâmico do processo de gerência de rede. Os critérios de supressão geralmente estão vinculados à presença de outros eventos, ao relacionamento temporal entre alarmes ou a prioridades estabelecidas pelos gerentes da rede.

Filtragem

Consiste em suprimir um determinado evento, em função dos valores de um conjunto de parâmetros, previamente especificados. Em um sentido restrito, a filtragem leva em consideração apenas os parâmetros do evento que estiver sendo filtrado sendo que este tipo de correlação pode considerar quaisquer outros critérios. Neste caso, o conceito de filtragem se expande podendo englobar outros tipos de operações, tais como compressão e supressão.

Contagem

Contagem consiste em gerar um novo alarme a cada vez que o número de ocorrências de um determinado tipo de evento ultrapassar um limiar previamente estabelecido.

Escalação

É a operação na qual, em função do contexto operacional, um evento é suprimido, sendo criado em seu lugar um outro evento, no qual um parâmetro assume valores mais altos. O contexto operacional inclui, entre outros fatores, a presença de outros eventos, o relacionamento temporal entre eventos, número de ocorrências de um evento em uma dada janela de tempo e as prioridades estabelecidas pelos gerentes da rede.

Generalização

Generalização consiste em substituir um evento, em função do contexto operacional, pelo evento correspondente a sua super-classe [Bapat, 1994 apud Meira, 1997]. Dois tipos principais de generalização podem ser identificados: generalização por simplificação de condições e generalização baseada em instâncias [Holland et al., 1986 apud Meira, 1997]. No primeiro caso, para que o evento da classe mais baixa seja substituído por um outro de classe mais alta no diagrama de classes, são ignoradas ou desprezadas uma ou mais condições definidas como necessárias à sua identificação. No segundo caso, um novo evento pode ser gerado a partir da associação das informações correspondentes a dois ou mais eventos recebidos.

Especialização

É uma operação inversa à generalização, que consiste em substituir um evento por outro, correspondente a uma sub-classe [Bapat, 1994 apud Meira, 1997]. Esta operação, baseada em raciocínio do tipo dedutivo, não acrescenta novas informações em relação às que já estavam implicitamente presentes nos eventos originais e na base de dados de configuração, mas é útil no evidenciamento das consequências que um evento numa determinada camada de gerência pode ocasionar nas camadas de gerência superiores.

Relacionamento Temporal

Operação na qual o critério para correlação depende da ordem ou do tempo em que são gerados ou recebidos os eventos. Diversas relações temporais podem ser definidas, utilizando conceitos como: “depois-de”, “em-seguida-a”, “antes-de”, “precede”, “enquanto”, “começa”, “termina”, “coincide-com”, “sobrepõe-se-a”.

Aglutinação

Aglutinação consiste na geração de um novo evento a partir da verificação do atendimento, pelos eventos recebidos, de padrões complexos de correlação. A operação de aglutinação também pode levar em consideração o resultado de outras correlações e o resultado de testes realizados na rede.

Exemplos de correlação de Eventos

Vamos a alguns exemplos, através de uma plataforma de correlacionamento de ventos, é possível criar uma regra que identifique que os alarmes relacionados a uma falha no nodo central da rede, suprima todos os alarmes gerados nos nodos de rede abaixo do nodo central, até que a falha no nodo central seja corrigida ou reestabelecida.

Outro exemplo seria o recebimento de alarmes (snmptraps, por exemplo) de Link Down e Link Up em um espaço de tempo (time window) inferior a 30 segundos, ou seja, se minha plataforma de gerência receber um alarme que um determinado enlace de comunicações caiu (Link Down), porém, numa janela de tempo inferior a 30 segundos o enlace voltou ao normal (Link Up), pode ter acontecido apenas uma pequena e rápida falha e não devo gerar um incidente a ser tratado, pois tratou-se de uma pequena intermitência.

Explorando um pouco mais este conceito, poderíamos estender as regras deste último caso e criar uma nova regra informando que, se o enlace receber este par de eventos (Link Down/Link Up) mais de X vezes num espaço Y de tempo, deve-se criar um incidente informando que existe uma intermitência na qualidade do sinal e deve-se investigar a causa da falha, pois esta pode indicar um problema prestes a ocorrer e causar interrupção do serviço.

Indo além da aplicação da correlação de eventos para eventos de rede, pode-se ampliar enormemente o uso desta tecnologia para eventos de TI e principalmente para eventos de segurança da informação. Por exemplo, a falha de uma máquina virtual (VM) na nuvem pode estar relacionada a um maior tempo de resposta de uma aplicação de loja virtual. Assim como, um aumento significativo na utilização da internet (acima de 95%) em um horário normalmente de pouco uso, associado a um evento de alto número de acessos ao seu site (ou a uma determinada aplicação) pode estar relacionada a um ataque de hackers e deve gerar um incidente para sua área de segurança da informação.

Os exemplos são inúmeros e seguramente estas “regras” estão dispersas na inteligência dos profissionais de sua organização. Cabe a uma plataforma de correlação de eventos criar estas regras para serem automatizadas e documentadas adequadamente.

Plataforma para correlação de eventos

A plataforma OpMon, bem como outras plataforma de gerenciamento open-source, como o Nagios e o Zabbix, possuem nativamente formas de criação de correlação de eventos, porém de forma bastante manual e de difícil criação e manutenção, uma vez que são baseadas em códigos e configurações complexas. A partir da versão 5.0 da plataforma OpMon, a OpServices, disponibiliza um módulo adicional de correlação de eventos, o EventGuard (EG).

O EventGuard é uma plataforma gráfica de correlação de eventos, fortemente integrada ao OpMon. O EG permite a criação das regras de forma gráfica numa interface drag-and-drop para os eventos e as condições para a geração de alarmes.

O EventGuard pode processar milhares de eventos de forma simultânea e com altíssima performance, já que o tratamento adequado dos eventos é fundamental para a eficácia das regras definidas. Utilizando o conceito de banco de dados invertido (up-side-down database), os eventos não são lidos a partir de um banco de dados, mas sim, são tratados e correlacionados em memória para só depois serem armazenados.