SRE

MTTD (Mean Time to Detect): o que é, como calcular e reduzir

dezembro 15, 2025 Pedro Tebaldi

Na cronologia de um incidente de TI, há um período que não aparece nos dashboards mas é frequentemente o mais caro: o tempo entre o momento em que o problema começou e o momento em que alguém no time soube que ele existia. Durante esse intervalo, o sistema está degradado, os usuários estão sendo impactados e ninguém ainda está agindo.

O MTTD (Mean Time to Detect) — Tempo Médio de Detecção — é a métrica que quantifica esse intervalo. Ele mede em média quanto tempo leva para um incidente ser identificado após seu início. É uma das métricas mais importantes de maturidade operacional e um indicador direto da qualidade da estratégia de observabilidade do time.

Este guia técnico explica o que é MTTD, como calcular, quais fatores o influenciam e como reduzi-lo de forma sistemática em ambientes de SRE.

O que é MTTD (Mean Time to Detect)?

MTTD é a média do tempo decorrido entre o início de um incidente e sua detecção formal pelo time de operações. A detecção ocorre quando o incidente é reconhecido — seja por um alerta automático disparado pelo sistema de monitoramento, seja por uma reclamação de usuário, seja por observação direta de um engenheiro.

A fórmula é direta:

MTTD = Soma dos tempos de detecção de todos os incidentes / Número de incidentes

Por exemplo: se em um mês ocorreram 5 incidentes com tempos de detecção de 2, 8, 5, 15 e 10 minutos, o MTTD do mês é de (2+8+5+15+10) / 5 = 8 minutos.

Por que o MTTD importa?

O MTTD é um multiplicador de impacto. Cada minuto de detecção tardia é um minuto em que o incidente está se propagando sem resposta — acumulando usuários afetados, transações com erro e degradação crescente que pode ser muito mais difícil de reverter depois.

A relação com o MTTR (Mean Time to Recover) é direta: times que detectam incidentes mais rapidamente têm mais tempo para contê-los antes que se tornem eventos maiores. Um incidente detectado em 2 minutos raramente se transforma em um incidente de severidade crítica; um incidente detectado em 40 minutos frequentemente já causou dano irreversível à experiência do usuário.

O MTTD também é o indicador mais sensível da qualidade da instrumentação e instrumentação de aplicações do time. Um sistema bem instrumentado, com os 4 sinais de ouro do SRE monitorados e alertas bem configurados, detecta incidentes em segundos ou minutos. Um sistema com observabilidade precária pode deixar um incidente invisível por horas.

Fatores que aumentam o MTTD

Ausência de alertas para os sinais corretos

O causa mais comum de MTTD alto é simplesmente não monitorar o que importa. Times que monitoram métricas de infraestrutura (CPU, memória, disco) mas não monitoram métricas de negócio (taxa de erro de requisições, latência de transações críticas, taxa de conversão) podem ter um servidor com 30% de CPU enquanto 40% das transações estão falhando silenciosamente.

Fadiga de alertas

Quando o volume de alertas é excessivo, o time desenvolve fadiga de alertas — a dessensibilização que leva a respostas mais lentas ou a ignorar notificações. Um sistema que dispara 500 alertas por dia tem, na prática, MTTD muito maior do que um sistema que dispara 50 alertas de alta qualidade.

Políticas de escalação mal definidas

Alertas que chegam ao canal errado, no horário errado, para a pessoa errada resultam em atraso na detecção efetiva. Uma política de escalação clara garante que o alerta seja reconhecido dentro do tempo esperado — independentemente de quem está de plantão.

Dependência de reclamações de usuários

O pior indicador de MTTD alto é descobrir incidentes pela fila de suporte ao cliente. Isso significa que o sistema de monitoramento falhou completamente em detectar o problema antes que os usuários fossem impactados. A diferença entre detecção proativa (por alertas) e detecção reativa (por reclamações) pode ser de 20 a 60 minutos de MTTD adicional.

Como reduzir o MTTD

A redução sistemática do MTTD passa por três frentes complementares.

A primeira é a melhoria da instrumentação. Garantir que todas as aplicações críticas emitam os três pilares de telemetria — logs, métricas e traces — com campos padronizados. O padrão OpenTelemetry é a referência para instrumentação consistente entre serviços.

A segunda é a calibração de alertas. Substituir thresholds estáticos por detecção de anomalias adaptativa reduz falsos positivos e aumenta a precisão dos alertas reais. Monitorar métricas de negócio e experiência do usuário — não apenas infraestrutura — garante que degradações sutis sejam detectadas antes de se tornarem incidentes visíveis.

A terceira é a estruturação da resposta. Correlação de eventos reduz o tempo de triagem ao agrupar alertas relacionados em um único incidente com contexto. Políticas de escalação bem definidas garantem que o alerta chegue ao engenheiro certo no canal certo sem delay.

Conclusão

O MTTD é o espelho da maturidade de observabilidade de um time. Um MTTD alto não significa que o time é lento — significa que o sistema de detecção não está à altura da complexidade do ambiente monitorado.

A redução do MTTD é um trabalho de engenharia: instrumentar corretamente, calibrar alertas para os sinais que importam, implementar correlação automática e estruturar escalação eficaz. O resultado é um time que descobre incidentes em segundos ou minutos — antes que os usuários percebam. Para estruturar sua estratégia de observabilidade e redução de MTTD, fale com nossos especialistas.

Perguntas Frequentes

O que é MTTD (Mean Time to Detect)?

MTTD (Mean Time to Detect ou Tempo Médio de Detecção) é a média do tempo decorrido entre o início de um incidente e sua detecção formal pelo time de operações. É calculado como a soma dos tempos de detecção de todos os incidentes dividida pelo número de incidentes. Mede diretamente a qualidade da estratégia de observabilidade e monitoramento de um time.

Como calcular o MTTD?

A fórmula é: MTTD = Soma dos tempos de detecção / Número de incidentes. O tempo de detecção de cada incidente é a diferença entre o momento em que o problema começou e o momento em que foi formalmente reconhecido pelo time. Para calcular com precisão, é necessário registrar o timestamp de início de cada incidente (nem sempre igual ao timestamp do primeiro alerta) e o timestamp de reconhecimento.

Qual a diferença entre MTTD e MTTR?

MTTD mede o tempo até a detecção do incidente — o intervalo entre o início do problema e o momento em que o time soube que ele existia. MTTR (Mean Time to Recover) mede o tempo total de resolução — do início do incidente até a restauração do serviço. O MTTD é um componente do MTTR: um MTTD alto aumenta automaticamente o MTTR, pois o time só pode começar a resolver depois de detectar.

O que causa MTTD alto?

As causas mais comuns são: (1) ausência de alertas para os sinais corretos — monitorar infraestrutura mas não métricas de negócio; (2) fadiga de alertas — volume excessivo de notificações que leva o time a ignorar ou atrasar respostas; (3) políticas de escalação mal definidas — alertas chegando ao canal ou pessoa errados; (4) dependência de reclamações de usuários para descobrir incidentes, o que adiciona 20 a 60 minutos de MTTD desnecessário.

Como reduzir o MTTD?

As três frentes complementares são: (1) instrumentação — garantir que todas as aplicações críticas emitam logs, métricas e traces com campos padronizados (padrão OpenTelemetry); (2) calibração de alertas — usar detecção de anomalias adaptativa e monitorar métricas de negócio além de infraestrutura; (3) resposta estruturada — correlação de eventos para triagem rápida e políticas de escalação que garantem o alerta certo chegar à pessoa certa sem delay.

Pedro Tebaldi

Trabalho há mais de 15 anos no mercado B2B de tecnologia e hoje atuo como Gerente de Marketing da OpServices e Líder em Projetos de Governança para Inteligência Artificial.

MTTD (Mean Time to Detect): o que é, como calcular e reduzir

O que é MTTD (Mean Time to Detect)?

Por que o MTTD importa?

Fatores que aumentam o MTTD

Ausência de alertas para os sinais corretos

Fadiga de alertas

Políticas de escalação mal definidas

Dependência de reclamações de usuários

Como reduzir o MTTD

Conclusão

Perguntas Frequentes

Pedro Tebaldi

Deixe um comentário Cancelar resposta

Quer receber novidades e atualizações?

Soluções

Plataformas

Conteúdo

Redes Sociais

Vamos conversar?

MTTD (Mean Time to Detect): o que é, como calcular e reduzir

O que é MTTD (Mean Time to Detect)?

Por que o MTTD importa?

Fatores que aumentam o MTTD

Ausência de alertas para os sinais corretos

Fadiga de alertas

Políticas de escalação mal definidas

Dependência de reclamações de usuários

Como reduzir o MTTD

Conclusão

Perguntas Frequentes

Pedro Tebaldi

Deixe um comentário Cancelar resposta

Quer receber novidades e atualizações?

Soluções

Plataformas

Conteúdo

Redes Sociais