MTTD (Mean Time to Detect): o que é, como calcular e reduzir
Na cronologia de um incidente de TI, há um período que não aparece nos dashboards mas é frequentemente o mais caro: o tempo entre o momento em que o problema começou e o momento em que alguém no time soube que ele existia. Durante esse intervalo, o sistema está degradado, os usuários estão sendo impactados e ninguém ainda está agindo.
O MTTD (Mean Time to Detect) — Tempo Médio de Detecção — é a métrica que quantifica esse intervalo. Ele mede em média quanto tempo leva para um incidente ser identificado após seu início. É uma das métricas mais importantes de maturidade operacional e um indicador direto da qualidade da estratégia de observabilidade do time.
Este guia técnico explica o que é MTTD, como calcular, quais fatores o influenciam e como reduzi-lo de forma sistemática em ambientes de SRE.
O que é MTTD (Mean Time to Detect)?
MTTD é a média do tempo decorrido entre o início de um incidente e sua detecção formal pelo time de operações. A detecção ocorre quando o incidente é reconhecido — seja por um alerta automático disparado pelo sistema de monitoramento, seja por uma reclamação de usuário, seja por observação direta de um engenheiro.
A fórmula é direta:
MTTD = Soma dos tempos de detecção de todos os incidentes / Número de incidentes
Por exemplo: se em um mês ocorreram 5 incidentes com tempos de detecção de 2, 8, 5, 15 e 10 minutos, o MTTD do mês é de (2+8+5+15+10) / 5 = 8 minutos.
Por que o MTTD importa?
O MTTD é um multiplicador de impacto. Cada minuto de detecção tardia é um minuto em que o incidente está se propagando sem resposta — acumulando usuários afetados, transações com erro e degradação crescente que pode ser muito mais difícil de reverter depois.
A relação com o MTTR (Mean Time to Recover) é direta: times que detectam incidentes mais rapidamente têm mais tempo para contê-los antes que se tornem eventos maiores. Um incidente detectado em 2 minutos raramente se transforma em um incidente de severidade crítica; um incidente detectado em 40 minutos frequentemente já causou dano irreversível à experiência do usuário.
O MTTD também é o indicador mais sensível da qualidade da instrumentação e instrumentação de aplicações do time. Um sistema bem instrumentado, com os 4 sinais de ouro do SRE monitorados e alertas bem configurados, detecta incidentes em segundos ou minutos. Um sistema com observabilidade precária pode deixar um incidente invisível por horas.
Fatores que aumentam o MTTD
Ausência de alertas para os sinais corretos
O causa mais comum de MTTD alto é simplesmente não monitorar o que importa. Times que monitoram métricas de infraestrutura (CPU, memória, disco) mas não monitoram métricas de negócio (taxa de erro de requisições, latência de transações críticas, taxa de conversão) podem ter um servidor com 30% de CPU enquanto 40% das transações estão falhando silenciosamente.
Fadiga de alertas
Quando o volume de alertas é excessivo, o time desenvolve fadiga de alertas — a dessensibilização que leva a respostas mais lentas ou a ignorar notificações. Um sistema que dispara 500 alertas por dia tem, na prática, MTTD muito maior do que um sistema que dispara 50 alertas de alta qualidade.
Políticas de escalação mal definidas
Alertas que chegam ao canal errado, no horário errado, para a pessoa errada resultam em atraso na detecção efetiva. Uma política de escalação clara garante que o alerta seja reconhecido dentro do tempo esperado — independentemente de quem está de plantão.
Dependência de reclamações de usuários
O pior indicador de MTTD alto é descobrir incidentes pela fila de suporte ao cliente. Isso significa que o sistema de monitoramento falhou completamente em detectar o problema antes que os usuários fossem impactados. A diferença entre detecção proativa (por alertas) e detecção reativa (por reclamações) pode ser de 20 a 60 minutos de MTTD adicional.
Como reduzir o MTTD
A redução sistemática do MTTD passa por três frentes complementares.
A primeira é a melhoria da instrumentação. Garantir que todas as aplicações críticas emitam os três pilares de telemetria — logs, métricas e traces — com campos padronizados. O padrão OpenTelemetry é a referência para instrumentação consistente entre serviços.
A segunda é a calibração de alertas. Substituir thresholds estáticos por detecção de anomalias adaptativa reduz falsos positivos e aumenta a precisão dos alertas reais. Monitorar métricas de negócio e experiência do usuário — não apenas infraestrutura — garante que degradações sutis sejam detectadas antes de se tornarem incidentes visíveis.
A terceira é a estruturação da resposta. Correlação de eventos reduz o tempo de triagem ao agrupar alertas relacionados em um único incidente com contexto. Políticas de escalação bem definidas garantem que o alerta chegue ao engenheiro certo no canal certo sem delay.
Conclusão
O MTTD é o espelho da maturidade de observabilidade de um time. Um MTTD alto não significa que o time é lento — significa que o sistema de detecção não está à altura da complexidade do ambiente monitorado.
A redução do MTTD é um trabalho de engenharia: instrumentar corretamente, calibrar alertas para os sinais que importam, implementar correlação automática e estruturar escalação eficaz. O resultado é um time que descobre incidentes em segundos ou minutos — antes que os usuários percebam. Para estruturar sua estratégia de observabilidade e redução de MTTD, fale com nossos especialistas.
Perguntas Frequentes
O que é MTTD (Mean Time to Detect)?
Como calcular o MTTD?
MTTD = Soma dos tempos de detecção / Número de incidentes. O tempo de detecção de cada incidente é a diferença entre o momento em que o problema começou e o momento em que foi formalmente reconhecido pelo time. Para calcular com precisão, é necessário registrar o timestamp de início de cada incidente (nem sempre igual ao timestamp do primeiro alerta) e o timestamp de reconhecimento.
