Monitoramento de Disco: métricas e ferramentas essenciais

Disco

Quando um banco de dados trava porque o disco ficou cheio, ou uma aplicação fica lenta porque a latência de I/O subiu, o incidente quase sempre chega antes do alerta. Disco é o subsistema silencioso da infraestrutura. Fica bem até parar de funcionar.

O monitoramento de disco é justamente o que transforma esse ponto cego em sinal antecipado. Ele cruza três dimensões distintas (capacidade, performance e saúde física) para detectar saturação de espaço, gargalos de leitura e escrita e degradação de hardware antes que virem incidentes de produção.

Neste guia, você verá quais métricas monitorar em HDDs, SSDs, NVMe e discos em nuvem, quais ferramentas usar em Linux, Windows e ambientes cloud, como definir thresholds de alerta que fazem sentido e quais armadilhas evitar quando o monitoramento vai para produção.

O que é monitoramento de disco e por que ele é crítico

Monitoramento de disco é o processo contínuo de coletar, armazenar e analisar métricas do subsistema de armazenamento para avaliar três aspectos complementares: quanto espaço ainda há disponível, com que velocidade o disco responde e qual o estado de saúde do hardware físico.

A criticidade vem da posição do disco na arquitetura. Aplicações, bancos de dados, filas, caches e sistemas de log dependem do disco para persistir estado. Quando a capacidade acaba, processos escrevem erros e morrem. Quando a latência cresce, a fila de I/O do kernel enche e a aplicação inteira pausa.

Ignorar o disco também é caro por outro motivo: falhas costumam se manifestar gradualmente. Um disco com reallocated sectors crescendo hoje quase sempre falha dias ou semanas depois. Esse intervalo é exatamente a janela de ação que o monitoramento precisa capturar. Sem ele, a equipe só descobre o problema quando a aplicação cai.

Por isso, o monitoramento de disco é peça central em qualquer estratégia madura de monitoramento de TI, junto com CPU, memória e rede.

Quais métricas de disco monitorar

Disco não se resume a uma única métrica. Uma boa estratégia trabalha três grupos distintos (capacidade, performance e saúde) e correlaciona os três para produzir diagnóstico confiável.

Capacidade e utilização de espaço

O grupo mais básico, mas ainda o mais comum causador de incidentes. Métricas principais:

  • % de uso do filesystem: percentual ocupado em cada ponto de montagem
  • Espaço livre absoluto: bytes livres, especialmente crítico em volumes grandes onde o percentual pode enganar
  • Inodes: em sistemas Linux, inodes podem acabar antes do espaço quando há muitos arquivos pequenos
  • Taxa de crescimento: quanto o uso cresce por hora ou por dia, permitindo previsão antes de atingir o limite

Alertar apenas em 95% de uso é uma receita para falhas. O disco pode saltar de 80% a 100% em poucas horas dependendo do workload.

Performance: IOPS, throughput e latência

Performance define se o disco está respondendo dentro do tempo aceitável para a aplicação. Quatro métricas compõem o núcleo:

  • IOPS: operações de leitura e escrita por segundo. Varia drasticamente por tipo de mídia (HDD 75–200, SSD SATA 20–80 mil, NVMe 300 mil ou mais). Para aprofundar, veja nosso guia sobre IOPS em produção.
  • Throughput: MB/s transferidos. Relevante para workloads sequenciais como backup e replicação.
  • Latência de I/O (await): tempo médio por operação. Acima de 20 ms em HDD ou 5 ms em SSD indica fila crescente.
  • Queue depth e %util: quanto o disco está saturado. %util acima de 80% por períodos longos sugere gargalo.

A latência é frequentemente o primeiro sinal de que o disco virou gargalo, antes mesmo do IOPS bater o teto teórico da mídia.

Saúde do disco (SMART)

SMART (Self-Monitoring, Analysis and Reporting Technology) é o protocolo que discos modernos usam para expor atributos de saúde física. Os atributos críticos para monitorar:

  • Reallocated_Sector_Ct: setores defeituosos realocados. Crescimento equivale a degradação em curso.
  • Current_Pending_Sector: setores com erro aguardando realocação.
  • Temperature_Celsius: temperatura de operação. Acima de 55°C reduz vida útil.
  • Power_On_Hours: horas de uso acumuladas.
  • Wear_Leveling_Count (SSDs): desgaste de células NAND.

Qualquer mudança significativa nesses atributos deve gerar alerta, mesmo que o disco ainda funcione. Ele está sinalizando que vai falhar em breve.

Como monitorar disco no Linux

Linux oferece utilitários de linha de comando maduros para investigação pontual e métricas que integram naturalmente com ferramentas de monitoramento centralizado.

Para capacidade, df -h mostra uso por ponto de montagem e df -i revela uso de inodes. Use ambos juntos.

Para performance, iostat -x 1 é o comando de referência. Ele exibe IOPS por dispositivo em tempo real com %util, await (latência de I/O) e svctm. Exemplo de saída em situação saturada:

terminal

# iostat -x 1 em disco saturado
iostat -x 1

Device     r/s     w/s    rMB/s   wMB/s   await   %util
sda      120.5   85.2    4.8     2.1     28.3    94.2
sdb       12.1    8.3    0.5     0.3      3.2    15.4

A linha de sda mostra disco saturado: await de 28 ms e %util em 94% indicam fila crescente e tempo elevado por operação.

Para identificar o processo causador, iotop mostra I/O por PID, similar ao htop para CPU. É útil em diagnóstico ao vivo.

Para saúde, smartctl -a /dev/sda (do pacote smartmontools) expõe os atributos SMART. Em produção, o daemon smartd deve rodar continuamente enviando alertas quando atributos cruzam thresholds.

Em ambientes gerenciados por ferramenta de monitoramento, Prometheus com node_exporter coleta a maior parte das métricas acima automaticamente via /proc/diskstats. Zabbix tem templates nativos equivalentes para Linux. A documentação oficial do iostat descreve cada coluna em detalhe.

Como monitorar disco no Windows

Windows expõe métricas de disco via contadores de performance (Performance Counters), acessíveis por Performance Monitor (perfmon) ou coletores remotos.

Os contadores essenciais para disco:

  • LogicalDisk\% Free Space: espaço livre por volume
  • PhysicalDisk\Avg. Disk sec/Read: latência média de leitura
  • PhysicalDisk\Avg. Disk sec/Write: latência média de escrita
  • PhysicalDisk\Disk Reads/sec e Disk Writes/sec: IOPS de leitura e escrita
  • PhysicalDisk\Current Disk Queue Length: comprimento da fila de I/O

A convenção histórica considera latência acima de 25 ms como sinal de gargalo em discos rotacionais e acima de 10 ms para SSDs corporativos.

Para coleta remota, a maioria das ferramentas de monitoramento usa WMI ou agentes nativos que extraem esses contadores e os enviam a um backend central. Detalhes dos contadores estão na documentação oficial da Microsoft.

Monitoramento de disco em ambientes cloud

Em nuvem, o disco vira um recurso gerenciado: EBS na AWS, Managed Disks no Azure, Persistent Disk no GCP. As métricas relevantes mudam de ênfase porque parte do hardware está abstraído.

Os três provedores expõem métricas comparáveis, ainda que com nomes diferentes. A tabela abaixo resume as principais:

MétricaAWS EBSAzure Managed DisksGCP Persistent Disk
IOPSVolumeReadOps / VolumeWriteOpsDisk Read Operations/Secdisk/read_ops_count
ThroughputVolumeReadBytes / VolumeWriteBytesDisk Read Bytes/Secdisk/read_bytes_count
LatênciaVolumeTotalReadTimeDisk Read/Write Latencydisk/operation_time
Burst / SaturaçãoBurstBalance (gp2)Disk IOPS Consumed %disk/throttled_ops_count

A grande diferença em relação ao on-prem: em nuvem, performance muitas vezes é provisionada. Um volume gp3 na AWS, por exemplo, tem IOPS e throughput baseline definidos na criação e pode estourar temporariamente para um limite burst. Monitorar o saldo de burst credit é tão importante quanto monitorar IOPS.

Em AWS, CloudWatch expõe a métrica BurstBalance para volumes gp2. Em Azure, Managed Disks têm limites por tier de performance. Em GCP, Persistent Disks têm performance proporcional ao tamanho do volume.

Para correlacionar disco em nuvem com outros recursos, as ferramentas de observabilidade e monitoramento de servidores podem ingerir essas métricas do CloudWatch, Azure Monitor e Google Cloud Monitoring e unificar em dashboards únicos. Isso é essencial em arquiteturas multi-cloud.

Referência oficial sobre tipos de volume EBS e seus limites de performance está disponível na documentação da AWS.

Thresholds e alertas recomendados

Thresholds genéricos falham rapidamente em produção. Cada tipo de workload e de mídia exige calibração. A tabela abaixo serve como ponto de partida, ajustável após algumas semanas de observação.

MétricaSeveridade médiaSeveridade altaObservação
% uso do filesystem80%90%Usar espaço absoluto em volumes acima de 1 TB
Latência HDD (await)20 ms50 msPor 5 min consecutivos
Latência SSD SATA5 ms15 msPor 5 min consecutivos
Latência NVMe2 ms5 msPor 5 min consecutivos
%util80%95%Sustentado por mais de 10 min
Reallocated sectorsqualquer crescimentocrescimento aceleradoAlerta imediato
Temperatura50°C55°CEm disco de datacenter

Para capacidade, alertar em 80% com severidade média e 90% com alta funciona para a maioria dos volumes. Em volumes grandes (mais de 1 TB), priorize espaço livre absoluto. Dez por cento de 10 TB ainda é 1 TB.

Para latência de I/O, os thresholds dependem da mídia: 25 ms para HDD, 10 ms para SSD SATA, 5 ms para NVMe. Ultrapassar esses valores por mais de 5 minutos consecutivos indica gargalo real, não ruído.

Para saúde, qualquer mudança em Reallocated_Sector_Ct ou Current_Pending_Sector deve gerar alerta. Não espere um valor mínimo. Temperatura acima de 50°C em disco de datacenter já merece investigação.

Alertas só valem se integrados ao fluxo de resposta a incidentes. Veja o nosso material sobre alertas de TI para evitar fadiga de alerta com thresholds mal calibrados.

Ferramentas de monitoramento centralizado

Comandos locais são úteis para investigação, mas produção exige coleta contínua e centralizada. As principais opções disponíveis no mercado brasileiro:

  • Zabbix: open source, com templates nativos para Linux, Windows e storage em rede. Coleta via agente ou SNMP, armazena histórico longo e alerta por múltiplos canais.
  • Prometheus + node_exporter: pull-based, foco em métricas em tempo real. Integra bem com Grafana para dashboards e com Alertmanager para alertas.
  • CloudWatch, Azure Monitor e Google Cloud Monitoring: nativos de cada provedor, coletam métricas de disco automaticamente a partir dos recursos gerenciados.
  • OpMon: plataforma brasileira que unifica Linux, Windows, storage em rede e cloud em um único dashboard, com ajuste fino para ambientes mistos.
  • PRTG, SolarWinds e Datadog: alternativas comerciais com ampla cobertura e descoberta automática.

A escolha depende menos da ferramenta e mais da estratégia. Capacidade, performance e saúde precisam ser coletadas juntas, com alertas cruzando os domínios. Um disco com latência crescente e reallocated sectors subindo é um incidente iminente, não dois eventos isolados.

Planejamento de crescimento pode ser integrado à ferramenta de monitoramento ou tratado separadamente via capacity planning, que projeta consumo futuro com base em tendências históricas.

Boas práticas em produção

Algumas práticas separam um monitoramento bom de um que apenas cria ruído:

  1. Correlacione com aplicação. Disco raramente é o sintoma percebido. O usuário sente a aplicação lenta. Alertas de disco devem ser ligados a SLIs de aplicação para priorização correta.
  2. Monitore tendência, não só valor instantâneo. Espaço em 70% hoje pode ser tranquilo ou urgente dependendo da taxa de crescimento. Incluir previsão em dashboards evita surpresas.
  3. Separe alertas de capacidade, performance e saúde. São problemas com respostas diferentes: capacidade pede limpeza ou expansão, performance pede tuning ou upgrade, saúde pede substituição de hardware.
  4. Use thresholds dinâmicos onde fizer sentido. Para workloads com padrão sazonal, thresholds fixos geram falsos positivos. Ferramentas modernas suportam baselines dinâmicas baseadas em histórico.
  5. Valide alertas em simulação. Gerar carga artificial (por exemplo, via dd ou fio) confirma que o pipeline detecta a condição antes do incidente real.
  6. Integre com a camada de rede. Storage em rede (NFS, iSCSI, SAN) tem comportamento diferente de disco local. Correlacionar disco com monitoração de redes é essencial para diagnosticar gargalos compartilhados.

Monitoramento & Disponibilidade

Monitoramos sua infraestrutura 24×7, antes que o problema chegue ao usuário.

Detectamos falhas em servidores, aplicações e redes em tempo real com alertas inteligentes, dashboards e relatórios de SLA.

Fale com um Especialista →

Conclusão

Monitoramento de disco efetivo é a diferença entre operar de forma reativa (lidando com indisponibilidades causadas por capacidade, latência ou falha física) e operar proativamente, atuando antes que o incidente atinja o usuário. As três dimensões (capacidade, performance e saúde) precisam ser coletadas juntas, correlacionadas e integradas ao fluxo de alertas da equipe.

Em infraestruturas mistas (on-prem, nuvem e containers) a complexidade multiplica. Cada camada tem métricas próprias, thresholds próprios e ferramentas próprias. A unificação dessas fontes em uma plataforma central é o que permite equipes pequenas gerenciarem ambientes grandes sem perder velocidade de resposta.

A OpServices ajuda empresas brasileiras a estruturar monitoramento de disco completo, incluindo capacidade, IOPS, latência e saúde SMART, integrado com o restante da infraestrutura e com processos ágeis de resposta a incidentes. Fale com um especialista para avaliar como podemos fortalecer a visibilidade do seu ambiente.

Perguntas Frequentes

O que é monitoramento de disco?
Monitoramento de disco é o processo contínuo de coletar e analisar métricas do subsistema de armazenamento para avaliar três dimensões complementares: capacidade (espaço disponível e inodes), performance (IOPS, throughput e latência de I/O) e saúde física (atributos SMART como reallocated sectors e temperatura). O objetivo é detectar saturação, gargalos e degradação antes que virem incidentes de produção, reduzindo downtime e protegendo a performance das aplicações que dependem do armazenamento para persistir estado.
Quais métricas de disco devem ser monitoradas?
As métricas essenciais se dividem em três grupos. Capacidade: percentual de uso do filesystem, espaço livre absoluto, uso de inodes e taxa de crescimento. Performance: IOPS, throughput em MB/s, latência de I/O (await) e utilização (%util ou queue depth). Saúde: atributos SMART como Reallocated_Sector_Ct, Current_Pending_Sector, Temperature_Celsius e Power_On_Hours. Em SSDs, incluir Wear_Leveling_Count para acompanhar o desgaste das células NAND.
Como verificar a saúde de um disco rígido?
A verificação de saúde usa o protocolo SMART, exposto por praticamente todos os discos modernos (HDDs, SSDs SATA e NVMe). No Linux, o comando smartctl -a /dev/sda do pacote smartmontools lista todos os atributos. No Windows, utilitários do fabricante ou ferramentas como CrystalDiskInfo fazem a leitura. Em produção, o daemon smartd deve rodar continuamente e emitir alertas quando atributos críticos como setores realocados, setores pendentes ou temperatura cruzam thresholds seguros.
O que é IOPS e por que importa?
IOPS (Input/Output Operations Per Second) mede quantas operações de leitura e escrita um disco consegue executar em um segundo. É uma das métricas mais diretas de performance de storage. HDDs entregam entre 75 e 200 IOPS, SSDs SATA entre 20 mil e 80 mil e NVMe ultrapassa 300 mil. Aplicações transacionais como bancos de dados são sensíveis a IOPS baixos e devem ser dimensionadas com margem. Em nuvem, o IOPS é frequentemente provisionado e exige monitoramento do saldo de burst credit.

Trabalho há mais de 15 anos no mercado B2B de tecnologia e hoje atuo como Gerente de Marketing da OpServices e Líder em Projetos de Governança para Inteligência Artificial.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

plugins premium WordPress