Capacity Planning: Gestão e Monitoramento de Recursos de TI
A pergunta mais cara no orçamento de TI não é “quanto custa este servidor?”, mas sim “quanto deste servidor nós realmente precisamos?”. O Capacity Planning (Planejamento de Capacidade) é a disciplina que responde a essa questão, equilibrando a linha tênue entre o desperdício financeiro (Overprovisioning) e o risco operacional de indisponibilidade (Underprovisioning).
Em um passado on-premise, o Capacity Planning era um exercício anual de adivinhação para comprar hardware que duraria 5 anos. Na era da nuvem e do FinOps, ele tornou-se um processo contínuo e dinâmico. Se sua equipe de SRE confia apenas no Auto-scaling para resolver problemas de capacidade, você provavelmente está gastando 30% a mais do que deveria ou correndo riscos de atingir quotas de serviço invisíveis. Este artigo explora a metodologia técnica para gerir recursos computacionais com precisão matemática.
O Que é Capacity Planning? Definição e Escopo
Tecnicamente, o Capacity Planning é o processo de determinar a capacidade de produção necessária para atender às demandas futuras de mudança na infraestrutura de TI. Ele difere do monitoramento de performance (que olha para o “agora”) e da gestão de incidentes (que olha para o “passado”). O Capacity Planning olha para o futuro.
O escopo envolve três vetores principais:
- Recursos de Hardware: CPU, Memória, I/O de Disco, Throughput de Rede.
- Recursos de Software: Licenças, conexões de banco de dados (Pool), Threads, Descritores de Arquivos.
- Recursos de Negócio: Transações por segundo (TPS), Usuários Simultâneos (CCU), Volume de Armazenamento de Dados.
A Matemática do Planejamento: Baseline e Tendência
Você não pode planejar o que não mediu. A base do Capacity Planning é a observabilidade histórica. Sem pelo menos 3 a 6 meses de dados de retenção, qualquer planejamento é apenas um palpite.
1. Estabelecendo o Baseline (Linha de Base)
Qual é o consumo normal do sistema em repouso e em pico? É necessário limpar os dados de anomalias (outliers) para entender o comportamento padrão. Ferramentas de monitoramento devem fornecer a média, o pico e, crucialmente, o percentil 95 (P95) do uso de recursos. Planejar baseado na média causa lentidão para metade dos usuários; planejar baseado no pico absoluto custa caro. O P95 é o ponto ideal de eficiência.
No exemplo abaixo, você pode pode ver a previsão de recursos baseado no monitoramento de capacidade com a plataforma OpMon, desenvolvida por nós:

2. Análise de Tendência (Forecasting)
Usando regressão linear ou algoritmos preditivos, projetamos o crescimento. Se o uso de disco cresce 5GB por dia, sabemos exatamente a data (“Time-to-Full”) em que o storage vai parar. O Capacity Planning transforma essa data em um prazo para compra ou arquivamento de dados.
Capacity Planning na Nuvem e FinOps
A nuvem trouxe a ilusão de “capacidade infinita”. No entanto, a capacidade é finita pelo orçamento e pelas quotas do provedor (Service Quotas).
O Mito do Auto-scaling
Muitos gestores acreditam que o Auto-scaling substitui o Capacity Planning. Errado. O Auto-scaling reage à demanda imediata. O Capacity Planning define os limites desse Auto-scaling (Min/Max instances) e a estratégia de compra.
- Instâncias Reservadas (RIs) / Savings Plans: Se o seu Capacity Planning indica que você precisa de 100 vCPUs constantemente pelos próximos 12 meses, usar instâncias On-Demand é queimar dinheiro. O planejamento permite comprometer-se com contratos de longo prazo para obter descontos de até 70%.
- Spot Instances: Para cargas de trabalho tolerantes a falhas identificadas no planejamento, o uso de capacidade ociosa do provedor reduz custos drasticamente.
Headroom e Testes de Carga (Stress Testing)
O “Headroom” é a margem de segurança. Quanto de capacidade extra precisamos para absorver um pico repentino (Flash Crowd) antes que o Auto-scaling consiga reagir (o que pode levar 5 minutos)?
Para definir o Headroom correto, não usamos teória, usamos Testes de Carga. Ferramentas como k6 ou JMeter bombardeiam o ambiente de homologação (que deve ser espelho da produção) para encontrar o “Ponto de Quebra” (Breaking Point).
Exemplo: Descobrimos que com 4GB de RAM, o servidor aguenta 500 requisições/segundo. Se a projeção de marketing para a Black Friday é de 2000 req/seg, o Capacity Planning dita matematicamente que precisaremos de um cluster com capacidade equivalente a 16GB de RAM + Headroom de 20%.
Gargalos Não Lineares
O maior erro no Capacity Planning é assumir linearidade (“Se 1 servidor aguenta 100, 2 aguentam 200”). Em sistemas distribuídos, existem gargalos não lineares:
- Banco de Dados: Adicionar mais servidores web não adianta se o banco de dados está travado em I/O.
- Locks e Concorrência: Mais threads podem aumentar a disputa (contention) por recursos, degradando a performance em vez de melhorá-la.
- Largura de Banda: O link de uplink do Data Center ou a capacidade do Load Balancer podem saturar antes da CPU dos servidores.
O monitoramento de tráfego de rede e APM é vital para identificar qual recurso será o primeiro a “gargalar”.
Integração com ITSM e Gestão de Mudanças
O Capacity Planning deve ser um gatekeeper na Gestão de Mudanças. Antes de aprovar o deploy de um novo microsserviço, a pergunta deve ser feita: “Qual a pegada de recursos estimada?”.
Integrar essas métricas com ferramentas de ITSM garante que a infraestrutura seja provisionada *antes* do deploy, evitando incidentes de performance no Dia 1. Além disso, relatórios mensais de capacidade devem ser enviados aos gestores de produto para alinhar o custo da infraestrutura com a receita projetada do serviço.
Conclusão
O Capacity Planning é a tradução da estratégia de negócios para a linguagem da infraestrutura. Ele transforma a TI de um centro de custo reativo para um parceiro de negócios proativo, capaz de dizer “sim” para novas campanhas de vendas com a certeza de que o sistema aguentará a carga.
Ignorar o planejamento de capacidade é aceitar um de dois destinos: a falência por custos excessivos de nuvem ou a irrelevância por indisponibilidade crônica durante os picos de demanda. A escolha é feita através da análise de dados e da engenharia preventiva.
Caso tenha interesse em conhecer mais sobre nosso serviço de avaliação de ambiente, sustentação e consultoria para implementação de gerenciamento de capacidade (capacity planning), fale com nossos especialistas.
