Quando o assunto é disaster recovery (DR), a maioria das empresas acredita ter tudo sob controle – até que o imprevisto acontece. Interrupções em SaaS como Microsoft 365, falhas regionais em nuvens públicas e a crescente autonomia das áreas de negócio expõem um dado incômodo: boa parte dos planos de DR desmorona no primeiro teste real. Mas por que isso acontece e o que sua empresa pode fazer agora para evitar perdas milionárias (e noites em claro)?
O dilema dos testes “de mentira”
Testar um plano de DR de forma realista é caro, complexo e – para ser honesto – nada atraente para o gestor que assina a iniciativa. Se tudo der certo, ele só cumpriu a obrigação. Se algo falhar, o prejuízo à carreira pode ser imediato. O resultado é um ciclo vicioso de testes superficiais, pensados para auditoria, não para o caos.
Além disso, nenhum laboratório reproduz o comportamento de 300 mil funcionários e milhões de clientes clicando, salvando arquivos e disparando APIs ao mesmo tempo. Logo, a validação que realmente importa – a do mundo real – acaba ficando para quando o desastre já está em curso.
SaaS: o elo fraco que ninguém controla
A computação em nuvem trouxe agilidade, mas introduziu um ponto cego enorme: a dependência de terceiros. Se o Microsoft 365 ou o Google Workspace cai, você não tem botão de failover para acionar. O máximo que resta é acompanhar o status page do fornecedor e torcer.
Segundo Frank Trovato, diretor da Info-Tech Research Group, boa parte dos provedores SaaS confia apenas na resiliência da nuvem onde estão hospedados. Azure, AWS e Google Cloud ostentam SLAs agressivos, mas todos já registraram falhas significativas e até perda de dados. Sua organização está pronta para trabalhar sem e-mail, Teams ou SharePoint por dias?
Multicloud não é antídoto mágico
Muito se fala em espalhar workloads entre Amazon, Microsoft e Google como se isso blindasse a operação. Só que dependências cruzadas – de DNS a CDNs, passando por serviços de segurança como Cloudflare ou CrowdStrike – tornam essa saída menos confiável do que parece. Se um elo dessa cadeia quebra, o efeito cascata atinge todas as nuvens simultaneamente.
Quando infraestrutura ≠ serviço
Outro erro clássico dos testes de DR é focar em ligar servidores e restaurar banco de dados sem verificar se as aplicações continuam utilizáveis. Autenticação, roteamento, integrações ocultas e, principalmente, o fator humano (usuários agindo sob pressão) ficam fora da equação.
No mundo real, sistemas podem subir, mas funcionários não conseguem logar; dashboards ficam verdes enquanto processos de negócio travam. Recuperação de desastres deveria ser medida pelo time to operate, não pelo uptime de VM.
A autonomia das áreas de negócio complica tudo
Com a febre de low-code, IA generativa e ferramentas SaaS de nicho, departamentos de marketing, finanças ou supply chain contratam serviços sem avisar o TI. Na hora da crise, ninguém inclui esses “sistemas sombra” no script de recuperação, abrindo brechas para falhas críticas de dados e compliance.
Como montar um DR que não vire manchete negativa
1. Testes radicais (e regulares)
• Simule falhas completas, inclusive de autenticação e DNS.
• Use tráfego real ou emulado em larga escala.
• Envolva todas as áreas da empresa, não só TI.
Imagem: Evan Schuman C
2. Mapear dependências de terceiros
• Exija de cada fornecedor a lista de subfornecedores e planos de contingência.
• Defina cláusulas de reembolso e metas de RTO/RPO contratuais.
• Reavalie esses contratos a cada mudança de arquitetura.
3. Planejar para SaaS offline
• Estabeleça meios de comunicação alternativos (e-mail temporário, mensageria interna, telefone IP fora do domínio principal).
• Treine a equipe em duplicidade de ferramentas – Google Docs como reserva do Microsoft 365, por exemplo.
4. Falha controlada, não surpresa
• Adoção de chaos engineering: desligue serviços em produção de forma programada e mensure impacto.
• Aprenda com empresas como Netflix (Chaos Monkey) e adapte o conceito ao seu porte.
5. Hardware ainda importa
Embora DR seja cada vez mais software-defined, dispositivos físicos continuam críticos. NAS de alta performance, fitas LTO de última geração e SSDs NVMe externos reduzem o tempo de restauração local em desastres moderados (ransomware, falha regional de nuvem). Se a sua equipe ainda não testou a velocidade real de backup/restore nesses equipamentos, está na hora de fazê-lo.
Quanto custa não estar pronto?
Pesquisas da IDC indicam que 1 hora de indisponibilidade em empresas de grande porte custa, em média, US$ 250 mil. Some multas regulatórias, fuga de clientes e danos reputacionais e você entenderá por que DR precisa de orçamento contínuo, não de verba residual.
O que fazer amanhã de manhã
• Revise o documento de DR: ele cobre SaaS, autenticação e dependências externas?
• Agende um teste de failover completo nos próximos 90 dias.
• Negocie métricas de serviço claras com cada fornecedor crítico.
• Capacite usuários finais: treinamento reduz o “pânico operacional”.
No fim das contas, recuperação de desastres é menos sobre tecnologia e mais sobre cultura. Equipes que praticam incêndios simulados sabem onde estão as saídas; as que só veem o plano no PowerPoint correm o risco de ficar presas no primeiro sinal de fumaça. Que tipo de empresa você quer ser quando – não se, mas quando – o próximo grande incidente acontecer?
Com informações de Computerworld