Documento técnico · Sócios
Estratégia de migração · 28 de abril de 2026
Tirando os agentes
do trap AWS e Google.
Diagnóstico do que aconteceu, arquitetura nova proposta, custos reais de manutenção e travas de segurança contra fatura surpresa. Entre sócios, com clareza total de números.
O que aconteceu
O trap estrutural
de AWS Bedrock e Google Vertex.
A IA que te orientou não mentiu sobre os tokens. Mentiu por omissão sobre o resto. Em managed AI services, token é menos de 1% da conta. O resto é o que ninguém te conta antes.
Uso real
US$ 6
Soma dos tokens consumidos nos 2 agentes, conforme extrato oficial das plataformas.
Cobrado
R$ 3.000
Fatura total entre AWS e Google. Diferença é tudo "custo acessório" que o orientador omitiu.
Proporção
99,8%
Da fatura é overhead da plataforma, não tokens. É o padrão dessas duas, não exceção.
O que te cobraram além dos tokens
- Endpoint provisionado idle. Modelo fica reservado 24/7 mesmo sem ninguém perguntando nada. Conta corre.
- Data transfer. Cada byte que entra ou sai do agente é tarifado, mesmo respostas pequenas.
- Storage de modelo. Hospedagem do modelo customizado na infraestrutura deles.
- CloudWatch e Cloud Logging. Cada log gerado é cobrado por linha e por retenção.
- NAT Gateway. Quando o agente fala com APIs externas, paga pedágio de saída.
- Snapshots e backups automáticos. Ativos por padrão, removíveis só por quem sabe procurar.
A solução proposta pelo próprio orientador (alugar VPS por R$50 a R$150 por mês e pagar tokens diretos) é uma aproximação correta do princípio. Mas existe um caminho mais barato, mais seguro e que eu já opero há meses em PeritoPro, Carangos e Athena.
A nova arquitetura
Cloudflare Workers
+ Anthropic API direto.
A mesma stack que opera o PeritoPro hoje, em produção, há mais de três meses sem fatura inesperada uma única vez. Pricing transparente das duas únicas empresas no mercado que cobram só uso real.
Camada de execução
Cloudflare Workers
Edge global, zero servidor pra manter, pricing previsível por requests. US$ 5 por mês cobrem 10 milhões de requisições. Sem custos acessórios.
Camada de inteligência
Anthropic API
Claude Sonnet 4.6 com prompt caching ativado. Cobra exclusivamente tokens efetivamente consumidos. Sem endpoint provisionado, sem idle, sem mensalidade.
Memória dos agentes
D1 + KV + R2
Banco de dados, cache de sessão e armazenamento de arquivos da própria Cloudflare. Plano gratuito da plataforma cobre nosso volume com folga.
Front de atendimento
WhatsApp · Web · Telegram
Mesmo canal que os agentes operam hoje. Migração de canal é configuração, não reescrita.
Por que essa stack venceu as alternativas
- Eu já a domino. Quatro projetos meus rodam essa exata combinação. Curva de aprendizado zero, manutenção é a mesma que eu já faço todo dia.
- Cloudflare e Anthropic são, hoje, as duas empresas com pricing mais transparente do mercado. Cobram só uso real, sem dimensões ocultas.
- As travas de segurança que descrevo na próxima seção são nativas da plataforma, não gambiarra.
- Migração estimada em 5 a 7 dias úteis, contra 10 dias ou mais em alternativas como VPS Linux.
Custos reais por faixa de volume
Sem letra miúda.
Tudo o que você vai pagar.
Três cenários honestos, do mais conservador ao mais agressivo. Tokens estimados com Sonnet 4.6 e prompt caching ativado, que é o padrão que eu já uso em todos os projetos.
| Item |
Tipo |
Custo mensal |
| Cloudflare Workers Paid (os 2 agentes) |
Fixo |
R$ 28 |
| D1 + KV + R2 (memória e arquivos) |
Fixo |
R$ 0 |
| Domínios próprios (já registrados) |
Fixo |
R$ 0 |
| Anthropic API · tokens |
Variável |
R$ 0,02 a R$ 0,15 por conversa |
Cenários de operação mensal
| Volume mensal |
Fixo |
Tokens |
Total mensal |
| 500 conversas (uso conservador) |
R$ 28 |
R$ 30 |
R$ 58 |
| 2.000 conversas (operação saudável) |
R$ 28 |
R$ 120 |
R$ 148 |
| 10.000 conversas (alto volume) |
R$ 28 |
R$ 600 |
R$ 628 |
Lembre que sua fatura AWS sozinha foi R$ 2.000 com US$ 5 de uso real. No cenário mais agressivo da nova stack (10 mil conversas reais por mês) você paga R$ 628 e 100% disso é uso real, não overhead.
A migração em si
Entre sócios
A construção e migração dos 2 agentes pra nova base é por minha conta, sem custo pra você. Sou eu construindo na infra que eu já opero, com a stack que eu já domino. O que esse documento descreve daqui pra frente são apenas os custos de manutenção mensal pagos diretamente às plataformas (Cloudflare e Anthropic), nunca pra mim. Prazo da migração: 5 a 7 dias úteis após você me passar a extração dos prompts.
Quatro travas contra fatura surpresa
Formato absolutamente seguro,
como você pediu.
Nenhuma promessa. Quatro mecanismos concretos, dois nativos da plataforma e dois aplicados no código, que tornam impossível repetir o que aconteceu na AWS e no Google.
01
Hard cap mensal no console Anthropic. Eu defino um teto em dólares (digamos US$ 50 ou US$ 100). Atingiu o teto, a API simplesmente para de responder. Não gera dívida, não acumula em backlog. Você pode dormir tranquilo.
02
Plano Cloudflare Workers Paid tem preço fixo previsível. US$ 5 por mês cobrem 10 milhões de requests. Não existe "accessory cost" no produto. Se passar do limite (cenário improvável), sobe pra US$ 5 + US$ 0,30 por milhão extra. Sem surpresa.
03
Token budget por conversa no código do agente. Cada conversa tem teto de tokens aplicado direto na lógica. Se um usuário tentar abusar (loop, prompt injection), o agente recusa graciosamente e protege a fatura.
04
Dashboard de custo diário no seu WhatsApp. Construo um painel ZEUS-style que lê billing API da Anthropic e da Cloudflare todo dia, e dispara mensagem WhatsApp se passar de R$ X por dia. Você acompanha sem precisar abrir console nenhum.
Próximos passos
Como a gente sai
desse trap em 7 dias.
Três etapas ordenadas. Eu já comecei a estrutura do meu lado. Falta sua parte (etapa 1) pra eu fechar orçamento exato e disparar.
01
Você extrai dos consoles AWS e Google Cloud
Três coisas de cada agente: o system prompt completo, a lista de ferramentas e fontes de dados que ele consulta, o último extrato com volume mensal de requests reais.
Responsável: Marcos · Prazo: 3 a 5 dias úteis
02
Eu confirmo o custo mensal exato em 24 horas
Recebida sua extração, devolvo o custo mensal estimado de manutenção (Cloudflare + Anthropic) baseado no seu volume histórico real, dentro das faixas que estão neste documento. Construção da migração é minha, sem custo, conforme combinado.
Responsável: Fábio · Prazo: 24h após etapa 1
03
Migração técnica e go-live (por minha conta)
Reconstruo os 2 agentes na nova stack, ligo as 4 travas de segurança, configuro o dashboard de custo no seu WhatsApp e entrego os 2 agentes rodando em domínios próprios. Após sua aprovação visual, os agentes saem da AWS e Google de vez. Esse trabalho técnico é meu, entre sócios, sem custo pra você.
Responsável: Fábio · Prazo: 5 a 7 dias úteis
A dívida atual de R$ 1.350 (já reduzida) e a outra ainda em negociação são sangramento que continua acontecendo enquanto a infra antiga está parada. Quanto antes a gente migrar, mais cedo você corta o cordão umbilical com AWS e Google.
Sinal de sucesso
- Os 2 agentes operando em subdomínios próprios (exemplo: agente-vendas.menteflix.com.br).
- Dashboard de custo diário ativo no seu WhatsApp.
- Hard cap configurado no console Anthropic, comprovado por screenshot.
- Documento técnico final com URLs, credenciais (cofre seguro) e procedimento de operação para você guardar.
Aprovação
Esse documento existe pra você dormir tranquilo. A migração é minha, entre sócios. O que você paga daqui pra frente é só a infra real das plataformas.
Quando você quiser ligar pra revisar etapa por etapa, ajustar qualquer ponto, ou já partir pra extração dos consoles AWS e Google, é só falar.
OLIMPO LAB
Fábio Macarroni
Consultor técnico · ApoloFlow · OLIMPO Lab