Documento técnico · Sócios
Estratégia de migração · 28 de abril de 2026

Tirando os agentes
do trap AWS e Google.

Diagnóstico do que aconteceu, arquitetura nova proposta, custos reais de manutenção e travas de segurança contra fatura surpresa. Entre sócios, com clareza total de números.

ParaMarcos Silveira
DeFábio Macarroni
Versãov2 atualizado pós-reunião
StatusMigração aprovada · execução em andamento
O que aconteceu

O trap estrutural
de AWS Bedrock e Google Vertex.

A IA que te orientou não mentiu sobre os tokens. Mentiu por omissão sobre o resto. Em managed AI services, token é menos de 1% da conta. O resto é o que ninguém te conta antes.

Uso real
US$ 6
Soma dos tokens consumidos nos 2 agentes, conforme extrato oficial das plataformas.
Cobrado
R$ 3.000
Fatura total entre AWS e Google. Diferença é tudo "custo acessório" que o orientador omitiu.
Proporção
99,8%
Da fatura é overhead da plataforma, não tokens. É o padrão dessas duas, não exceção.

O que te cobraram além dos tokens

A solução proposta pelo próprio orientador (alugar VPS por R$50 a R$150 por mês e pagar tokens diretos) é uma aproximação correta do princípio. Mas existe um caminho mais barato, mais seguro e que eu já opero há meses em PeritoPro, Carangos e Athena.
A nova arquitetura

Cloudflare Workers
+ Anthropic API direto.

A mesma stack que opera o PeritoPro hoje, em produção, há mais de três meses sem fatura inesperada uma única vez. Pricing transparente das duas únicas empresas no mercado que cobram só uso real.

Camada de execução
Cloudflare Workers
Edge global, zero servidor pra manter, pricing previsível por requests. US$ 5 por mês cobrem 10 milhões de requisições. Sem custos acessórios.
Camada de inteligência
Anthropic API
Claude Sonnet 4.6 com prompt caching ativado. Cobra exclusivamente tokens efetivamente consumidos. Sem endpoint provisionado, sem idle, sem mensalidade.
Memória dos agentes
D1 + KV + R2
Banco de dados, cache de sessão e armazenamento de arquivos da própria Cloudflare. Plano gratuito da plataforma cobre nosso volume com folga.
Front de atendimento
WhatsApp · Web · Telegram
Mesmo canal que os agentes operam hoje. Migração de canal é configuração, não reescrita.

Por que essa stack venceu as alternativas

Custos reais por faixa de volume

Sem letra miúda.
Tudo o que você vai pagar.

Três cenários honestos, do mais conservador ao mais agressivo. Tokens estimados com Sonnet 4.6 e prompt caching ativado, que é o padrão que eu já uso em todos os projetos.

Item Tipo Custo mensal
Cloudflare Workers Paid (os 2 agentes) Fixo R$ 28
D1 + KV + R2 (memória e arquivos) Fixo R$ 0
Domínios próprios (já registrados) Fixo R$ 0
Anthropic API · tokens Variável R$ 0,02 a R$ 0,15 por conversa

Cenários de operação mensal

Volume mensal Fixo Tokens Total mensal
500 conversas (uso conservador) R$ 28 R$ 30 R$ 58
2.000 conversas (operação saudável) R$ 28 R$ 120 R$ 148
10.000 conversas (alto volume) R$ 28 R$ 600 R$ 628
Lembre que sua fatura AWS sozinha foi R$ 2.000 com US$ 5 de uso real. No cenário mais agressivo da nova stack (10 mil conversas reais por mês) você paga R$ 628 e 100% disso é uso real, não overhead.

A migração em si

Entre sócios

A construção e migração dos 2 agentes pra nova base é por minha conta, sem custo pra você. Sou eu construindo na infra que eu já opero, com a stack que eu já domino. O que esse documento descreve daqui pra frente são apenas os custos de manutenção mensal pagos diretamente às plataformas (Cloudflare e Anthropic), nunca pra mim. Prazo da migração: 5 a 7 dias úteis após você me passar a extração dos prompts.

Quatro travas contra fatura surpresa

Formato absolutamente seguro,
como você pediu.

Nenhuma promessa. Quatro mecanismos concretos, dois nativos da plataforma e dois aplicados no código, que tornam impossível repetir o que aconteceu na AWS e no Google.

01
Hard cap mensal no console Anthropic. Eu defino um teto em dólares (digamos US$ 50 ou US$ 100). Atingiu o teto, a API simplesmente para de responder. Não gera dívida, não acumula em backlog. Você pode dormir tranquilo.
02
Plano Cloudflare Workers Paid tem preço fixo previsível. US$ 5 por mês cobrem 10 milhões de requests. Não existe "accessory cost" no produto. Se passar do limite (cenário improvável), sobe pra US$ 5 + US$ 0,30 por milhão extra. Sem surpresa.
03
Token budget por conversa no código do agente. Cada conversa tem teto de tokens aplicado direto na lógica. Se um usuário tentar abusar (loop, prompt injection), o agente recusa graciosamente e protege a fatura.
04
Dashboard de custo diário no seu WhatsApp. Construo um painel ZEUS-style que lê billing API da Anthropic e da Cloudflare todo dia, e dispara mensagem WhatsApp se passar de R$ X por dia. Você acompanha sem precisar abrir console nenhum.
Pós-reunião · 28 de abril, fim da tarde

O que decidimos juntos
e os caminhos comerciais.

Esse trecho registra o que ficou alinhado na nossa conversa hoje, depois que você leu a primeira versão deste documento. Construção em parceria, com você como ponte com os clientes finais.

Decisões já tomadas hoje

Os dois caminhos comerciais que conversamos

Recomendado · começar por aqui
Upgrade visual + taxa de manutenção
Para os clientes que hoje usam o agente em formato cru (sem histórico, sem acesso seguro, sem painel próprio). Oferecer plataforma visual nova, login com senha, histórico de conversas salvo, e cobrar mensalidade fixa de manutenção. Caminho mais viável, com menor barreira de aceitação e receita recorrente rápida.
Caminho ambicioso · segundo passo
Sistema IA integrado completo
Vender plataforma completa, com integração ao Athena (gestão e agendamento) e Apolo (criação de conteúdo). Tese mais forte de venda, ticket maior, mas requer ciclo comercial mais longo. Ideal pra clientes que já entenderam o valor e querem subir um nível.
Recomendação minha em reunião: começar pela Opção 1 com os clientes que já têm relacionamento. Vira receita recorrente rápida, valida o modelo na prática, e abre porta natural pra Opção 2 nos clientes que pedirem mais.

Clientes-alvo prioritários

Próxima ação combinada

Marcar reunião conjunta com os clientes-alvo pra apresentar o sistema IA integrado. Eu preparo o demo funcional logo após terminar a migração técnica dos 2 agentes.

Roteiro técnico dos próximos 7 dias

Como a gente sai
desse trap em uma semana.

Três etapas ordenadas, do lado técnico da operação. Funciona em paralelo com o caminho comercial descrito acima. Falta apenas sua parte da etapa 1 pra eu disparar.

01

Você extrai dos consoles AWS e Google Cloud

Três coisas de cada agente: o system prompt completo, a lista de ferramentas e fontes de dados que ele consulta, o último extrato com volume mensal de requests reais.

Responsável: Marcos · Prazo: 3 a 5 dias úteis
02

Eu confirmo o custo mensal exato em 24 horas

Recebida sua extração, devolvo o custo mensal estimado de manutenção (Cloudflare + Anthropic) baseado no seu volume histórico real, dentro das faixas que estão neste documento. Construção da migração é minha, sem custo, conforme combinado.

Responsável: Fábio · Prazo: 24h após etapa 1
03

Migração técnica e go-live (por minha conta)

Reconstruo os 2 agentes na nova stack, ligo as 4 travas de segurança, configuro o dashboard de custo no seu WhatsApp e entrego os 2 agentes rodando em domínios próprios. Após sua aprovação visual, os agentes saem da AWS e Google de vez. Esse trabalho técnico é meu, entre sócios, sem custo pra você.

Responsável: Fábio · Prazo: 5 a 7 dias úteis
A dívida atual de R$ 1.350 (já reduzida) e a outra ainda em negociação são sangramento que continua acontecendo enquanto a infra antiga está parada. Quanto antes a gente migrar, mais cedo você corta o cordão umbilical com AWS e Google.

Sinal de sucesso

Aprovação

Esse documento existe pra você dormir tranquilo. A migração é minha, entre sócios. O que você paga daqui pra frente é só a infra real das plataformas.

Quando você quiser ligar pra revisar etapa por etapa, ajustar qualquer ponto, ou já partir pra extração dos consoles AWS e Google, é só falar.

OLIMPO LAB
Fábio Macarroni Consultor técnico · ApoloFlow · OLIMPO Lab