À medida que entregar capacidades “agênticas” — ou seja, de IA que age por conta própria — vira requisito básico entre as empresas de modelos de fundação, a Anthropic entra no jogo com o Claude Sonnet 5. Trata-se de uma versão mais potente e mais autônoma do modelo de porte médio do laboratório, pensada justamente para dar conta de tarefas complexas sem precisar de supervisão o tempo todo.
Segundo a própria Anthropic, o novo modelo consegue elaborar planos, usar ferramentas como navegadores e terminais e operar de forma autônoma em um nível que, poucos meses atrás, exigia modelos bem maiores e mais caros. Se você acompanha o avanço da inteligência artificial, vale entender o que esse lançamento representa — e por que ele diz muito sobre para onde a corrida dos modelos está caminhando.
Autonomia deixou de ser diferencial e virou o novo padrão
O jeito como a Anthropic apresenta o Sonnet 5 não é exclusividade dela. É praticamente o mesmo discurso que OpenAI e Google vêm adotando em seus lançamentos recentes. O GPT-5.6 Sol, da OpenAI, estreou em prévia na semana passada como o modelo mais agêntico da empresa até hoje, capaz de distribuir o trabalho entre subagentes para dar conta de tarefas autônomas mais longas. Já o Gemini 3.5 Flash, do Google, lançado em maio, foi vendido como uma virada de chave: de um chatbot de conversa para uma ferramenta que planeja, constrói e refina trabalhos reais com o mínimo de intervenção humana.
O recado do Sonnet 5, portanto, é uma confirmação: a capacidade agêntica passou a ser a expectativa mínima em qualquer faixa de preço. O diferencial deixou de ser quem faz o trabalho autônomo melhor, e passou a ser quem faz isso de forma mais barata e mais confiável, sem depender de alguém olhando por cima do ombro.
Desempenho perto do Opus 4.8, mas por um preço bem menor
E é aqui que mora a maior promessa do Sonnet 5: entregar um desempenho próximo ao do Opus 4.8, o modelo mais robusto da casa, mas custando bem menos. A partir do lançamento, o Claude Sonnet 5 se torna o modelo padrão dos planos gratuito e Pro, ficando disponível para todas as assinaturas.
No lançamento, o preço ficou em 2 dólares por milhão de tokens de entrada e 10 dólares por milhão de tokens de saída até 31 de agosto. Depois dessa data, os valores sobem para 3 e 15 dólares, respectivamente. Mesmo com o reajuste, isso mantém o Sonnet 5 mais barato que o Opus 4.8, além de custar menos que o GPT-5.5, da OpenAI, e o Gemini 3.1 Pro, do Google — embora ainda seja mais caro que o Gemini 3.5 Flash.
O que melhorou em relação ao Sonnet 4.6
Comparado ao seu antecessor, o Sonnet 4.6, lançado em fevereiro, o novo modelo mostra avanços significativos em desempenho agêntico. Isso inclui raciocínio, uso de ferramentas, programação de software e o chamado “trabalho de conhecimento”, segundo a Anthropic.
Os números ajudam a ilustrar. Em um benchmark de programação agêntica, o Sonnet 5 alcançou 63,2%, contra 69,2% do Opus 4.8 e 58,1% do Sonnet 4.6 — ou seja, um salto expressivo em relação à versão anterior. Já em um teste de trabalho de conhecimento, o Sonnet 5 chegou a superar levemente o próprio Opus 4.8, que é conhecido justamente por brilhar nas tarefas mais difíceis, aquelas que exigem julgamentos sutis e pesquisa aprofundada.
A Anthropic faz questão de contextualizar esse ponto. O Opus 4.8 continua sendo a escolha para quem precisa de maior precisão nessas tarefas mais complexas, mas o Sonnet 5 oferece aos desenvolvedores uma opção mais barata e de qualidade muito superior ao que existia antes nessa faixa. Na prática, quem trabalha com os dois pode ajustar o nível de esforço para encontrar o equilíbrio ideal entre custo e desempenho.
Tarefas que antes travavam pela metade
Um dos elogios mais interessantes vindos dos testadores citados pela empresa é que o Sonnet 5 se sai muito bem em concluir tarefas complexas onde as versões anteriores paravam antes da hora. Mais do que isso, ele revisa o próprio resultado sem que ninguém peça explicitamente para fazê-lo.
Daniel Shepard, engenheiro sênior da Zapier, contou que entregou ao modelo um trabalho de duas etapas — atualizar níveis de contas no Salesforce e disparar um anúncio de lançamento para contatos corporativos — e ele executou tudo do início ao fim. Segundo Shepard, esse tipo de tarefa costumava emperrar na metade do caminho, e agora, para a automação do dia a dia, virou decisão óbvia.
Segurança: um modelo que sabe quando dizer não
No quesito segurança, o Sonnet 5 também evoluiu. Ele apresenta uma taxa menor de comportamentos indesejados — como cooperar com usos maliciosos ou agir de forma enganosa — em comparação ao antecessor, o que o torna mais seguro em contextos agênticos. Na prática, ele é melhor em recusar solicitações maliciosas e em escapar de tentativas de sequestro por meio de ataques de injeção de prompt. E ainda “alucina” e age de forma bajuladora com menos frequência do que o Sonnet 4.6.
Vale a ressalva, no entanto, de que ele não está no mesmo patamar do Opus 4.8 nem do Claude Mythos Preview quando o assunto é lidar com comportamentos desalinhados. As avaliações da própria Anthropic mostram, inclusive, que o Sonnet 5 tem uma capacidade muito menor de executar tarefas perigosas de cibersegurança do que os modelos Opus atuais — o que, nesse caso, é uma característica desejável.
Fabian Hedin, cofundador da Lovable, resumiu bem esse lado ao dizer que o Claude Sonnet 5 recusa pedidos inseguros de forma limpa e consistente. Como a Lovable coloca ferramentas poderosas nas mãos de milhões de criadores, ele destacou que um modelo que sabe a hora de dizer não é tão importante quanto um que sabe construir.
O que esperar daqui para frente
O lançamento do Claude Sonnet 5 confirma uma tendência clara no mercado de IA: a autonomia dos modelos deixou de ser o grande argumento de venda e passou a ser o ponto de partida. A disputa, agora, se desloca para o custo e a confiabilidade — quem consegue entregar mais trabalho autônomo, gastando menos e errando menos.
Para desenvolvedores e empresas que dependem de automação, isso é uma ótima notícia. Modelos capazes de conduzir tarefas complexas de ponta a ponta, com bom senso de segurança e um preço acessível, deixam de ser luxo e passam a fazer parte do cardápio básico. E, se essa lógica continuar valendo, o próximo capítulo da corrida da IA promete ser tão disputado no bolso quanto na capacidade técnica.
