• SnaqNews
  • Posts
  • Google e Anthropic escalam a guerra de modelos

Google e Anthropic escalam a guerra de modelos

E mais: principais atualizações de modelos e novas ferramentas

Bom dia!

Hoje é dia de edição especial do Radar de IA. A cada 15 dias no seu e-mail, um resumo claro e direto das novidades mais importantes em ferramentas e aplicações de IA.

É NA PRÓXIMA SEMANA: na segunda-feira vamos abrir as inscrições para a primeira turma do nosso curso de IA para negócios, com o Rafael Girolineto.

As vagas são limitadas. Para receber as informações direto no WhatsApp, clique aqui.

GIRO DE NOTÍCIAS

GOOGLE E ANTHROPIC ESCALAM A GUERRA DE MODELOS

Google e Anthropic protagonizaram lançamentos consecutivos nas últimas semanas que elevaram as capacidades de modelos de IA em raciocínio e desenvolvimento de software.

O movimento do Google:

  • O Gemini 3.0 estabeleceu um novo patamar em IA com capacidades de raciocínio profundo e compreensão multimodal.

  • O modelo se destaca por processar simultaneamente texto, imagens, vídeos e código em contextos extensos de até 1 milhão de tokens, permitindo aplicações práticas como decifrar receitas manuscritas em múltiplos idiomas, analisar partidas de esportes para gerar planos de treinamento, ou criar visualizações interativas de conceitos científicos complexos.

O contragolpe da Anthropic:

  • Alguns dias depois, Anthropic contra-atacou com o Claude Opus 4.5, tornando-se líder em engenharia de software ao superar modelos concorrentes da OpenAI e Google em testes de desenvolvimento real.

  • Testers relataram que Opus 4.5 completa tarefas que eram impossíveis para seu predecessor, lidando com ambiguidade e fazendo escolhas técnicas sem supervisão e ainda reduzindo uso de tokens em até 65% em algumas tarefas de longa duração.

  • Além dos resultados em benchmarks, a Anthropic reduziu custos em 67%. O ecossistema Claude expandiu significativamente com Claude Code ganhando modo de planejamento aprimorado, conversas ilimitadas através de auto-resumo inteligente, e expansão do Claude for Chrome para todos os usuários Max.

O que isso significa pra nós? Os dois lançamentos acirram a guerra de modelos e oferecem aos usuários opções diversificadas: Gemini 3 para casos que exigem processamento multimodal intenso e integrações com produtos Google, Claude Opus 4.5 para desenvolvimento profissional de software e tarefas agentes onde equilíbrio entre performance e custo é crítico. A competição acelerada beneficia o mercado ao pressionar inovação contínua e redução de preços.

ESTUDO DA ANTHROPIC MEDE PRODUTIVIDADE DA IA

A Anthropic estudou 100 mil conversas do Claude.ai estimando quanto tempo tarefas levariam com e sem assistência de IA. Os resultados indicam que o Claude acelera tarefas individuais em aproximadamente 80%, com usuários economizando em média 1,4 horas por tarefa. Trabalho que custaria cerca de US$ 55 se realizado por profissionais humanos.

  • A produtividade adicional varia significativamente por ocupação: tarefas jurídicas e de gestão, por exemplo, que levariam quase duas horas são as mais beneficiadas, enquanto assistência em saúde mostra economia de 90% do tempo.

  • Projetando esses ganhos para toda a economia dos EUA ao longo de uma década, o estudo estima um aumento de 1,8% na produtividade anual do trabalho, o dobro da taxa recente.

E O CONGRESSO AMERICANO VAI INVESTIGAR CIBERESPIONAGEM CHINESA COM IA

O presidente do Comitê de Segurança Interna da Câmara dos EUA, Andrew Garbarino, enviou cartas convocando o CEO da Anthropic, Dario Amodei, o CEO do Google Cloud, Thomas Kurian, e o CEO da Quantum Xchange, Eddy Zervigon, para testemunharem numa audiência sobre IA e cibersegurança em 17 de dezembro.

  • O foco será o uso de Claude Code por atores estatais chineses numa ampla campanha de ciberespionagem revelada no início de novembro, marcando o primeiro caso documentado de ciberataque orquestrado por IA.

  • A audiência busca entender como hackers de estados-nação podem usar outras ferramentas de IA para conduzir ataques similares e como essas mesmas ferramentas podem ser usadas defensivamente.

  • Garbarino alertou que esta é a primeira vez que um adversário estrangeiro usou um sistema comercial de IA para executar quase toda uma operação cibernética com mínimo envolvimento humano, o que deve preocupar todas as agências federais e setores de infraestrutura crítica.

VOLTA RÁPIDA

A Luma AI levantou US$ 900 milhões em rodada Série C liderada pela Humain, com participação significativa da AMD e participação de Andreessen Horowitz, Omniva, Amplify Partners e Matrix Partners. O investimento vai financiar a construção do Project Halo, supercluster de computação de 2 GW em parceria com a Humain, com conclusão prevista para 2028-29.

  • A infraestrutura será dedicada ao treinamento e inferência de modelos multimodais, seguindo a tese da Luma de que AGI requer treinamento conjunto sobre todas as modalidades de sinais (texto, vídeo, áudio, imagens), paradigma demonstrado no Ray3, seu modelo de vídeo com raciocínio que obteve ampla adoção.

Microsoft e NVIDIA anunciaram investimentos combinados de até US$ 15 bilhões na Anthropic, elevando a avaliação da startup de IA para aproximadamente US$ 350 bilhões, quase o dobro dos US$ 183 bilhões registrados em setembro.

  • Toma lá da cá: a Anthropic se comprometeu a comprar US$ 30 bilhões em capacidade de computação Azure e contratar até 1 gigawatt adicional tanto da Microsoft quanto da NVIDIA, consolidando parcerias técnicas profundas que incluem otimização conjunta dos modelos Claude.

  • O movimento marca uma diversificação estratégica da Microsoft, que já investiu bilhões na rival OpenAI.

O Google está expandindo as capacidades agênticas do AI Mode no Search, permitindo que usuários façam reservas de restaurantes, comprem ingressos para eventos e façam agendamentos de serviços locais diretamente pela busca. A ferramenta Canvas também foi integrada ao planejamento de viagens, permitindo criar roteiros personalizados em linguagem natural, enquanto o Flight Deals, ferramenta de IA para encontrar passagens baratas, foi expandido para mais de 200 países.

A Amazon anunciou um investimento de até US$ 50 bilhões para expandir sua capacidade de fornecer serviços de IA e computação de alto desempenho para agências governamentais dos EUA. O projeto, que deve começar em 2026, adicionará 1,3 gigawatts de capacidade através de novos data centers federais, oferecendo acesso às ferramentas de IA da AWS, aos modelos Claude da Anthropic, chips Nvidia e os chips customizados Trainium da Amazon.

A OpenAI lançou o shopping research no ChatGPT, um modo de “assistente de compras” que conversa com o usuário, busca informações atualizadas na web e gera guias personalizados com poucas recomendações bem explicadas, usando uma versão do GPT-5 mini treinada para comparar produtos, respeitar orçamento e preferências, manter resultados orgânicos e, no futuro, conectar-se ao Instant Checkout para permitir compras diretamente dentro do chat. 

Alibaba, ByteDance e outras grandes empresas de tecnologia chinesas estão treinando seus modelos de linguagem mais avançados em data centers no Sudeste Asiático para contornar as restrições americanas e acessar chips NVIDIA de alta performance. A estratégia ganhou força após os EUA limitarem as vendas do chip H20 em abril, com empresas usando acordos de leasing em instalações operadas por entidades não-chinesas

Stack Overflow lançou uma linha de produtos empresariais que reposiciona a plataforma como fornecedora de dados para sistemas de IA. O Stack Internal permite que empresas alimentem agentes de IA com conhecimento técnico estruturado, incluindo metadados e scores de confiabilidade para cada resposta.

  • A mudança estratégica segue o modelo de negócio do Reddit, que já gerou mais de US$ 200 milhões licenciando conteúdo para labs de IA, e foi inspirada pela demanda crescente de clientes empresariais usando a API para treinamento de modelos.

À medida que agentes de IA precisam trabalhar com muitas ferramentas simultaneamente, três desafios precisam ser superados:

1) definições de ferramentas consumindo contexto excessivo
2) resultados intermediários poluindo a janela de contexto
3) ambiguidades em schemas JSON (estrutura utilizada para definir e registrar as ferramentas) que não capturam padrões de uso práticos

  • Como a Anthropic está resolvendo? Com esses desafios em mente, Anthropic lançou três recursos beta que permitem ao Claude descobrir, aprender e executar ferramentas dinamicamente.

  • O “Tool Search Tool” resolve o problema do consumo dezenas de milhares pelas definições de ferramentas, permitindo descoberta sob demanda e reduzindo uso de tokens em 85%.

  • Já o “Programmatic Tool Calling” permite que Claude orquestre ferramentas através de código Python ao invés de múltiplas chamadas API individuais, mantendo resultados intermediários fora do contexto do modelo. Isso reduziu consumo médio de tokens de 43.588 para 27.297 (37% de redução) e melhorou precisão em tarefas de recuperação de conhecimento.

  • E, por último, o Tool Use Examples fornece padrões de uso concretos que schemas JSON não conseguem expressar, melhorando precisão de 72% para 90% em parâmetros complexos.

O Google apresentou Antigravity, uma nova ferramenta de desenvolvimento que coloca agentes de IA no centro da experiência de programação. Construída para o recém-lançado Gemini 3 Pro, a plataforma oferece duas interfaces distintas: uma visão tradicional de IDE e uma visão gerencial para controlar múltiplos agentes simultaneamente.

  • O diferencial está nos Artifacts, um sistema que documenta automaticamente o trabalho dos agentes através de capturas de tela, planos e gravações do navegador, permitindo verificação transparente das ações realizadas. A ferramenta já está disponível em preview gratuito para Windows, macOS e Linux.

O Google DeepMind contratou Aaron Saunders, ex-CTO da Boston Dynamics, como VP de engenharia de hardware. Demis Hassabis, CEO da DeepMind, revelou uma visão ambiciosa de transformar o Gemini em um sistema operacional para robôs físicos. Saunders foi responsável por desenvolver as capacidades acrobáticas e de dança dos robôs da Boston Dynamics, trazendo expertise crucial para a expansão da DeepMind em robótica.

MODELOS

GPT-5.1-Codex-Max é o novo modelo de codificação agentic da OpenAI, construído sobre um modelo de raciocínio atualizado e focado em trabalhos longos e detalhados.

  • Com a técnica de compaction, ele consegue operar de forma coerente ao longo de múltiplas janelas de contexto, alcançando milhões de tokens por tarefa e viabilizando refactors em escala de projeto, loops de agente de horas e sessões de debug profundas, já disponível no Codex via CLI, IDE, cloud e code review.

  • Treinado em tarefas reais de engenharia (PRs, code review, frontend, Q&A) e pela primeira vez operando em Windows, o modelo supera versões anteriores em benchmarks como SWE-bench Verified e Terminal-Bench 2.0, entregando melhor desempenho com cerca de 30% menos thinking tokens no modo “medium” e oferecendo um novo nível “Extra High” para quem pode pagar em latência por mais qualidade.

  • Ele também avança em cibersegurança, com execução em sandbox, monitoramento reforçado e uso recomendado apenas como revisor adicional; passa a ser o padrão nas superfícies do Codex e já está associado a um aumento de ~70% no volume de PRs dos engenheiros da própria OpenAI.

Nano Banana Pro é o novo modelo de imagem do Google, baseado no Gemini 3 Pro, focado em gerar e editar imagens com qualidade de estúdio e ênfase em texto dentro da imagem. Ele combina raciocínio avançado e grounding em informações de mundo e (até) em dados em tempo real para criar infográficos, diagramas, receitas e explicações visuais mais úteis e contextuais.

  • O modelo se diferencia por renderizar textos legíveis em múltiplos idiomas, suportar composições complexas com consistência de personagens e objetos, e oferecer controles finos de câmera, luz, cor, aspecto e resolução até 4K.

A xAI apresentou o Grok 4.1 Fast, seu modelo mais avançado para chamadas de ferramentas (tool calling) com janela de contexto de 2 milhões de tokens, junto com a Agent Tools API que fornece acesso a dados do X em tempo real, busca web e execução remota de código.

  • O modelo foi treinado especificamente para casos de uso empresariais reais através de aprendizado por reforço em ambientes simulados, alcançando desempenho superior em benchmarks de suporte ao cliente e pesquisa agentica.

  • Os desenvolvedores agora podem construir agentes autônomos de nível profissional que planejam, executam tarefas complexas e operam de forma independente, com as ferramentas rodando inteiramente na infraestrutura da xAI.

O Allen Institute for AI lançou OLMo 3, uma família de modelos de linguagem que revoluciona a transparência em IA ao disponibilizar não apenas os pesos finais, mas todo o pipeline de desenvolvimento. A família inclui modelos de 7B e 32B parâmetros em diferentes variantes: Base (fundação), Think (raciocínio com traces visíveis), Instruct (chat e ferramentas) e RL Zero (experimentação com aprendizado por reforço).

  • O OLMo 3-Think 32B é apresentado como o melhor modelo de raciocínio totalmente aberto em sua escala, competindo com Qwen 3 e outros líderes enquanto treina com 6x menos tokens. Todo o ecossistema, dados de treinamento (Dolma 3 com 9.3 trilhões de tokens), código, checkpoints intermediários e ferramentas como OlmoTrace, está disponível sob licenças permissivas, permitindo que pesquisadores e desenvolvedores modifiquem, auditem e construam sobre qualquer estágio do processo.

*Curadoria de notícias da seção e comentários feitos por Rafael Girolineto, AI expert, parceiro da Snaq e Data & AI Manager da Inspira

Na próxima semana vamos lançar um curso de 5 semanas para líderes que precisam entender IA com clareza, pra conversar com seus times, fazer escolhas com segurança e preparar o negócio para os próximos meses e anos.

Quer ser avisado em primeira mão? Entre na lista de espera aqui.

Aqui na Snaq, acreditamos que as melhores marcas são aquelas que compartilham conhecimento e se tornam thought leaders para a sociedade!

Quer ser nosso parceiro nessa missão de compartilhar inteligência e educação sobre inovação? Manda uma mensagem pra gente!

O que achou dessa edição?

Faça Login ou Inscrever-se para participar de pesquisas.