• SnaqNews
  • Posts
  • Novo GPT 5.2 e como as pessoas estão usando agentes

Novo GPT 5.2 e como as pessoas estão usando agentes

E mais: principais atualizações de modelos e novas ferramentas

Bom dia!

Hoje é dia de edição especial do Radar de IA. A cada 15 dias no seu e-mail, um resumo claro e direto das novidades mais importantes em ferramentas e aplicações de IA.



Mas antes das news, se você não conseguiu estudar IA como gostaria este ano, dá para começar 2026 com isso resolvido:

Lançamos um curso executivo de 5 semanas, ministrado por Rafael Girolineto, autor desta newsletter quinzenal, que começará em janeiro!

  • Pra quem é o curso? Pensado para líderes que precisam entender IA com clareza, para conversar com seus times, tomar decisões com mais segurança e preparar o negócio para os próximos meses e anos.

  • A ementa foi desenhada com a qualidade e a amplitude de um curso que nós mesmos gostaríamos de fazer: fundamentos bem explicados, visão estratégica e aplicações práticas no contexto de negócios.

As inscrições já estão abertas, com cupons de pré-venda limitados: PREVENDA40.

GIRO DE NOTÍCIAS

CÓDIGO VERMELHO NA OpenAI E NOVO GPT 5.2

No início de dezembro, a OpenAI declarou "code red" para priorizar melhorias no ChatGPT, e adiou iniciativas em frentes como publicidade, agentes de IA para saúde e compras, e o assistente pessoal Pulse, redirecionando equipes para aprimorar personalização, velocidade e confiabilidade do chatbot.

  • O que está por trás disso? Com acordos já firmados de centenas de bilhões em data centers e necessidade de US$ 200 bilhões em receita para gerar lucro em 2030, a OpenAI enfrenta uma grande pressão financeira.

  • Concorrentes surpreendendo: Essa urgência chega como resposta direta ao avanço do Google, cujo Gemini 3.0 Pro superou os modelos da OpenAI em benchmarks e cujo app expandiu sua base de 450 milhões para 650 milhões de usuários mensais em três meses.

  • GPT 5.2, a reação: O código vermelho resultou no lançamento do GPT 5.2 nessa quinta-feira (11/12/2025). A nova versão do modelo apresentou um salto nos benchmarks, trazendo uma versão de modelo que é competitiva com os modelos de estado da arte (SOTA) como Gemini 3.0 do Google e Claude Opus 3.5 da Anthropic.

  • O novo modelo da OpenAI aprofunda o foco em raciocínio e qualidade de uso, corrigindo críticas ao GPT-5 e alinhando o modelo à estratégia de melhorar a experiência diária do ChatGPT.

EUA: DESREGULAÇÃO DE IA E ACORDO DE CHIPS COM A CHINA

O presidente americano anunciou que assinará uma ordem executiva para eliminar a "colcha de retalhos" de regulamentações estaduais sobre IA nos EUA.

  • A medida atende a pedidos de lobby de empresas como OpenAI e da firma de venture capital Andreessen Horowitz, que argumentam que as mais de 100 leis estaduais aprovadas em 2025 dificultam a inovação.

  • Em paralelo, Trump autorizou a Nvidia a exportar seus chips H200 para "clientes aprovados" na China, com 25% das vendas destinadas ao governo americano. A medida reverte parcialmente as restrições impostas por Biden em 2022 e se estenderá a AMD e Intel.

  • Xi Jinping teria respondido positivamente à proposta, mas parlamentares de ambos os partidos americanos expressaram preocupação: republicanos alertam que os chips ajudarão a China a reduzir sua desvantagem tecnológica, enquanto democratas apontam que o próprio Departamento de Justiça identificou redes de contrabando desses mesmos chips para território chinês.

DEEPSEEK V3.2

  • O V3.2 substitui oficialmente a versão experimental anterior e está disponível via aplicativo, web e API, oferecendo desempenho que a empresa compara ao nível do GPT-5.

  • Já o V3.2-Speciale eleva as capacidades de raciocínio ao máximo, rivalizando com o Gemini-3.0-Pro e alcançando resultados de medalha de ouro em competições como a Olimpíada Internacional de Matemática (IMO), ICPC World Finals e IOI 2025.

  • O V3.2-Speciale está disponível temporariamente apenas via API até 15 de dezembro, enquanto os modelos completos já estão publicados no HuggingFace.

  • O que tem de interessante? Um diferencial técnico importante é que o V3.2 é o primeiro modelo da DeepSeek a integrar raciocínio diretamente no uso de ferramentas (tool-use), permitindo que o modelo "pense" durante a execução de tarefas complexas.

VOLTA RÁPIDA

Pesquisadores da Perplexity e Harvard publicaram o primeiro estudo em larga escala sobre como pessoas realmente usam agentes de IA, analisando centenas de milhões de interações anônimas.

  • A descoberta central surpreendeu: 57% da atividade foca em trabalho cognitivo, sendo 36% em produtividade e workflow, 21% em aprendizado e pesquisa. Os agentes funcionam mais como parceiros de pensamento do que como "mordomos digitais" para tarefas simples.

  • Evolução interessante no comportamento dos usuários: novatos começam com consultas de baixo risco (viagens, recomendações), mas rapidamente migram para tarefas de produtividade e raramente voltam.

  • Seis ocupações respondem por 70% de toda atividade, com profissionais de marketing, vendas e gestão demonstrando maior intensidade de uso após adoção inicial.

  • O contexto molda o uso também: profissionais de finanças focam 47% em produtividade, enquanto estudantes dedicam 43% a aprendizado e pesquisa.

A Meta anunciou a aquisição da Limitless, startup conhecida anteriormente como Rewind, que fabricava um pendente de IA de US$ 99 que gravava conversas.

  • A empresa, fundada por Brett Bejcek e Dan Siroker (ex-CEO da Optimizely), havia captado mais de US$ 33 milhões de investidores como a16z, First Round Capital e NEA.

  • A equipe passará a integrar a área de wearables do Reality Labs, contribuindo para a visão da Meta de "trazer superinteligência pessoal pra todos" com dispositivos vestíveis.

A Anthropic está lançando o Claude Code no Slack, expandindo sua integração para permitir automação completa de fluxos de trabalho de desenvolvimento.

  • Agora, desenvolvedores podem marcar @Claude em threads para iniciar sessões de codificação que utilizam o contexto das conversas, como relatórios de bugs ou solicitações de funcionalidades, para determinar o repositório correto, postar atualizações de progresso e abrir pull requests automaticamente.

  • Big picture: a integração reflete uma tendência mais ampla do setor. Assistentes de codificação IA estão migrando de IDEs para ferramentas de colaboração onde as equipes já trabalham. Cursor, GitHub Copilot e OpenAI Codex seguem movimento semelhante.

  • Para o Slack, que se posiciona como "hub agêntico", a ferramenta de IA que dominar a plataforma pode moldar o futuro dos fluxos de trabalho de desenvolvimento de software.

A OpenAI contratou Denise Dresser, CEO do Slack, para liderar sua operação comercial como Chief Revenue Officer. A executiva passou 14 anos na Salesforce, empresa que adquiriu o Slack em 2021 por quase US$ 28 bilhões, e terá como missão expandir a unidade enterprise da OpenAI.

A Anthropic anunciou a doação do Model Context Protocol (MCP) para a Agentic AI Foundation (AAIF), um novo fundo dirigido pela Linux Foundation. A AAIF foi co-fundada por Anthropic, Block e OpenAI, com apoio de Google, Microsoft, AWS, Cloudflare e Bloomberg, e terá como projetos fundadores o MCP, o goose (da Block) e o AGENTS.md (da OpenAI).

  • O MCP completou um ano com números expressivos: mais de 10.000 servidores públicos ativos, adoção por plataformas como ChatGPT, Cursor, Gemini, Microsoft Copilot e Visual Studio Code, e mais de 97 milhões de downloads mensais dos SDKs em Python e TypeScript.

  • A intenção da doação à Linux Foundation é garantir que o protocolo permaneça neutro, open-source e orientado pela comunidade, seguindo o modelo de projetos como Kubernetes e PyTorch.

O Google Research apresentou o Titans, uma arquitetura que dá aos modelos de IA uma espécie de "memória de longo prazo".

  • Hoje, sistemas como o ChatGPT têm dificuldade em processar documentos muito extensos porque o custo computacional dispara conforme o texto cresce, é como se o modelo precisasse reler tudo a cada nova palavra.

  • Alternativas mais rápidas existem, mas funcionam comprimindo o conteúdo de forma que detalhes importantes se perdem.

  • A solução do Titans é inspirada em como o cérebro humano funciona: lembramos facilmente de eventos surpreendentes, mas esquecemos rapidamente o que é rotineiro.

  • O modelo usa essa mesma lógica, calculando uma "métrica de surpresa" para decidir o que vale a pena guardar na memória permanente.

  • Nos testes, a arquitetura conseguiu processar textos com mais de 2 milhões de tokens (equivalente a vários livros) e superou até o GPT-4 em tarefas que exigem conectar informações espalhadas em documentos longos, mesmo sendo um modelo muito menor.

MODELOS

O Google lançou o Gemini 3 Deep Think, um modo de raciocínio avançado disponível para assinantes do Google AI Ultra no aplicativo Gemini. O modelo foi projetado para enfrentar problemas complexos de matemática, ciência e lógica, utilizando uma técnica de raciocínio paralelo que explora múltiplas hipóteses simultaneamente.

  • Benchmarks: O Gemini 3 Deep Think alcançou resultados de referência em benchmarks rigorosos: 41% no Humanity's Last Exam (sem uso de ferramentas) e 45,1% no ARC-AGI-2 (com execução de código), este último sendo um resultado sem precedentes.

  • O modelo é uma evolução das variantes Gemini 2.5 Deep Think, que recentemente conquistaram padrão medalha de ouro na Olimpíada Internacional de Matemática e na final mundial do ICPC (International Collegiate Programming Contest).

A Mistral AI apresentou sua nova geração de modelos para código: o Devstral 2 (123B parâmetros) e o Devstral Small 2 (24B parâmetros).

  • O modelo maior atinge 72,2% no SWE-bench Verified, estabelecendo-se como estado da arte entre modelos open-source, enquanto a versão compacta alcança 68% e pode rodar em hardware de consumo. Ambos possuem janela de contexto de 256K tokens e são até 7x mais eficientes em custo que concorrentes proprietários.

  • A empresa também lançou o Mistral Vibe CLI, assistente de linha de comando sob licença Apache 2.0 que permite automação completa de código via linguagem natural. A ferramenta integra-se com IDEs como Zed e oferece recursos como manipulação de arquivos, controle de versão e orquestração multi-arquivo. O Devstral 2 está disponível gratuitamente via API durante o período inicial, com precificação futura de $0,40/$2,00 por milhão de tokens.

A Zhipu AI apresentou o GLM-4.6V, nova geração de modelos multimodais open-source com duas versões: o modelo completo de 106B parâmetros para implantação em nuvem e o GLM-4.6V-Flash de 9B para aplicações locais de baixa latência.

  • A principal inovação é o suporte nativo a function calling multimodal. Diferente de abordagens tradicionais que exigem conversão de imagens para texto, o modelo aceita e processa conteúdo visual diretamente como parâmetros de ferramentas, eliminando perda de informação.

  • Com janela de contexto de 128K tokens, o modelo processa cerca de 150 páginas de documentos complexos ou uma hora de vídeo em uma única inferência.

  • As capacidades incluem: compreensão de documentos com geração de conteúdo estruturado imagem-texto, busca visual na web com raciocínio sobre resultados, replicação de interfaces a partir de screenshots e análise comparativa de relatórios financeiros.

  • Benchmarks: O modelo alcançou desempenho estado-da-arte em benchmarks multimodais entre modelos open-source de escala similar.

A Microsoft Research lançou o Fara-7B, seu modelo de linguagem projetado especificamente para operar computadores como um agente autônomo. Com apenas 7 bilhões de parâmetros, o modelo interage com interfaces através de capturas de tela, executando ações como cliques, digitação e rolagem, exatamente como um usuário humano faria, sem depender de árvores de acessibilidade ou modelos auxiliares.

  • Benchmarks: Nos testes de benchmark, o Fara-7B alcançou 73,5% no WebVoyager, superando modelos maiores como o GPT-4o com Set-of-Marks (65,1%) e o OpenAI computer-use-preview (70,9%), além de ser significativamente mais eficiente em custo por tarefa.

  • Uma versão otimizada pode rodar localmente em PCs com Windows 11 equipados com NPU (novos tipos de processadores focados em processamento de IA).

A ByteDance apresentou o Vidi2, uma plataforma de IA focada em compreensão e criação de vídeos. 

  • O sistema é alimentado por um modelo multimodal que oferece quatro capacidades principais: recuperação temporal (encontrar momentos específicos via linguagem natural), grounding espaço-temporal (rastrear objetos com bounding boxes precisos), respostas a perguntas sobre o conteúdo do vídeo e edição inteligente automatizada.

  • A plataforma processa vídeos de 10 segundos a 30 minutos e, segundo a empresa, supera substancialmente o GPT-5 e o Gemini 3 Pro nos benchmarks VUE-TR-V2 e VUE-STG.

  • Entre as aplicações práticas estão a busca instantânea em horas de gravações, rastreamento de sujeitos ao longo do vídeo e cortes automáticos com composição inteligente.

*Curadoria de notícias da seção e comentários feitos por Rafael Girolineto, AI expert, parceiro da Snaq e Data & AI Manager da Inspira

Aqui na Snaq, acreditamos que as melhores marcas são aquelas que compartilham conhecimento e se tornam thought leaders para a sociedade!

Quer ser nosso parceiro nessa missão de compartilhar inteligência e educação sobre inovação? Manda uma mensagem pra gente!

O que achou dessa edição?

Faça Login ou Inscrever-se para participar de pesquisas.