Pesquisa de IA do Google Cloud: Agentes de IA sofrem de “amnésia digital” e repetem erros a cada nova tarefa, limitando sua eficiência real. Entenda como superar essa barreira e construir assistentes que aprendem, memorizam e evoluem com o uso.
Tempo de leitura: 3-5 minutos | Atualizado em 2026-04-23 07:26:00
🇧🇷 O Que Isso Significa para o Brasil?
Com o crescimento do ecossistema de IA no país e discussões sobre regulação (PL 2338/2023), avanços em inteligência artificial, machine learning e automação impactam diretamente profissionais, startups e empresas brasileiras. Fique atento a:
- 🎓 Capacitação profissional: Demanda por habilidades em IA cresce 3x ao ano no mercado brasileiro
- ⚖️ Marco Regulatório: Proposta de lei sobre IA pode afetar desenvolvimento e uso de ferramentas
- 🏢 Adoção empresarial: Setores como saúde, jurídico e financeiro lideram implementação de IA no Brasil
Análise Completa
A maioria dos agentes de IA hoje tem um problema fundamental de amnésia. Implante um para navegar na web, resolver problemas do GitHub ou navegar em uma plataforma de compras, e ele aborda cada tarefa como se nunca tivesse visto nada parecido antes. Não importa quantas vezes tenha tropeçado no mesmo tipo de problema, ele repete os mesmos erros. Lições valiosas evaporam no momento em que uma tarefa termina.
Uma equipe de pesquisadores do Google Cloud AI, da Universidade de Illinois Urbana-Champaign e da Universidade de Yale apresenta Banco de raciocíniouma estrutura de memória que não apenas registra o que um agente fez — ela destila por que algo funcionou ou falhou em estratégias de raciocínio reutilizáveis e generalizáveis.
O problema com a memória do agente existente
Para entender por que o ReasoningBank é importante, você precisa entender o que a memória do agente existente realmente faz. Duas abordagens populares são memória de trajetória (usada em um sistema chamado Synapse) e memória de fluxo de trabalho (usada em Agent Workflow Memory, ou AWM). A memória de trajetória armazena logs de ação brutos – cada clique, rolagem e consulta digitada que um agente executou. A memória de fluxo de trabalho vai um passo além e extrai procedimentos passo a passo reutilizáveis de bem-sucedido só funciona.
Ambos têm pontos cegos críticos. As trajetórias brutas são ruidosas e muito longas para serem diretamente úteis para novas tarefas. A memória do fluxo de trabalho explora apenas tentativas bem-sucedidas, o que significa que o rico sinal de aprendizado oculto em cada falha – e os agentes falham muito – é completamente descartado.
Como funciona o ReasoningBank
O ReasoningBank opera como um processo de memória em circuito fechado com três etapas que giram em torno de cada tarefa concluída: recuperação de memória, extração de memória, e consolidação da memória.
Antes de um agente iniciar uma nova tarefa, ele consulta o ReasoningBank usando pesquisa de similaridade baseada em incorporação para recuperar os principaisk itens de memória mais relevantes. Esses itens são injetados diretamente no prompt do sistema do agente como contexto adicional. É importante ressaltar que o padrão é k=1, um único item de memória recuperado por tarefa. Experimentos de ablação mostram que recuperar mais memórias na verdade prejudica o desempenho: a taxa de sucesso cai de 49,7% em k=1 para 44,4% em k=4. A qualidade e a relevância da memória recuperada são muito mais importantes do que a quantidade.
Terminada a tarefa, um Extrator de memória – alimentado pelo mesmo backbone LLM do agente – analisa a trajetória e a destila em estrutura itens de memória. Cada item tem três componentes: um título (um nome de estratégia conciso), um descrição (um resumo de uma frase) e contente (1–3 frases de etapas de raciocínio destiladas ou insights operacionais). Fundamentalmente, o extrator trata as trajetórias bem-sucedidas e fracassadas de forma diferente: os sucessos contribuem com estratégias validadas, enquanto os fracassos fornecem armadilhas contrafactuais e lições preventivas.
Para decidir se uma trajetória foi bem-sucedida ou não – sem acesso a rótulos de verdade no momento do teste – o sistema usa um LLM como juizque gera um veredicto binário de “Sucesso” ou “Falha” de acordo com a consulta do usuário, a trajetória e o estado final da página. O juiz não precisa ser perfeito; experimentos de ablação mostram que o ReasoningBank permanece robusto mesmo quando a precisão do juiz cai para cerca de 70%.
Novos itens de memória são então anexados diretamente ao armazenamento do ReasoningBank, mantidos como JSON com embeddings pré-computados para pesquisa rápida de similaridade de cosseno, completando o loop.
MaTTS: Emparelhando Memória com Escala de Tempo de Teste
A equipe de pesquisa vai além e apresenta escalonamento de tempo de teste com reconhecimento de memória (MaTTS)que vincula o ReasoningBank ao escalonamento computacional em tempo de teste — uma técnica que já se mostrou poderosa em raciocínio matemático e tarefas de codificação.
O insight é simples, mas importante: o dimensionamento no tempo de teste gera múltiplas trajetórias para a mesma tarefa. Em vez de apenas escolher a melhor resposta e descartar o resto, o MaTTS usa o conjunto completo de trajetórias como ricos sinais contrastantes para extração de memória.
MaTTS entra duas maneiras. Escala paralela gera k trajetórias independentes para a mesma consulta e, em seguida, usa autocontraste — comparando o que deu certo e errado em todas as trajetórias — para extrair itens de memória mais confiáveis e de maior qualidade. Dimensionamento sequencial refina iterativamente uma única trajetória usando auto-refinamentocapturando correções intermediárias e insights como sinais de memória.
O resultado é um ciclo de feedback positivo: uma memória melhor orienta o agente em direção a implementações mais promissoras, e implementações mais ricas criam uma memória ainda mais forte. O artigo observa que em k = 5, o escalonamento paralelo (55,1% SR) supera o escalonamento sequencial (54,5% SR) no WebArena-Shopping – os ganhos sequenciais saturam rapidamente quando o modelo atinge um sucesso ou fracasso decisivo, enquanto o escalonamento paralelo continua fornecendo diversas implementações com as quais o agente pode contrastar e aprender.
Resultados em três benchmarks
Testado no WebArena (um benchmark de navegação na web que abrange tarefas de compras, administração, GitLab e Reddit), Mind2Web (que testa generalização em configurações de tarefas cruzadas, sites cruzados e domínios cruzados) e SWE-Bench-Verified (um benchmark de engenharia de software em nível de repositório com 500 instâncias verificadas), o ReasoningBank supera consistentemente todas as linhas de base em todos os três conjuntos de dados e todos os modelos de backbone testados.
Na WebArena com Gemini-2.5-Flash, o ReasoningBank melhorou a taxa de sucesso geral em +8,3 pontos percentuais acima da linha de base sem memória (40,5% → 48,8%), ao mesmo tempo que reduz as etapas médias de interação em até 1,4 em comparação com sem memória e em até 1,6 em comparação com outras linhas de base de memória. Os ganhos de eficiência são mais acentuados bem-sucedido trajetórias – no subconjunto Compras, por exemplo, o ReasoningBank cortou 2,1 etapas na conclusão bem-sucedida de tarefas (uma redução relativa de 26,9%). O agente alcança soluções mais rapidamente porque conhece o caminho certo, e não simplesmente porque desiste mais cedo das tentativas fracassadas.
No Mind2Web, o ReasoningBank oferece ganhos consistentes em divisões de avaliação entre tarefas, sites e domínios, com as melhorias mais pronunciadas na configuração entre domínios – onde o mais alto grau de transferência de estratégia é necessário e onde métodos concorrentes como AWM realmente degradar em relação à linha de base sem memória.
No SWE-Bench-Verified, os resultados variam significativamente de acordo com o modelo de backbone. Com Gemini-2.5-Pro, o ReasoningBank alcança um Taxa de resolução de 57,4% versus 54,0% para a linha de base sem memória, economizando 1,3 etapas por tarefa. Com o Gemini-2.5-Flash, a economia de etapas é mais dramática — 2,8 etapas a menos por tarefa (30,3 → 27,5) juntamente com uma melhoria na taxa de resolução de 34,2% para 38,8%.
Adicionar MaTTS (escala paralela, k = 5) leva os resultados ainda mais. ReasoningBank com MaTTS alcança 56,3% SR geral na WebArena com Gemini-2.5-Pro — em comparação com 46,7% para a linha de base sem memória — ao mesmo tempo que reduz as etapas médias de 8,8 para 7,1 por tarefa.
Evolução da Estratégia Emergente
Uma das descobertas mais surpreendentes é que a memória do ReasoningBank não permanece estática – ela evolui. Em um estudo de caso documentado, os itens de memória iniciais do agente para uma estratégia de “navegação de informações específicas do usuário” assemelham-se a listas de verificação procedimentais simples: “procure e clique ativamente nos links ‘Próxima página’, ‘Página X’ ou ‘Carregar mais’”. À medida que o agente acumula experiência, esses mesmos itens de memória amadurecem em autorreflexões adaptativas, depois em verificações sistemáticas pré-tarefa e, eventualmente, em estratégias de composição como “cruzar regularmente a visão atual com os requisitos da tarefa; se os dados atuais não estiverem alinhados com as expectativas, reavaliar as opções disponíveis, como filtros de pesquisa e seções alternativas”.
A equipe de pesquisa descreve isso como um comportamento emergente semelhante à dinâmica de aprendizagem do aprendizado por reforço – acontecendo inteiramente no momento do teste, sem qualquer atualização de peso do modelo.
Principais conclusões
- O fracasso é finalmente um sinal de aprendizagem: Ao contrário dos sistemas de memória de agente existentes (Synapse, AWM) que aprendem apenas com trajetórias bem-sucedidas, o ReasoningBank destila estratégias de raciocínio generalizáveis de sucessos e fracassos – transformando erros em proteções preventivas para tarefas futuras.
- Os itens de memória são estruturados, não brutos: O ReasoningBank não armazena logs de ações confusos. Ele compacta a experiência em itens de memória de três partes (título, descrição, conteúdo) que são interpretáveis por humanos e diretamente injetáveis no prompt do sistema de um agente por meio de pesquisa de similaridade baseada em incorporação.
- A qualidade supera a quantidade na recuperação: A recuperação ideal é k=1, apenas um item de memória por tarefa. Recuperar mais memórias prejudica progressivamente o desempenho (49,7% de SR em k=1 cai para 44,4% em k=4), tornando a relevância da memória recuperada mais importante que o volume.
- O escalonamento da memória e do tempo de teste cria um ciclo virtuoso. MaTTS (escalonamento de tempo de teste com reconhecimento de memória) usa diversas trajetórias de exploração como sinais contrastantes para forjar memórias mais fortes, que por sua vez orientam uma melhor exploração – um ciclo de feedback que eleva as taxas de sucesso da WebArena para 56,3% com Gemini-2.5-Pro, acima dos 46,7% sem memória.
Confira o Papel, Repositório e Detalhes técnicos. Além disso, sinta-se à vontade para nos seguir no Twitter e não se esqueça de participar do nosso SubReddit de 130k + ML e inscreva-se em nosso boletim informativo. Espere! você está no telegrama? agora você também pode se juntar a nós no telegrama.
Precisa fazer parceria conosco para promover seu repositório GitHub OU Hugging Face Page OU lançamento de produto OU webinar etc.? Conecte-se conosco
💡 Insight NeuralNet: A adoção de IA deve ser estratégica, não apenas tecnológica. Priorize ferramentas com transparência, ética e alinhamento aos objetivos do seu negócio ou carreira.
📈 Tendências e Aplicações em Destaque
| Área de IA | Aplicação Prática | Maturidade no Brasil | Potencial |
|---|---|---|---|
| IA Generativa | Criação de conteúdo, código e design | 🟡 Em expansão | ⭐⭐⭐⭐⭐ |
| Machine Learning | Análise preditiva, automação de processos | 🟢 Consolidado | ⭐⭐⭐⭐ |
| IA Ética & Governança | Compliance, auditoria de algoritmos | 🔵 Emergente | ⭐⭐⭐⭐⭐ |
📚 Leia Também no NeuralNet:
Fontes: www.marktechpost.com | arXiv | MIT Technology Review | Dados de mercado
Publicado em: 2026-04-23 07:26:00 | Traduzido e adaptado por: NeuralNet
Link original: Ver matéria completa na fonte
Tags: Inteligência Artificial, Machine Learning, IA Generativa, Automação, Ética em IA, Tecnologia, Inovação, Brasil, LLM, Deep Learning
Share this content: